클라우드 환경 AI 가속기에서 모든 생성형 AI 모델 실행 지원

[아이티데일리] 글로벌 오픈소스 솔루션 전문기업 레드햇(RedHat)은 생성형 인공지능(AI)의 대중화에 중요한 역할을 할 ‘레드햇 AI 인퍼런스 서버(Red Hat AI Inference Server)’를 출시했다고 21일 발표했다. 해당 서버는 엔터프라이즈급 추론 서버로, 가상대규모언어모델(vLLM) 커뮤니티 프로젝트와 레드햇의 뉴럴매직(Neural Magic) 기술을 통합해 개발됐다.

추론은 인공지능이 축적된 데이터를 바탕으로 판단을 내리고 결과를 도출해내는 과정으로, 일종의 실행 엔진 역할을 한다. 생성형 AI 모델의 복잡성이 폭발적으로 증가하고 프로덕션 배포가 확장됨에 따라 추론은 심각한 병목 현상을 일으켜 하드웨어 자원을 과도하게 소모하고 운영 비용을 증가시킬 우려가 있다. 이에 강력한 추론 서버는 이제 AI의 진정한 잠재력을 큰 규모로 실현하고 근본적인 복잡성을 보다 쉽게 탐색하기 위한 필수 요소가 됐다.

이러한 흐름에 맞춰 레드햇은 고성능을 목표로 선도적인 모델 압축 및 최적화 도구를 갖춘 개방형 추론 솔루션 ‘레드햇 AI 인퍼런스 서버’를 통해 이러한 과제들을 해결할 수 있다고 설명한다. 해당 서버는 더욱 향상된 속도와 가속기 효율성 등을 통해 모든 클라우드 환경의 AI 가속기에서 모든 생성형 AI 모델을 실행할 수 있도록 지원한다.

또한 독립형 배포와 함께 ‘레드햇 엔터프라이즈 리눅스 AI(Red Hat Enterprise Linux AI)’ 및 ‘레드햇 오픈시프트 AI(Red Hat OpenShift AI)’ 등의 통합 구성 요소 배포 여부와 관계없이 조직이 보다 안전하게 생성형 AI를 프로덕션 환경에 배포·확장할 수 있도록 서비스한다. 특히 해당 서버는 모든 배포 환경에서 사용자에게 vLLM의 강화된 지원 배포판과 함께 △지능형 LLM 압축 도구 △모델 저장소 최적화 △레드햇의 엔터프라이즈 지원 △서드파티 지원 등을 제공한다.

레드햇 AI 사업 부문 조 페르난데스(Joe Fernandes) 부사장은 “추론은 생성형 AI의 진정한 잠재력이 발휘되는 부분으로, 사용자 상호 작용 모델에 의해 신속 정확한 응답 제공 및 비용 효율적인 방식으로 서비스돼야 한다”며 “레드햇 AI 인퍼런스 서버는 대규모 고성능 추론에 대한 수요를 충족하면서 리소스 요구 사항을 낮게 유지할 수 있다”고 말했다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지