생성형 AI 애플리케이션의 개발 및 배포 지원

[아이티데일리] HPE는 지난 18일(미국 현지시간) 엔비디아(NVIDIA) 연례 컨퍼런스 엔비디아 GTC에서 생성형 AI, 딥러닝, 머신러닝 애플리케이션의 운영 고급화를 위한 업계 가장 통합적인 AI 네이티브 포트폴리오를 새롭게 업데이트했다고 밝혔다.

이번에 발표된 업데이트 사항은 △HPE와 엔비디아가 공동 엔지니어링한 풀스택 생성형 AI 솔루션 △HPE 머신러닝 추론 소프트웨어 프리뷰 버전 △엔터프라이즈급 검생증강생성(Retrieval-augmented generation; RAG) 레퍼런스 아키텍처 △신규 엔비디아 블랙웰(NVIDIA Blackwell) 플랫폼 기반 제품 개발 지원 등으로 요약된다.

생성형 AI용 HPE 슈퍼컴퓨팅 솔루션
생성형 AI용 HPE 슈퍼컴퓨팅 솔루션

HPE CEO인 안토니오 네리(Antonio Neri) 회장은 “생성형 AI의 미래를 실현하고 AI 생명주기 전반을 다루기 위한 솔루션은 설계부터 하이브리드로 제작돼야 한다. AI는 하이브리드 클라우드 환경이 필요한 워크로드로, 온프레미스나 코로케이션 시설, 퍼블릭 클라우드에서 AI 모델을 훈련하는 것에서부터 엣지에서의 추론 작업까지 모든 환경에 걸쳐 진행된다. HPE와 엔비디아는 오랫동안 혁신을 위해 협력해왔다. 양사는 공동 설계한 AI 소프트웨어 및 하드웨어 솔루션을 지속적으로 선보이며 고객들이 기획에서부터 제작까지 생성형 AI를 가속해서 개발하고 배포할 수 있도록 도와줄 것이다”라라고 말했다.

엔비디아 창립자인 젠슨 황(Jensen Huang) CEO는 “생성형 AI는 커넥티드 디바이스, 데이터 센터 및 클라우드 내 데이터에서 인사이트를 도출해내며 전 산업의 혁신을 일으킬 수 있다. 엔비디아와 HPE의 협력 확대에 따라 기업들은 데이터를 활용해 새로운 AI 애플리케이션을 개발 및 배포함으로써 전례없는 생산성 향상을 경험하고 비즈니스를 새롭게 전환할 수 있을 것이다”라고 말했다.


슈퍼컴퓨팅 기반 생성형AI 훈련 및 튜닝

생성형 AI용 HPE 슈퍼컴퓨팅 솔루션은 대규모 AI 모델의 개발 및 훈련을 위해 사전 구성 및 테스트된 풀스택 솔루션을 원하는 기업을 위해 출시됐다. 고객들이 생성형 AI 및 딥러닝 프로젝트 개발을 가속할 수 있도록 목적 기반(purpose built)의 턴키 솔루션은 엔비디아 칩으로 구동되며 최대 168개의 엔비디아 GH200 그레이스 호퍼 슈퍼칩(GH Grace Hopper Superchip)이 제공된다.

해당 솔루션은 대기업, 연구소 및 정부 기관들이 인공지능 및 머신러닝 소프트웨어 스택을 활용한 모델 개발 과정을 더욱 단순화할 수 있도록 지원한다. 이러한 소프트웨어 스택은 고객들이 대규모 언어 모델(LLM), 추천 시스템, 벡터 데이터 베이스 등 생성형 AI와 딥러닝 프로젝트를 더욱 빠르게 추진할 수 있도록 한다. 설치에서부터 설치까지 모든 서비스가 제공되는 턴키 솔루션을 이용해 AI 연구 센터와 대기업은 가치 창출까지의 시간을 더욱 단축하고 훈련은 2-3배 더욱 신속히 진행할 수 있다. 


엔터프라이즈급 생성형 AI 튜닝 및 추론 기능

디스커버 바스셀로나 2023 행사에서 선보였듯이, HPE의 생성형 AI용 엔터프라이즈 컴퓨팅 솔루션은 이제 유연하고 확장 가능한 사용량 기반 과금 모델을 제공하는HPE 그린레이크(HPE GreenLake)를 통해 이용할 수 있다. 엔비디아와 공동 엔지니어링해 사전 구성된 미세 조정(fine-tuning) 및 추론 솔루션은 생성형 AI 애플리케이션을 제작하기 위해 필요한 정확한 컴퓨팅, 스토리지, 소프트웨어, 네트워킹 및 컨설팅 서비스를 제공함으로써 소요 시간과 비용을 절감해 준다. 이러한 AI 네이티브 풀스택 솔루션은 프라이빗 데이터 기반의 파운데이셔널 모델을 제작하기 위해 필요한 속도, 규모, 관리 기능을 제공하고 하이브리드 클라우드 모델 내 생성형 AI 애플리케이션을 배포할 수 있도록 지원한다.

HPE와 엔비디아의 고성능 AI 컴퓨팅 클러스터 및 소프트웨어를 기반으로 해당 솔루션은 경량 모델 미세조정, RAG, 대규모 추론 등에 이상적이다. 이 솔루션을 실행하는 700억 개의 파라미터를 가진 라마 2(Llama 2) 모델의 미세 조정 시간은 노드 수에 따라 선형적으로 감소해 16노드 시스템에서는 6분이 소요된다. 이러한 속도와 성능 덕분에 고객은 버추얼 어시스턴트, 지능형 챗봇, 기업용 검색과 같은 AI 애플리케이션으로 비즈니스 생산성을 개선해 가치 실현을 더욱 빠르게 달성할 수 있다.

또한 해당 솔루션은 HPE 프로라이언트 DL380a 11세대 서버(HPE ProLiant DL380a Gen11 Server)를 기반으로 엔비디아 GPU, 엔비디아 스펙트럼-X 이더넷(NVIDIA Spectrum-X Ethernet) 네트워킹 플랫폼, 엔비디아 블루필드-3 DPU(NVIDIA BlueField-3 DPU)으로 사전 구성돼 있다. 이에 더해 HPE의 머신러닝 플랫폼과 애널리틱스 소프트웨어, 생성형 AI 모델 추론용으로 최적화된 엔디비아 NIM 마이크로서비스가 제공되는 엔비디아 AI 엔터프라이즈 5.0 소프트웨어뿐만 아니라 엔비디아 네모 리트리버(NeMo Retriever) 및 기타 데이터 사이언스와 AI 라이브러리를 이용할 수 있다.

솔루션 도입 시AI 기술 격차를 해소하기 위해 HPE 서비스(HPE Services)의 전문가들이 적합한 모델 조정 기술 등을 포함해 솔루션의 설계, 배포부터 관리까지 지원한다.


프로토타입에서 제작까지

HPE와 엔비디아는 기업들이 AI 및 ML 개념검증 단계에서 실제 애플리케이션 생산으로 넘어갈 수 있는 소프트웨어 솔루션을 제공하기 위해 협업하고 있다. HPE 고객들은 HPE 머신 러닝 추론 소프트웨어(HPE Machine Learning Inference Software) 솔루션을 프리뷰 버전으로 이용할 수 있으며 해당 소프트웨어를 이용해 기업들은 빠르고 안전하게 ML 모델을 대규모로 배포할 수 있다.

프라이빗 데이터를 이용해 생성형 AI 애플리케이션을 빠르게 구축 및 배포해야 하는 기업들을 지원하고자 HPE는 엔비디아 네모 리트리머 마이크로 서비스 아키텍처에 기반한 엔터프라이즈 RAG용 레퍼런스 아키텍처를 개발했다. 해당 레퍼런스 아키텍처는 HPE 에즈메랄 데이터 패브릭 소프트웨어(HPE Ezmeral Data Fabric)와 파일스토리지용 HPE 그린레이크(HPE GreenLake for File Storage)로부터 추출한 종합적인 데이터 파운데이션을 기반으로 한다. HPE는 기업들이 맞춤화된 챗봇, 콘텐츠 생성기, 코파일럿 프로그램을 제작하기 위한 청사진을 해당 아키텍처를 통해 제공받을 수 있을 것이라고 설명했다.

이외에도 데이터 준비, AI 훈련 및 추론 등을 지원하기 위해 해당 솔루션은 HPE 에즈메랄 유니파이드 애널리틱스 소프트웨어(HPE Ezmeral Unified Analytics Software)와 HPE의 AI 소프트웨어에서 모든 오픈소스 툴과 솔루션을 병합해 사용할 수 있도록 했다. HPE 머신 러닝 데이터 매니지먼트 소프트웨어(HPE Machine Learning Data Management Software), HPE 머신 러닝 개발환경 소프트웨어(HPE Machine Learning Development Environment Software), 신규 HPE 머신러닝 추론 소프트웨어(HPE Machine Learning Inference Software) 등도 이에 해당된다. HPE 소프트웨어는 HPE 슈퍼컴퓨팅과 생성형 AI 용 엔터프라이즈 컴퓨팅 솔루션 모두에서 이용가능해 고객은 생성형 AI 워크로드를 일정한 환경에서 관리할 수 있다.


엔비디아 블랙웰 플랫폼 기반 차세대 솔루션

HPE는 향후 새롭게 발표된 엔비디아 블랙웰 플랫폼을 기반으로 제품을 개발할 계획이며, 이러한 제품은 2세대 트랜스포머 엔진(Transformer Engine)을 통합하여 생성형 AI 워크로드를 가속화해 줄 것이라고 밝혔다. 엔비디아 GB200 그레이스 블랙웰 슈퍼칩, HGX 200, HGXB100 등이 장착된 HPE 제품에 관한 더욱 자세한 정보는 다시 공개될 예정이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지