AI 슈퍼컴 서비스 ‘DGX 클라우드’ 공개, CSP와 협력 강화

[아이티데일리] 챗GPT(ChatGPT)를 필두로 하는 다양한 생성형 인공지능(Generative AI) 서비스들이 주목받으면서 AI가 다시 한번 IT업계를 뒤흔들고 있다. 단순히 게임만을 위한 것이 아님을 이제 모두가 알고 있는 ‘GPU’를 설계·개발하는 엔비디아(NVIDIA)는 이제 AI의 기반이 되는 컴퓨팅 인프라 기술 혁신에 본격적으로 역량을 집중하고 있다. 엔비디아의 자체 AI 개발자 행사인 ‘GTC(GPU Technology Conference) 2023’ 행사를 통해 공개된 클라우드 기반 AI 슈퍼컴퓨터 서비스와, 클라우드 서비스 공급업체(CSP)들과의 협력 등의 소식을 살펴본다.

엔비디아 창립자 젠슨 황 CEO가 ‘DGX 클라우드’를 발표하고 있다.
엔비디아 창립자 젠슨 황 CEO가 ‘DGX 클라우드’를 발표하고 있다.

AI 슈퍼컴퓨팅 인프라 및 SW, 브라우저 통해 사용

올해 GTC 행사에서 엔비디아는 클라우드 기반 AI 슈퍼컴퓨팅 서비스인 ‘엔비디아 DGX 클라우드(NVIDIA DGX Cloud)’를 발표했다. ‘DGX 클라우드’는 기업들이 생성형 AI를 비롯, 기타 획기적인 애플리케이션에 사용되는 고급 모델을 훈련하는 데 필요한 인프라와 각종 소프트웨어를 즉시 사용할 수 있도록 지원한다.

DGX 클라우드는 ‘엔비디아 AI(NVIDIA AI)’ 소프트웨어와 함께 ‘엔비디아 DGX’ AI 슈퍼컴퓨팅 전용 클러스터를 제공한다. 모든 기업은 웹 브라우저를 통해 엔비디아가 제공하는 AI 슈퍼컴퓨터에 액세스할 수 있게 되며, 이로써 온프레미스 인프라 구축, 배포, 관리의 복잡성을 없앨 수 있다. DGX 클라우드 클러스터는 월 단위로 임대할 수 있으며, 사용료는 인스턴스당 월 36,999달러부터 시작한다.

기업들은 DGX 클라우드와 온프레미스 엔비디아 DGX 슈퍼컴퓨터에서 원활한 사용자 경험을 제공하는 ‘엔비디아 베이스 커맨드 플랫폼(Base Command Platform)’ 소프트웨어를 사용해 DGX 클라우드에서의 훈련 워크로드를 관리, 모니터링할 수 있다. 베이스 커맨드 플랫폼을 사용해 각 작업에 필요한 적절한 양과 유형의 DGX 인프라로 워크로드를 실행할 수 있다.

DGX 클라우드에 포함된 엔비디아 AI 플랫폼의 소프트웨어 계층 ‘엔비디아 AI 엔터프라이즈’는 데이터 사이언스 파이프라인을 가속화하고 프로덕션 AI의 개발, 배포를 간소화하기 위해 엔드투엔드(end-to-end) AI 프레임워크와 사전 훈련된 모델을 제공한다. 새로 출시된 ‘엔비디아 AI 엔터프라이즈 3.1’에서 제공되는 새로운 사전 훈련된 모델, 최적화된 프레임워크, 가속화된 데이터 사이언스 소프트웨어 라이브러리는 개발자가 AI 프로젝트 시작을 더 쉽게 할 수 있도록 지원한다.

DGX 클라우드의 각 인스턴스는 노드당 총 640GB의 GPU 메모리에 8개의 엔비디아 ‘H100’ 또는 ‘A100’ 80GB 텐서 코어(Tensor Core) GPU를 갖추고 있다. ‘엔비디아 네트워킹(Networking)’으로 구축된 저지연 고성능 패브릭은 워크로드를 상호 연결된 시스템의 클러스터 전체로 확장할 수 있도록 지원하므로, 여러 인스턴스가 하나의 대규모 GPU 역할을 해 고성능 AI 훈련에 필요한 요구사항을 충족할 수 있다. 고성능 스토리지는 DGX 클라우드에 통합돼 AI 슈퍼컴퓨팅을 위한 완벽한 솔루션을 제공한다.

뿐만 아니라 DGX 클라우드는 AI 개발 파이프라인 전체에 대해 엔비디아 전문가의 지원을 제공한다. 고객은 엔비디아 엔지니어와 직접 협력해 모델을 최적화하고, 폭넓은 산업 사용 사례에서 개발 관련 문제를 신속하게 해결할 수 있다.

엔비디아 창립자인 젠슨 황(Jensen Huang) CEO는 “우리는 아이폰(iPhone)이 출시되는 순간과 같은 혁명을 AI 분야에서 맞이하고 있다. 스타트업은 파격적인 제품과 비즈니스 모델을 구축하기 위해 경쟁하고 있으며, 기존 기업도 이에 대한 대응을 모색하고 있다. DGX 클라우드를 통해 고객은 글로벌 규모의 클라우드에서 엔비디아 AI 슈퍼컴퓨팅에 즉시 액세스할 수 있다”고 말했다.


클라우드 서비스 제공업체들과의 다양한 협력 발표

엔비디아는 다양한 클라우드 서비스 제공업체(CSP)들과의 협력도 발표했다. 우선 엔비디아는 ‘DGX 클라우드’ 인프라 호스팅을 위해 가장 먼저 오라클과 손을 잡았다. DGX 클라우드는 일단 최초로 ‘OCI(Oracle Cloud Infrastructure)’를 통해 서비스가 제공된다.

‘OCI RDMA 슈퍼클러스터(OCI RDMA Supercluster)’는 32,000개 이상의 GPU 슈퍼클러스터로 확장할 수 있는 전용 RDMA 네트워크, 베어메탈 컴퓨팅, 고성능 로컬, 블록 스토리지를 제공한다. 특히 오라클은 OCI에 엔비디아 블루필드-3(BlueField-3) DPU(Data Processing Unit)를 채택해 까다로운 AI 워크로드를 보다 에너지 효율적이고 안전하게 처리할 수 있는 강화된 컴퓨팅 성능을 제공한다.

마이크로소프트와도 협력한다. 2분기에는 ‘DGX 클라우드’ 호스팅을 마이크로소프트 애저(Microsoft Azure)에서도 시작할 예정이며, 산업용 메타버스 애플리케이션을 설계·개발·배포하기 위한 풀 스택 환경의 PaaS(서비스형 플랫폼) ‘엔비디아 옴니버스 클라우드(NVIDIA Omniverse Cloud)’도 제공한다. 또한 ‘팀즈(Teams)’, ‘원드라이브(OneDrive)’, ‘쉐어포인트(SharePoint)’ 등의 마이크로소프트 365(Microsoft 365) 애플리케이션을 3D 산업용 메타버스 애플리케이션 구축·운영 플랫폼인 ‘엔비디아 옴니버스(NVIDIA Omniverse)’와 연결해 생산성 및 3D 협업 플랫폼을 통합한다.

기업은 ‘옴니버스’를 ‘애저 디지털 트윈’ 및 ‘애저 IoT’에 연결함으로써 센서에서 얻은 실시간 데이터를 디지털 복제본에 연결할 수 있다. 이를 통해 물리적 환경의 변화에 자동으로 대응하는, 보다 정확하고 역동적이며 완벽하게 작동하는 3D 디지털 트윈을 구축하고 운영할 수 있다. 엔비디아 옴니버스를 위해 애저는 엔터프라이즈 서비스 배포에 필요한 규모의 보안, 아이덴티티 및 스토리지를 포함하는 클라우드 인프라와 기능을 제공한다. ‘엔비디아 OVX’ 컴퓨팅 시스템으로 구동되는 ‘옴니버스 클라우드’는 올해 하반기에 애저에서 사용할 수 있다.

엔비디아는 마이크로소프트 애저 클라우드를 통해 산업용 메타버스 및 AI 서비스를 제공한다.
엔비디아는 마이크로소프트 애저 클라우드를 통해 산업용 메타버스 및 AI 서비스를 제공한다.

구글 클라우드와는 생성형 AI 구축을 위한 고성능 플랫폼 제공을 위해 손을 잡았다. 새롭게 출시된 엔비디아의 L4 GPU와 구글 클라우드의 ‘버텍스AI(Vertex AI)’를 통합해 제공하게 된다. L4 GPU 기반 클라우드 서버로는 현재 유일한 서비스인 구글 클라우드의 ‘G2 VM’은 생성형 AI와 같은 대규모 추론 워크로드에 특화됐다.

엔비디아에 따르면 L4 GPU는 모든 워크로드를 위한 범용 GPU로, L4 GPU의 향상된 AI 비디오 기능은 CPU 대비 120배 높은 AI 기반 비디오 성능과 99% 개선된 에너지 효율성을 제공한다. 4세대 텐서 코어를 탑재한 Ada 러브레이스 아키텍처 기반의 L4 GPU는 FP32 30테라플롭스(TFLOPS), FP16 242테라플롭스(TFLOPS)의 성능을 제공한다. 직전 세대인 T4 GPU 대비 2~4배에 달하는 성능 개선이 가능하다는 설명이다. 또한 엔비디아는 구글 클라우드(Google Cloud)를 통해서도 ‘DGX 클라우드’ 서비스를 제공할 계획이다.

마지막으로 아마존웹서비스(AWS)와는 대규모 언어 모델(LLM)과 생성형 AI 애플리케이션의 개발을 위해 협력한다. 이번 협력에는 최대 20엑사플롭스(exaFLOPS)의 컴퓨팅 성능을 제공하는 ‘엔비디아 H100’ 텐서 코어 GPU와 AWS의 최첨단 네크워킹 및 확장성을 기반으로 하는 차세대 ‘아마존 EC2(Amazon Elastic Compute Cloud) P5 인스턴스’가 사용되며, 이를 통해 세계 최대 규모의 딥러닝 모델을 구축하고 훈련할 것으로 전망된다.

P5 인스턴스는 3,200Gbps의 저지연, 고대역폭 네트워킹 처리량을 제공하는 AWS의 2세대 EFA(Elastic Fabric Adapter)를 활용하는 최초의 GPU 기반 인스턴스로, EC2 울트라클러스터(UltraCluster)에서 최대 20,000개의 H100 GPU를 확장해 온디맨드 방식으로 AI용 슈퍼컴퓨터급 성능을 사용할 수 있다.

엔비디아 H100 텐서 코어 GPU

엔비디아 H100 텐서 코어 GPU
엔비디아 H100 텐서 코어 GPU

트랜스포머 엔진(Transformer Engine)이 내장된 엔비디아 ‘호퍼(Hopper)’ GPU 컴퓨팅 아키텍처를 기반으로 하는 ‘H100’은 생성형 AI, 대규모 언어 모델(LLM) 및 추천 시스템을 개발, 훈련 및 배포하는 데 최적화돼 있다. 이 기술은 H100의 FP8 정밀도를 활용하며 이전 세대 A100에 비해 LLM에서 9배 빠른 AI 훈련과 최대 30배 빠른 AI 추론을 제공한다.

엔비디아 DGX H100은 엔비디아 ‘NV링크(NVLink)’ 고속 인터커넥트로 연결된 8개의 H100 GPU와 통합된 엔비디아 ‘퀀텀 인피니밴드(Quantum InfiniBand)’ 및 ‘스펙트럼(Spectrum)’ 이더넷 네트워킹을 사용한다. 이전 세대보다 2배 빠른 네트워킹으로 FP8 정밀도에서 32페타플롭스의 컴퓨팅 성능을 제공해, 대규모 AI 워크로드를 처리할 때 에너지 효율성을 극대화한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지