엔비디아, ‘오픈 컴퓨트 프로젝트’에 블랙웰 컴퓨팅 플랫폼 설계 공유

개방형 생태계 확장 위해 ‘OCP 글로벌 서밋’서 GB200 NVL72 주요 요소 공유

2024-10-16     한정호 기자

[아이티데일리] 엔비디아(CEO 젠슨 황)는 ‘오픈 컴퓨트 프로젝트(Open Compute Project; OCP)’에 블랙웰(Blackwell) 가속 컴퓨팅 플랫폼 설계를 제공해 AI 인프라 혁신 가속화에 나선다고 16일 밝혔다.

엔비디아는 개방적이고 효율적이며 확장 가능한 데이터센터 기술 개발을 촉진하고자 블랙웰 가속 컴퓨팅 플랫폼 설계의 기본 요소를 OCP에 제공해 오고 있다는 설명이다. 또한 OCP 표준에 대한 ‘엔비디아 스펙트럼-X(Spectrum-X)’ 지원을 확대할 예정이다.

엔비디아는 올해 OCP 글로벌 서밋(OCP Global Summit)에서 OCP 커뮤니티와 엔비디아 GB200 NVL72 시스템의 전자 기계 설계의 주요 부분을 공유할 계획이다. 여기에는 △높은 컴퓨팅 밀도와 네트워킹 대역폭을 지원하기 위한 랙 아키텍처 △컴퓨팅과 스위치 트레이 기계 구조 △액체 냉각과 열 환경 사양 △엔비디아 NV링크(NVLink) 케이블 카트리지 용적 측정 등이 포함된다.

엔비디아가 OCP에 블랙웰 컴퓨팅 플랫폼 설계를 공유했다.

앞서 엔비디아는 HGX H100 베이스보드 설계 사양을 비롯해 여러 세대의 하드웨어(HW)에 걸쳐 OCP에 공식적으로 기여해 왔다. 이를 통해 전 세계 컴퓨터 제조업체의 제품 선택 폭을 넓히고, 인공지능(AI) 채택을 확대할 수 있도록 생태계를 지원했다는 게 회사 측 설명이다.

또한 OCP 커뮤니티에서 개발한 사양에 맞춰 엔비디아 스펙트럼-X 이더넷(Spectrum-X Ethernet) 네트워킹 플랫폼이 확장됐다. 이를 활용해 기업 고객은 투자를 보호하고 소프트웨어(SW) 일관성을 유지하면서 OCP 인증 장비를 배포하는 AI 팩토리의 성능을 이용할 수 있게 됐다.

엔비디아 젠슨 황(Jensen Huang) CEO는 “엔비디아는 OCP와의 10년간의 협력을 바탕으로 업계 리더들과 함께 전체 데이터센터에 널리 채택될 수 있는 사양과 설계를 만들기 위해 노력하고 있다. 우리는 개방형 표준을 발전시킴으로써 전 세계 조직이 가속 컴퓨팅의 잠재력을 최대한 활용하고 미래의 AI 팩토리를 만들 수 있도록 돕고 있다”고 말했다.

엔비디아가 공유하는 가속 컴퓨팅 플랫폼 GB200 NVL72는 컴퓨터 제조업체가 방대한 데이터센터 인프라 설계를 빠르고 비용 효율적으로 구축할 수 있도록 지원하는 엔비디아 MGX 모듈형 아키텍처를 기반으로 한다. 이는 수냉식 시스템으로서 36개의 엔비디아 그레이스(Grace) CPU와 72개의 엔비디아 블랙웰 GPU를 랙 스케일 설계로 연결한다. 72개의 GPU로 구성된 엔비디아 NV링크 도메인은 단일 대규모 GPU로 작동하며, 엔비디아 H100 텐서 코어(Tensor Core) GPU보다 30배 빠른 실시간 1조 개 매개변수 거대언어모델(LLM) 추론을 제공한다.

차세대 엔비디아 커넥트X-8 슈퍼NIC(ConnectX-8 SuperNIC)를 포함하는 엔비디아 스펙트럼-X 이더넷 네트워킹 플랫폼은 OCP의 스위치 앱스트랙션 인터페이스(SAI)와 소닉(SONiC) 표준을 지원한다. 이를 통해 고객은 스펙트럼-X의 적응형 라우팅과 원격 측정 기반 혼잡 제어를 사용함으로써 스케일 아웃(scale-out) AI 인프라를 위한 이더넷 성능을 가속화할 수 있다.

커넥트X-8 슈퍼NIC는 최대 800Gb/s 속도의 가속화된 네트워킹과 대규모 AI 워크로드에 최적화된 프로그래밍 가능한 패킷 처리 엔진을 제공한다. OCP 3.0용 커넥트X-8 슈퍼NIC는 내년에 출시될 예정이다.

엔비디아는 점점 가속화되고 복잡해지는 데이터센터 인프라 환경에 맞춰, 개발 프로세스를 간소화하기 위해 AI 팩토리 구축을 위한 핵심 구성 요소를 제공하는 40개 이상의 글로벌 전자제품 제조업체와 협력하고 있다. 또한 GB200 NVL72 기반의 카탈리나 AI(Catalina AI) 랙 아키텍처를 OCP에 제공할 계획인 메타(Meta)를 비롯, 다양한 파트너가 블랙웰 플랫폼을 기반으로 구축을 진행하고 있다.

메타 이 지운 송(Yee Jiun Song) 엔지니어링 부사장은 “엔비디아는 지난 2년간 그랜드 티턴(Grand Teton) 서버의 기반이 된 고성능 컴퓨팅 플랫폼을 비롯해 수년 동안 개방형 컴퓨팅 표준에 크게 기여해 왔다. 대규모 AI의 컴퓨팅 수요 증가를 충족하기 위해 발전하는 과정에서 랙 설계와 모듈식 아키텍처에 대한 엔비디아의 최신 기여는 업계 전반에서 AI 인프라의 개발과 구현 속도를 높이는 데 도움이 될 것”이라고 말했다.