[NVIDIA②] 엔비디아가 제시한 ‘AI 팩토리’ HW·SW 로드맵
NIM·다이나모부터 DGX 슈퍼팟까지… 추론 시대 AI 인프라의 새로운 표준
[아이티데일리] 글로벌 인공지능(AI) 반도체 칩 기업 엔비디아(NVIDIA)는 AI 팩토리(AI Factory)를 새로운 데이터센터 패러다임으로 제시하며 AI 인프라의 표준을 재정의하고 있다. 이를 기반으로 최근 학습 중심에서 추론 중심으로 전환되는 AI 흐름 속에서, 엔비디아는 인퍼런스 최적화를 중심으로 한 하드웨어·소프트웨어 스택을 통해 기업의 AI 생산성을 높이는 방향을 제시했다.
토큰 생성이 곧 경쟁력
전통적인 데이터센터가 대규모 데이터를 저장하고 빠르게 검색하는 리트리벌(Retrieval) 중심의 워크로드에 최적화됐다면, AI 팩토리는 막대한 양의 ‘토큰’, 즉 지능을 빠르게 생성하는 제너레이션(Generation) 워크로드에 최적화됐다는 차이점을 보인다.
엔비디아 이진호 솔루션즈 아키텍트는 토큰에 대해 “챗봇의 텍스트·이미지 출력, 헬스케어 분야의 단백질 구조, 로봇과 자율주행의 다음 액션 인식 등 모든 정보가 토큰으로 치환된다”며 토큰을 AI 시스템이 생성하거나 처리하는 정보의 최소 단위이자 다양한 형태의 데이터(텍스트, 이미지, 행동 등)를 포괄하는 개념이라고 설명했다.
최근 하이퍼스케일러들은 데이터센터당 보유한 엑사바이트 규모의 데이터 양이 아닌 분기당 생성하는 토큰의 개수를 경쟁력의 지표로 활용하는 추세다. 이는 AI 팩토리가 새로운 경제 단위로 자리잡고 있다는 증거라는 게 이진호 솔루션즈 아키텍트의 설명이다.
‘인퍼런스(추론)’, 핵심 타격 워크로드로 설정
엔비디아는 현재 수많은 기업이 직면한 가장 크고 복잡한 문제를 학습이 아닌 추론으로 판단하고 있다. 지난해 3월 엔비디아 AI 컨퍼런스인 ‘GTC(GPU Technology Conference) 2024’에서 소개된 ‘GB200 NVL72’의 경우, 챗GPT 모델 학습을 주요 워크로드로 설정하고 시스템 성능을 벤치마크했다. 이와 달리 올해 ‘GTC 2025’에서 공개된 ‘그레이스 블랙웰 울트라 NVL72(Grace Blackwell NVL72)’는 인퍼런스를 핵심 워크로드로 삼았다. 인퍼런스란 주어진 정보나 데이터를 바탕으로 결론을 추론하는 과정을 일컫는다. 이진호 솔루션즈 아키텍트는 “엔비디아는 제품을 출시할 때 보통 그 시기에 기업들이 가장 관심을 가지는 문제를 타겟 워크로드로 설정한다”고 말했다.
NIM과 다이나모(Dynamo) 등 소프트웨어 스택을 통해 복잡한 튜닝 없이도 최적의 인퍼런스 성능을 제공하고자 한다. NIM은 NVIDIA Inference Microservices의 약자로, 엔비디아가 제공하는 인퍼런스 최적화 소프트웨어 솔루션이다. 다양한 AI 모델의 인퍼런스 워크로드를 쉽고 효율적으로 배포 및 운영할 수 있도록 돕는다. NIM은 각 AI 모델별로 최적의 프레임워크와 옵션 조합을 직접 실험·검증한 뒤, 이를 컨테이너 형태로 패키징해 제공하는 추론 마이크로 서비스다.
이를 통해 사용자는 방대한 튜닝 작업 없이도 최적화된 조합의 컨테이너를 바로 활용할 수 있다. 딥시크(DeepSeek) 모델을 비롯해 다양한 오픈소스 모델, 비전, 헬스케어 등 멀티 모달리티 모델까지 지원한다. NIM은 엔터프라이즈급 소프트웨어로, 업계 표준 API를 통해 쉽게 통합할 수 있다. 또한 퍼플렉시티(Perplexity) 등 주요 기업들이 실제 API 서비스에 활용하고 있다.
추론 과정은 크게 입력 쿼리를 처리하는 프리필(Context Phase)과 결과를 생성하는 디코드(Generation Phase)로 나뉘며, 각 단계는 연산 특성이 다르다. 프리필은 연산 집약적이고, 디코드는 메모리 집약적이다. 대규모 서비스에서는 두 단계를 별도의 GPU로 분리해 처리하는 ‘디스어그리게이티드 서빙(Disaggregated Serving)’ 방식을 통해 전체 처리량을 높이고 비효율을 줄인다. 엔비디아는 이러한 최적화를 쉽게 구현할 수 있도록 올해 3월 ‘다이나모(Dynamo)’라는 오픈소스 프로젝트를 공개했다.
먼저 다이나모는 엔비디아가 지난 2024년 3월 공개한 오픈소스 분산형 서빙 프레임워크다. 대규모 AI 모델의 추론(인퍼런스) 효율을 극대화하기 위해 개발됐다. 다이나모란 기계 에너지를 전기 에너지로 바꿔주는 발전기라는 뜻으로, 2차 산업혁명 시대의 핵심 기술 중 하나로 꼽힌다. 엔비디아는 다이나모를 AI 팩토리에서 토큰 생성을 가속하는 핵심 엔진이라는 의미로 명명했다. 딥시크(DeepSeek) 모델에서 30개 이상의 쓰루풋(Throuput)을 생산하고, 1,000개 이상의 대규모 클러스터까지 확장할 수 있 것으로 파악됐다.
다이나모는 기존 LLM 서빙 프레임워크를 대체하는 것이 아니라 이들과 연동해 디스어그리게이티드 서빙 기술을 추가로 지원하는 게 핵심이다. ‘텐서RT-LLM(TensorRT-LLM)’, ‘팬서(Panther)’ 등 다양한 LLM 추론 엔진 및 프레임워크와 통합돼 작동할 수 있다. 이를 통해 프리필과 디코드 등 연산 단계를 독립적으로 처리하고, GPU 자원을 효율적으로 분배할 수 있는 분산 아키텍처를 구현한다.
AI 팩토리 구축을 위한 턴키 솔루션 ‘DGX 슈퍼팟’
국내에서 비교적 널리 활용되는 엔비디아 제품군으로는 DGX·HGX B300이 꼽힌다. 엔비디아 DGX(Deep GPU Xceleration)는 AI와 딥러닝에 특화된 고성능 서버 및 워크스테이션 시리즈다. 엔비디아 프레말 사블라(Premal Savla) DGX 시스템 및 솔루션 시니어 디렉터는 “DGX가 엔드-투-엔드 AI 팩토리를 위해 최적화됐다”고 강조했다.
NVIDIA는 엔터프라이즈의 AI 팩토리 구축을 가속화하기 위해 ‘DGX 슈퍼팟(SuperPOD)’ 레퍼런스 아키텍처를 서비스한다. 이 솔루션은 단순한 하드웨어 네트워킹은 물론 배포와 운영에 필요한 소프트웨어와 딜리버리까지 포함하는 턴키 솔루션이다. ‘그레이스 블랙웰 x86(Grace Blackwell x86)’뿐만 아니라 그레이스 블랙웰 제품군에도 사용할 수 있다.
더불어 엔비디아는 배포 측면에서 데이터센터 공간을 확보하기 어려운 기업을 위해 두 가지 경로를 제시한다. 자체 데이터센터를 보유한 기업은 즉시 DGX 시스템을 온라인에 배포할 수 있다. 반면 데이터 센터가 없는 기업을 대상으로 엔비디아는 파트너와 협력해 ‘DGX 레디 데이터센터(Ready Data Center) 프로그램’을 운영한다. 이 프로그램은 관리 서비스, 주문형 서비스 또는 프라이빗 AI를 제공할 수 있는 파트너를 연결하고, 기업이 DGX 플랫폼 기반의 AI 팩토리를 운영할 수 있도록 데이터센터 공간 확보를 지원한다.