엔비디아·인텔·AMD 차세대 컴퓨팅 및 가속기 탑재…고성능 AI 학습 및 튜닝 지원

[아이티데일리] HPE는 리더십급 ‘HPE 크레이 슈퍼컴퓨팅 EX(HPE Cray Supercomputing EX)’ 솔루션과 거대언어모델(LLM) 학습, 자연어 프로세싱(NLP) 및 멀티모달 모델 학습에 최적화된 시스템 2종을 포함한 새로운 고성능 컴퓨팅(HPC)과 인공지능(AI) 인프라 포트폴리오를 발표했다고 15일 밝혔다.

HPE의 트리시 댐크로거(Trish Damkroger) HPC 및 AI 인프라 솔루션 부문 수석 부사장은 “소버린 AI 이니셔티브에 투자하는 서비스 제공업체(SP)와 국가들은 발견과 혁신을 가속화하기 위한 대규모 AI 학습을 가능하게 하는 중요한 백본으로 HPC를 점점 더 많이 고려하고 있다”며 “고객은 세계 최고의 HPC 솔루션과 완전 통합형 시스템 제공, 배포 및 서비스 분야에서 수십 년간 쌓아온 경험을 활용해 더 빠르고 효율적으로 가치를 실현하면서 AI 시스템 배포를 빠르게 진행하기 위해 HPE에 주목하고 있다”고 말했다.


엔드투엔드 HPC 솔루션 포트폴리오 ‘HPE 크레이 슈퍼컴퓨팅 EX’

HPE 크레이 슈퍼컴퓨팅 EX 시스템을 기반으로 하는 전체 리더십급 HPC 포트폴리오의 이번 신제품은 연구 기관과 소버린 AI 이니셔티브를 개발하는 정부 기관을 위해 설계됐다. 해당 포트폴리오는 100% 팬리스 직접 수냉 방식(Fanless DLC) 시스템 아키텍처를 기반으로 하며 컴퓨팅 노드, 네트워킹, 스토리지를 포함한 HPE 슈퍼컴퓨팅 솔루션의 모든 레이어에 걸쳐 새로운 소프트웨어(SW) 오퍼링으로 보완된다.

이번에 발표된 주요 라인업은 △HPE 크레이 슈퍼컴퓨팅 EX4252 2세대 컴퓨팅 블레이드 △HPE 크레이 슈퍼컴퓨팅 EX154n 가속기 블레이드 △HPE 슬링샷 인터커넥트 400 △HPE 크레이 슈퍼컴퓨팅 스토리지 시스템 E2000 △HPE 크레이 슈퍼컴퓨팅 사용자 서비스 SW 등이다.

HPE 크레이 슈퍼컴퓨팅 EX4000에 컴퓨팅 블레이드를 설치하는 모습
HPE 크레이 슈퍼컴퓨팅 EX4000에 컴퓨팅 블레이드를 설치하는 모습

HPE 크레이 슈퍼컴퓨팅 EX4252 2세대 컴퓨팅 블레이드는 단일 캐비닛에서 최대 98,304개의 코어를 제공할 수 있는 원랙 유닛 시스템 구현 제품이다. 8개의 5세대 AMD 에픽(EPYC) 프로세서가 탑재됐다. 해당 제품은 내년초 출시될 예정이다.

특히 HPE 크레이 슈퍼컴퓨팅 EX154n 가속기 블레이드는 단일 캐비닛에 최대 224개 엔비디아 블랙웰(NVIDIA Blackwell) GPU를 탑재할 수 있는 제품이다. 각 가속기 블레이드는 엔비디아 GB200 그레이스 블랙웰 NVL4 슈퍼칩(NVIDIA GB200 Grace Blackwell NVL4 Superchip)을 탑재하고 있으며, 엔비디아 NV링크-C2C를 통해 2개의 엔비디아 그레이스 CPU와 통합된 4개의 엔비디아 NV링크 연결 블랙웰(NVIDIA NVLink-connected Blackwell) GPU를 보유하고 있다. HPE 크레이 슈퍼컴퓨팅 EX154n 가속기 블레이드는 내년 말에 공급(GA)될 예정이다.

HPE 크레이 슈퍼컴퓨팅 스토리지 시스템 E2000은 이전 세대 대비 입출력(I/O) 성능이 두 배 이상 향상됐다. HPE 크레이 슈퍼컴퓨팅 스토리지 시스템 E2000은 오픈소스 러스터(Lustre) 파일 시스템을 기반으로 하며, I/O 작업 중 유휴 시간을 줄여 CPU 및 GPU 기반 컴퓨팅 노드 모두의 활용도를 높일 수 있도록 설계됐다. 이 HPC 스토리지 시스템은 내년 초에 HPE 크레이 슈퍼컴퓨팅 EX 시스템에서 기본 제공될 예정이다.


AI 모델 학습·튜닝 최적화된 새로운 ‘HPE 프로라이언트 컴퓨트 XD 서버’

AI 모델 학습 및 튜닝에 최적화된 새로운 HPE 프로라이언트 컴퓨트 XD(HPE ProLiant Compute XD) 서버 제품군도 공개됐다. 자체 AI 모델을 학습하는 SP와 대기업을 위해 설계된 HPE 프로라이언트 컴퓨트 XD 서버는 대규모 AI 시스템 설치 및 배포에 대한 HPE의 전문성에 기반한다. HPE의 첨단 제조 시설 내에서 솔루션의 구축, 맞춤화, 통합, 검증, 전체 테스트를 지원하는 HPE 서비스 옵션을 활용하면 신속한 온사이트 배포가 가능하다는 설명이다.

HPE 프로라이언트 컴퓨트 서버에서만 사용 가능한 HPE iLO(Integrated Lights-Out) 관리 기술을 사용하면 일부 권한이 있는 직원이 서버에 대한 대역 외 원격 제어 액세스를 허용해 표준 대역 내 네트워크 액세스보다 보안도 강화할 수 있다.

가격 대비 성능을 염두에 두고 최적화된 공냉 방식 HPE 프로라이언트 컴퓨트 XD680 서버는 복잡한 AI 학습, 튜닝 및 추론 워크로드를 처리하도록 설계됐다. HPE가 설계한 섀시에는 단일 컴팩트 노드에 8개의 인텔 가우디 3 AI 가속기가 탑재돼 있다. 해당 서버는 내달 중 출시될 예정이다.

HPE 프로라이언트 컴퓨트 XD680
HPE 프로라이언트 컴퓨트 XD680

HPE 프로라이언트 컴퓨트 XD685 서버는 성능, 경쟁 우위, 에너지 효율성을 우선시하는 고객을 위해 대규모의 복잡한 AI 모델에 대한 학습을 가속화할 수 있는 엔비디아 GPU가 탑재됐다. 해당 서버는 5개의 랙 유닛 섀시에 8개의 엔비디아 H200 SXM 텐서 코어 GPU 또는 엔비디아 블랙웰 GPU로 구동되며, 수냉식 냉각 기능으로 GPU, CPU 및 스위치를 효율적으로 냉각시킨다. HPE 프로라이언트 컴퓨트 XD685 서버의 엔비디아 HGX H200 8-GPU 버전은 내년 초 출시되며, 엔비디아 블랙웰 GPU 버전도 출시에 맞춰 선보일 예정이다.

앞서 HPE는 지난달 8개의 AMD 인스팅트 MI325X(AMD Instinct MI325X) 가속기와 2개의 AMD 에픽 CPU가 탑재된 HPE 프로라이언트 컴퓨트 XD685 서버 버전을 발표한 바 있다. HPE 프로라이언트 컴퓨트 XD 서버는 HPE 프라이빗 클라우드 AI 및 HPE 프로라이언트 컴퓨트 DL 서버를 포함한 HPE의 대표 AI 제품군의 일부다.

HPE는 오는 17일부터 22일까지 미국 애틀랜타에서 전 세계 슈퍼컴퓨터 기술 전시회인 ‘슈퍼컴퓨팅24(SC24)’에서 차세대 HPC 및 대규모 AI 시스템에 대한 정보를 공유하고, 다양한 HPE 솔루션을 선보일 계획이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지