IBM, 차세대 IBM Z 메인프레임 시스템 AI 가속 프로세서 ‘텔럼 II’ 공개

‘앙상블 AI’ 방식 지원…삼성 파운드리에서 5nm 공정 노드 기반으로 제조 예정

2024-08-27 한정호 기자

[아이티데일리] IBM은 핫 칩스(Hot Chips) 2024에서 곧 출시될 ‘IBM 텔럼(Telum) II 프로세서’와 ‘IBM 스파이어 엑셀러레이터(Spyre Accelerator)’의 아키텍처 세부 사항을 공개했다고 27일 밝혔다.

이번에 발표된 기술은 차세대 IBM Z 메인프레임 시스템의 처리 용량을 크게 확장하도록 설계됐다. 기존 인공지능(AI) 모델과 거대언어모델(LLM)을 함께 사용할 때 새로운 AI 앙상블 방식을 통해 속도를 높일 수 있도록 지원한다.

LLM을 활용하는 많은 생성형 AI 프로젝트가 개념증명(PoC)에서 생산 단계로 넘어가면서 전력 효율적이고 안전하며 확장 가능한 솔루션에 대한 요구가 우선순위로 떠올랐다. 이달 발표된 모건 스탠리의 연구에 따르면, 향후 몇 년 동안 생성형 AI의 전력 수요가 매년 75%씩 급증해 2026년에는 스페인 전체가 2022년에 소비한 에너지 사용량만큼을 소비하게 될 것으로 전망된다.

IBM은 많은 고객들이 적정한 규모의 파운데이션 모델(FM)을 지원하기 위한 아키텍처 결정과 AI 워크로드를 위해 설계된 하이브리드 클라우드 접근 방식을 점점 더 중요하게 인식하고 있다고 설명한다.

이를 지원하고자 IBM은 새로운 AI 가속 프로세서 텔럼 II를 선보였다. IBM의 텔럼 II 프로세서는 차세대 IBM Z 시스템을 구동하도록 설계된 칩이다. 1세대 텔럼 칩 대비 증가한 클럭(주파수) 및 메모리 용량, 40% 증가한 캐시 및 통합 AI 가속기 코어, 데이터 처리에 일관성을 제공하는 부속 데이터 처리 장치(DPU)가 주요 특징이다. 이를 통해 업계의 복잡한 트랜잭션 요구 사항을 충족하고 LLM을 위한 엔터프라이즈 컴퓨팅 솔루션을 지원할 것이라는 게 회사 측 기대다.

텔럼 II 프로세서 칩의 새로운 데이터 처리 장치(DPU)는 메인프레임의 네트워킹 및 스토리지를 위한 복잡한 IO 프로토콜을 가속화하도록 설계됐다. DPU는 시스템 운영을 간소화하고 주요 구성 요소의 성능을 향상시킬 수 있다.

이번에 함께 발표된 IBM 스파이어 엑셀러레이터는 텔럼 II 프로세서를 보완하기 위해 추가적인 AI 연산 능력을 제공한다. 텔럼 II와 스파이어 칩은 함께 작동해 여러 개의 머신러닝 또는 딥러닝 AI 모델을 인코더 LLM과 결합하는 앙상블 방식을 접목, AI 모델링을 지원하기 위한 확장 가능한 아키텍처를 형성한다. IBM은 각 모델 아키텍처의 강점을 활용함으로써 앙상블 AI는 개별 모델 대비 더 정확하고 강력한 결과를 제공할 수 있다고 강조한다.

이번 핫 칩스 2024 컨퍼런스에서 선공개된 IBM 스파이어 엑셀러레이터 칩은 별도 옵션으로 제공될 예정이다. 각 엑셀러레이터 칩은 75와트 PCIe 어댑터를 통해 부착된다. 스파이어 엑셀러레이터는 다른 PCIe 카드처럼 고객의 요구에 따라 확장이 가능하다.

IBM의 티나 타르퀴니오(Tina Tarquinio) IBM Z 및 리눅스원(LinuxONE) 제품 관리 담당 부사장은 “IBM은 강력한 로드맵을 통해 증가하는 AI 수요를 비롯한 기술 트렌드에서 앞서 나갈 수 있는 기반을 마련했다”며 “텔럼 II 프로세서와 스파이어 엑셀러레이터는 고성능, 보안, 전력 효율성이 뛰어난 엔터프라이즈 컴퓨팅 솔루션을 제공하도록 설계됐다. 수년간 개발해 온 이러한 기술은 차세대 IBM Z 플랫폼에 도입돼 고객이 LLM과 생성형 AI를 대규모로 활용할 수 있게 할 것이다”라고 말했다.

특히 텔럼 II 프로세서와 IBM 스파이어 엑셀러레이터는 모두 IBM의 제조 파트너인 삼성 파운드리에서 5nm 공정 노드를 기반으로 제작될 예정이다.

텔럼 II 프로세서는 차세대 IBM Z 및 IBM 리눅스원 플랫폼의 중앙처리장치가 될 예정으로, 향후 IBM Z 및 리눅스원 고객에게 제공된다. 현재 기술 프리뷰 단계의 IBM 스파이어 엑셀러레이터도 함께 제공될 예정이다.