기존 GPU 대비 연산 속도 4.1배 향상, 에너지 소비 2.2배 절감

[아이티데일리] 최근 인공지능(AI) 모델이 길고 복잡한 문장을 이해하고 처리하는 능력이 커지면서, 연산 속도와 메모리 효율을 동시에 높일 수 있는 새로운 반도체 기술의 필요성이 확대되고 있다. 이런 가운데 한국과학기술원(KAIST, 총장 이광형)·국제연구진이 거대언어모델(LLM)의 추론 속도는 4배 높이면서 전력 소비는 2.2배 줄인 AI 반도체를 개발했다.

17일 KAIST는 전산학부 박종세 교수 연구팀이 미국 조지아 공과대학교(Georgia Institute of Technology) 및 스웨덴 웁살라 대학교(Uppsala University)와 공동연구를 통해, 차세대 AI 모델의 두뇌 역할을 하는 ‘AI 메모리 반도체(PIM, Processing-in-Memory)’ 기반 기술 ‘PIMBA’를 개발했다고 밝혔다. 

(왼쪽부터) KAIST 오성룡 박사과정, 김윤성 박사과정, 김원웅 박사과정, 이유빈 박사과정, 정지용 석사과정 (동그라미 사진 왼쪽부터) 전산학부 박종세 교수, 조지아텍 다비야 마하잔 교수, 스웨덴 웁살라 대학 박창현 교수 (사진=KAIST)
(왼쪽부터) KAIST 오성룡 박사과정, 김윤성 박사과정, 김원웅 박사과정, 이유빈 박사과정, 정지용 석사과정 (동그라미 사진 왼쪽부터) 전산학부 박종세 교수, 조지아텍 다비야 마하잔 교수, 스웨덴 웁살라 대학 박창현 교수 (사진=KAIST)

현재 챗GPT(ChatGPT), 제미나이(Gemini) 등 대규모언어모델(LLM)은 모든 단어를 동시에 보는 ‘트랜스포머(Transformer)’ 두뇌 구조를 기반으로 작동한다. 이에 따라 AI 모델이 커지고 처리 문장이 길어질수록 연산량과 메모리 요구량이 급증하면서 속도 저하와 에너지 소모 발생해 주요 문제로 지적돼 왔다.

이런 트랜스포머의 문제점에 대한 대안으로 ‘맘바(Mamba)’가 제시됐다. 맘바는 순차형 기억형 두뇌 구조로 시간의 흐름에 따라 정보를 처리하는 방식이다. 그러나 여전히 메모리 병목 현상(memory bottleneck)과 전력 소모 한계가 과제로 남아있다. 

본 연구의 전반적인 요약도. 본 연구는 포스트-트랜스포머 모델의 분석을 수행했으며, 그 과정에서 두 가지 문제점을 발견했다. 최종적으로 본 논문은 이 문제점들을 해결한 가속 시스템을 제안했다. (사진=KAIST)
본 연구의 전반적인 요약도. 본 연구는 포스트-트랜스포머 모델의 분석을 수행했으며, 그 과정에서 두 가지 문제점을 발견했다. 최종적으로 본 논문은 이 문제점들을 해결한 가속 시스템을 제안했다. (사진=KAIST)

박종세 교수 연구팀은 트랜스포머와 맘바의 장점을 결합한 ‘트랜스포머–맘바 하이브리드 모델’을 통해 연산을 메모리 내부에서 직접 수행하는 새로운 반도체 구조 ‘PIMBA’를 설계했다.

기존 그래픽처리장치(GPU) 기반 시스템은 데이터를 메모리 밖으로 옮겨 연산을 수행한다. 반면 PIMBA는 데이터를 옮기지 않고 저장장치 내부에서 바로 계산을 수행한다. 이에 따라 데이터 이동 시간을 최소화하고 전력 소모를 크게 줄일 수 있다.

실제 실험에서 PIMBA는 기존 GPU 시스템 대비 처리 성능이 최대 4.1배 향상됐고, 에너지 소비는 평균 2.2배 감소하는 성과를 보였다. 연구 성과는 20일 서울에서 열리는 글로벌 컴퓨터 구조 학술대회 ‘제58회 국제 마이크로아키텍처 심포지엄(MICRO 2025)’에서 발표될 예정이다. 

키워드

#KAIST #AI 반도체
저작권자 © 아이티데일리 무단전재 및 재배포 금지