AMD 내장 GPU 활용한 저비용 LLM 환경 구축 목표

[아이티데일리] 클라우드 서비스 전문기업 스마일서브는 대규모언어모델(LLM)에 최적화된 올라마(Ollama) 프레임워크의 설치 및 운용 기술을 지원하는 그래픽처리장치(GPU) 클라우드 및 서버 호스팅 서비스를 지난 1일 출시했다고 발표했다. 

올라마 프레임워크는 다양한 그래픽처리장치(GPU) 및 신경망처리장치(NPU)를 지원하며, 해당 프레임워크 기반 상품의 경우 GPU 이식성이 뛰어나다. 이러한 올라마 프레임워크는 합리적인 비용으로 대규모언어모델(LLM) 구축하려는 서비스 기업들 사이에서 활용도가 높은 것으로 평가된다. 

스마일서브는 이를 활용해 AMD ‘라이젠(Ryzen)’ CPU의 내장 GPU와 ‘라데온(Radeon) RX 9600 XT’ 16GB, ‘W6800 프로(Pro)’ GPU를 ‘클라우드V(CloudV) 서버 호스팅 서비스’의 핵심 구성으로 배치했다. 또한 기존의 엔비디아 중급 GPU는 별도의 올라마 전용 구성(Chapter)으로 개편해 새롭게 선보일 예정이라고 밝혔다. 

AMD 내장 GPU 기반 서버 호스팅 상품 리뉴얼 출시

일반적으로 데이터센터에서 CPU에 내장된 GPU는 콘솔 작업 외에는 활용도가 낮다. 그러나 올라마 프레임워크를 활용하면 GPU가 내장된 AMD CPU만으로 별도의 외장 GPU 없이 LLM을 구현할 수 있다. 이에 스마일서브는 기존 서버 호스팅 상품을 개편해 8GB 용량의 비디오램(VRAM)을 지원하는 상품을 내놓았다. VRAM은 GPU가 화면을 그리거나 AI 연산을 할 때 사용되는 전용 메모리다. 

해당 상품 개발에 참여한 이유미 대리는 “최대 8GB의 VRAM 환경에서도 중소형 LLM 모델을 설치할 수 있다”며 “예를 들어 ‘젬마(Gemma) 3 4B’ 모델에서는 일정 수준의 한국어 응답을 할 수 있다”고 설명했다. 또 이 대리는 “CPU에 부하를 주지 않고, 내장 GPU만으로 업무 자동화나 접속량이 많지 않은 사이트에서의 간단한 챗봇 운영이 가능할 것으로 예상된다”고 밝혔다.

중급기 라인업 전면 배치, 올라마 특화 iwinv GPU 클라우드

올라마 프레임워크는 GPU VRAM이 부족할 경우 CPU 및 시스템 DRAM을 활용해 모델을 운영할 수 있도록 설계됐다. 다만 D램(DRAM)과 CPU 자원을 과도하게 사용할 경우 성능 저하가 발생할 수 있다. 

이에 스마일서브는 ‘iwinv GPU 클라우드’ 서비스를 통해 보다 저렴한 비용으로 충분한 VRAM을 확보할 수 있도록 리뉴얼했다고 설명했다. 특히 그래픽D램(GDDR)7 VRAM을 탑재한 엔비디아 중급기 GPU를 중심으로 구성해 LLM 운영 환경에서의 메모리 부족 문제를 해결할 수 있다. 

해당 서비스 라인업에는 엔비디아 ‘테슬라(Tesla) T4’, ‘RTX 4000Ada’, AMD ‘라데온(Radeon) RX 9060T’, ‘라데온 프로(Pro) w6800’ 등이 포함된다. 현재 엔비디아 ‘RTX PRO 5000’과 AMD ‘AI PRO 9700’은 준비 중이다. 

더불어 스마일서브 관계자는 “1년 장기 이용자를 대상으로 약정 체결 시 정가의 50% 할인된 요금으로 서비스를 제공하는 프로모션을 준비하고 있다”고 밝혔다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지