‘텐서RT-LLM’으로 모델 성능 향상 효과 거둬

엔비디아 X 구글

[아이티데일리] 엔비디아(NVIDIA, CEO 젠슨 황)는 구글과 협력해 모든 자사 플랫폼에서 인공지능(AI) 모델 ‘젬마(Gemma)’를 위한 최적화를 실시했다고 23일 밝혔다. 이를 통해 비용을 절감하고 도메일별 작업 속도 향상에 성공했다고 설명했다.

젬마는 구글의 새로운 경량 오픈 언어모델로 20억(2B), 70억(7B) 파라미터(매개변수) 크기로 제공된다. 또한 구글의 멀티모달 모델인 ‘제미나이(Gemini)’ 개발에 사용된 연구와 기술을 기반으로 구축됐다.

엔비디아는 구글과 긴밀히 협력에 ‘텐서RT-LLM(TensorRT-LLM)’으로 젬마의 성능을 향상했다. 텐서RT-LLM은 데이터센터, 클라우드 혹은 엔비디아 RTX GPU가 탑재된 PC에서 거대언어모델(LLM) 추론을 최적화하는 오픈 소스 라이브러리이다.

이번 협력으로 개발자들은 클라우드상의 엔비디아 GPU에서도 젬마를 실행할 수 있게 됐다. 여기에는 H100 텐서 코어(H100 Tensor Core) GPU를 기반으로 하는 구글 클라우드 A3인스턴스(A3 instances)가 포함되며, 초당 4.8테라바이트의 141GB HBM3e 메모리를 갖춘 엔비디아 H200 텐서 코어 GPU도 추가될 예정이다. 구글은 올해 안에 이를 배포할 계획이라고 밝혔다.

한편, 엔비디아 기술 데모인 ‘챗 위드 RTX(Chat with RTX)’에 젬마가 지원될 예정이다. 챗 위드 RTX는 검색 증강 생성(Retrieval-augmented generation, RAG)과 텐서RT-LLM 소프트웨어를 사용해 로컬 RTX 기반 윈도우(Windows) PC에서 사용자에게 생성형 AI 기능을 제공하는 기술이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지