인텔, 메타 최신 LLM ‘라마 3.1’ 최적화 지원
AI 제품 전반 성능 및 최적화 업데이트 지원
[아이티데일리] 인텔은 메타(Meta)의 최신 거대언어모델(LLM)인 ‘라마 3.1(Llama 3.1)’에 데이터센터, 엣지 및 클라이언트 인공지능(AI) 제품 전반에 걸친 성능 데이터와 최적화를 제공한다고 25일 밝혔다.
인텔은 ‘AI 에브리웨어’ 전략을 위해 AI 소프트웨어(SW) 생태계에 지속적으로 투자하고 있으며, 새로운 모델이 인텔의 AI 하드웨어(HW)에 최적화되도록 지원하고 있다.
메타는 지난 23일(현지 시각) 현재까지 가장 성능이 뛰어난 모델인 라마 3.1을 출시했다. 라마 3.1은 공개적으로 사용 가능한 가장 큰 파운데이션 모델(FM)인 ‘라마 3.1 405B(토큰 4,050억 개 모델)’를 포함해 다양한 규모와 기능에서 여러 새로운 업데이트 모델을 제공한다.
새로운 모델들은 파이토치(PyTorch) 및 인텔 파이토치 익스텐션(Intel Extension for PyTorch), 딥스피드(DeepSpeed), 허깅 페이스 옵티멈 라이브러리(Hugging Face Optimum libraries), vLLM 등 개방형 생태계 SW를 통해 인텔 AI 제품에서 활성화 및 최적화된다.
또한 생태계 전반에서 개방형, 멀티 벤더, 강력하고 컴포저블한 생성형 AI 솔루션을 만들기 위한 LF AI 및 데이터 재단(LF AI & Data Foundation)의 새로운 오픈 플랫폼 프로젝트인 ‘OPEA(Open Platform for Enterprise AI)’ 역시 해당 모델들을 지원한다.
라마 3.1 다국어 LLM 컬렉션은 8B, 70B, 405B 크기의 사전 학습 및 조정된 생성 모델 컬렉션으로, 모든 모델은 8개 구술어에 걸쳐 긴 컨텍스트 길이를 지원한다. 라마 3.1 405B는 일반 지식, 조작성, 수학, 도구 사용 및 다국어 번역에 대한 최신 기능을 갖추고 있다. 이를 통해 커뮤니티는 합성 데이터 생성 및 모델 증류와 같은 새로운 기능을 활용할 수 있게 된다.
아울러 인텔은 AI 제품 포트폴리오를 활용한 라마 3.1 모델의 초기 성능 측정 결과도 공유했다. 인텔 가우디(Intel Gaudi) 및 인텔 제온(Intel Xeon), 인텔 코어 울트라(Intel Core Ultra) 프로세서 및 인텔 아크(Intel Arc) 그래픽이 탑재된 AI PC를 포함한 인텔 AI 제품 포트폴리오 전반이 성능 측정에 활용됐다.
인텔 가우디 AI 가속기는 생성형 AI 및 LLM의 고성능 가속을 위해 설계됐다. 인텔 제온 프로세서는 일반 컴퓨팅의 유비쿼터스 백본이다. 현재 모든 주요 클라우드 서비스 제공업체에서 사용 가능한 인텔 제온 프로세서는 AI 엔진 ‘인텔 어드밴스드 매트릭스 익스텐션(Intel Advanced Matrix Extensions; AMX)’을 모든 코어에 탑재하고 있다. 인텔 코어 울트라 프로세서와 인텔 아크 그래픽이 탑재된 AI PC는 클라이언트와 엣지에서 우수한 온디바이스 AI 추론 성능을 제공한다.
벤치마킹 결과에 따르면, 1천 개의 토큰 입력 및 128개의 토큰 출력으로 라마 3.1 8B 모델을 실행하면 5세대 인텔 제온 플랫폼에서 초당 176개의 토큰 처리량을 달성할 수 있다. 또한 토큰의 지연 시간을 50ms 이하로 유지할 수 있다.
뿐만 아니라 인텔은 라마 3.1과 OPEA를 활용한 엔터프라이즈용 검색 증강 생성(RAG) 솔루션 배포도 지원한다. 엔터프라이즈용 AI를 위한 개방형 생태계 구축에 앞장선다는 목표다.
OPEA는 엔터프라이즈용 오픈소스, 표준화 및 모듈화된 이기종 RAG 파이프라인을 제공한다. 이는 구성 및 설정 가능한 멀티 파트너 요소를 기반으로 구축된다. 엔드투엔드 RAG 파이프라인은 LLM 추론에는 라마 3.1이, 임베딩에는 BAAI/bge-base-en-v1.5가, 벡터 DB에는 레디스(Redis)가, 오케스트레이션에는 쿠버네티스(K8s)가 사용된다.
현재 인텔 AI PC 및 데이터센터 AI 제품 포트폴리오와 솔루션은 라마 3.1을 실행할 수 있으며, OPEA는 인텔 가우디 2 및 제온 제품군에서 라마 3.1을 통해 활성화되고 있다. 인텔은 새로운 모델과 사용 사례를 지원하기 위해 지속적으로 SW 최적화를 진행하고 있다고 강조한다.