AI 경량화 연구 및 개발 활성화 목표…AI 개발자 이용 가능
[아이티데일리] 디노티시아(대표 정무경)는 한양대학교 AIHA 연구실(최정욱 교수팀)과 산학협력 연구를 통해 개발한 AI 양자화(Quantization) 알고리즘 평가 플랫폼인 ‘QLLM-INFER’를 깃허브(GitHub)에 오픈소스로 공개했다고 8일 밝혔다.
대규모언어모델(LLM)이 주목받으면서 AI 기술의 활용 범위가 확대되고 있다. 다만 높은 연산량과 메모리 사용으로 인해 LLM은 실제 서비스나 개인용 컴퓨터 및 스마트폰에 적용하기 어렵다. 최근 이를 해결하기 위한 방법으로 양자화 기술이 떠오르고 있다.
양자화는 AI 모델의 계산 정밀도를 낮춰 더 빠르게 만드는 기술로, 큰 숫자를 작은 숫자로 압축하는 방식이다. 이를 통해 AI 모델은 원래 성능을 유지하면서도 메모리 사용량과 연산 속도를 크게 줄일 수 있다. 그러나 지금까지 다양한 양자화 알고리즘이 서로 다른 환경과 조건에서 평가돼, 어느 기술이 더 좋은지 객관적으로 비교하기 어려웠다.
디노티시아와 한양대는 이런 문제를 해결하고자 표준화된 환경에서 알고리즘 성능을 정확히 비교할 수 있는 플랫폼을 만들었다. 더불어 최근 3년(2022~2024년) 동안 주목받은 양자화 기술 8가지를 선정해 동일한 조건에서 객관적으로 평가했다.
구체적으로 △가중치와 활성화 값(모델의 기억과 계산을 담당하는 값)을 모두 줄이는 방식 △가중치만 줄이는 방식 △AI가 긴 입력을 처리할 때 임시 저장하는 공간(KV 캐시)을 줄이는 방식 등 세 가지 유형으로 나눠 알고리즘 성능을 분석했다.
이 플랫폼은 아파치 2.0 라이선스를 적용해 누구나 자유롭게 사용하고 기여할 수 있다.
디노티시아 정무경 대표는 “LLM서비스가 널리 상용화되기 위해서는 양자화를 통한 모델 경량화가 필수적이지만, 어떤 양자화 기술이 타겟 응용과 시스템에 더 유효한 지 판단이 어렵다”며, “QLLM-INFER는 양자화 알고리즘의 성능을 객관적이고 투명하게 비교할 수 있는 오픈소스 플랫폼으로, 최적의 양자화 솔루션을 선택하거나 새로운 양자화 기술을 개발할 때 큰 도움을 줄 것”이라고 말했.
한양대학교 최정욱 융합전자공학과교수는 “지금까지 양자화 기술은 연구마다 기준이 달라 객관적 비교가 어려웠다”며 “이번 플랫폼은 AI 연구에 처음으로 표준화된 평가 기준을 제시했다는 점에서 학문적으로 의미가 크며, AI 연구자들이 이 플랫폼을 통해 더욱 객관적이고 신뢰성 높은 연구 성과를 낼 수 있을 것으로 기대한다”고 말했다.


