[전문가 기고] 범용 LLM이냐 도메인 특화 LLM이냐, 신중히 선택해야
가트너 벤 얀 디렉터 애널리스트
[아이티데일리] 챗GPT(ChatGPT)의 폭발적인 인기에 힘입어 대규모언어모델(LLM) 시대가 열렸다. LLM이 전 산업으로 빠르게 확대되면서, 기업은 각 모델을 평가해 자사 비즈니스에 맞는 모델을 선택하고자 노력하고 있다.
모든 기업에 일관된 평가기준 적용 어려워
LLM은 다면적인 특성을 지니고 있어서, 모든 기업에 동일하게 적용할 수 있는 일관된 평가 기준이 있을 수 없다. 각 LLM에 대한 평가 항목이 다를 수도 있고, 기업이 활용하기 원하는 우선순위가 다르기 때문이다. 이러한 상황에서 LLM을 성공적으로 도입하기 위해서는 철저한 사전 평가가 무엇보다 중요하다.
여러 LLM들을 효과적으로 비교하기 위해서는 해당 모델이 범용 모델인지 특정 작업이나 분야에 특화된 모델인지 이해하는 것이 우선돼야 한다. 오픈AI의 GPT 모델과 같은 범용 LLM은 특정 산업, 비즈니스 기능 또는 작업에 특화된 학습을 거치지 않았기 때문에 일반적인 용도로 폭넓게 활용될 수 있다.
이와 달리 도메인 특화 LLM은 특수 데이터 세트로 학습되거나 파인튜닝 과정을 거쳤기 때문에 특정 작업이나 분야에서 전문성을 발휘할 수 있다.
적합한 LLM을 선택하기 위해서는 각 모델 유형에 대한 일반적인 사용 사례를 이해해야 한다. 범용 모델은 콘텐츠 생성 및 요약을 비롯한 광범위한 자연어 이해 및 생성 작업에 주로 사용된다. 도메인 특화 모델 보다 대화의 맥락을 이해할 수 있도록 ‘인컨텍스트 러닝(In-Context Learning)’을 통해 더 높은 성능과 유연성을 제공한다. 도메인 특화 모델은 특정 산업, 기업, 작업을 위해 설계된다. 특정 산업이나 분야에 대한 심층적인 지식을 바탕으로 코딩, 번역, 문서 이해와 같은 전문 작업에서 뛰어난 성능을 발휘하도록 학습된다.
포괄적인 LLM 기반 솔루션을 구축하기 위해서는 단일 LLM 보다 여러 모델을 조합하는 것이 더 적합할 수 있다. 기업은 필요에 따라 범용 모델과 도메인 특화 모델을 함께 활용하거나, 다른 유형의 AI 모델까지 병용해야 하는 경우가 있다. 이러한 다양한 LLM은 솔루션 내에서 각기 다른 역할을 하며 다양한 방식으로 협업해 기능을 보완하고 시너지를 만들 것이다.
LLM 벤치마크와 리더보드 활용
모델 유형을 파악했다면 모델 역량 평가를 진행해야 한다. 이를 위해 커뮤니티 주도로 운영되거나 모델 제조업체가 제공하는 여러 LLM 벤치마크와 리더보드를 활용할 수 있다.
범용 모델 성능 평가에 유용한 참고 자료로는 LMSTS Org(Large Model Systems Organization)의 ‘챗봇 아레나(Chatbot Arena) 리더보드’가 있다. 이 플랫폼을 통해 사용자는 모델의 이름을 알지 못한 상태에서 같은 질문을 던지고 응답을 비교해 각 모델을 평가할 수 있다. 모델 제조업체는 모든 질문을 사전에 알 수 없으며, 특정 질문에 맞춰 모델을 학습하거나 미세 조정할 수 없어서 순위를 높이는 것도 불가능하다. 이런 이유로 챗봇 아레나는 다양한 모델의 일반적인 성능을 평가하고 비교하는 데 유용한 출발점이 될 수 있다.
새로운 모델이 출시되면 일반적으로 모델 제조업체는 자체 평가 결과를 공개한다. 만약 특정 기능이나 역량에 관심이 있다면 해당 작업에 특화된 벤치마크를 참고하는 것이 좋다.
다만, 공개 LLM 벤치마크에서는 평가 데이터 세트가 의도치 않게 학습 데이터에 포함되는 데이터 유출 문제가 발생할 수 있다. 따라서 실제 환경에서의 모델 성능을 정확하게 반영하지 못하는 평가 결과가 나올 수 있다는 점을 유념해야 한다.
벤치마크와 리더보드를 참고하는 것 외에도 기업은 그들의 구체적인 사용 사례에 맞는 맞춤형 기능 테스트 케이스를 개발할 수 있다. 이를 위해 먼저 각 사용 사례의 범위와 목적을 명확히 정의해야 한다. LLM이 대응해야 하는 범위가 넓어질수록 비정상 동작의 발생률이 커지기 때문이다.
테스트 케이스는 실제 서비스 환경에서 LLM이 사용되는 상황과 최대한 유사하게 설계해야 한다. 질문과 답변은 같거나 유사한 데이터를 활용해 평가하면 관련성과 정확성을 끌어올릴 수 있다. 아래 그림은 LLM 평가 프로세스를 나타낸다.
테스트 케이스를 만든 이후에는 이를 통해 어떤 항목을 측정할 것인지 결정해야 한다. LLM은 적용 범위가 넓지만 일반적으로 테스트 케이스를 통해 정확성, 문맥 관련성, 안전성과 같은 요소들을 측정할 수 있으며 특정 사용 사례에 맞는 측정 지표가 있을 수 있다. 효과적인 성능 평가를 위해서는 비즈니스 요구 사항에 따라 우선순위를 정해 평가해야 한다.
모델 성능 평가와는 별개로, 가격, 속도, 지적재산권 보호, 배포 방식과 같은 비기능적 요소도 고려해야 한다. 특히 규제나 보안이 엄격한 산업이나 환경에서는 온프레미스 배포가 필수적인 경우가 많다. 이는 모델 선택을 제한하므로, LLM 평가에 있어 중요한 요소가 된다. 따라서 리더는 정확성, 추론 비용, 추론 속도와 같은 여러 기능 간의 장단점을 종합적으로 검토해, 회사 또는 조직이 요구 사항과 제약 조건에 가장 적합한 모델을 선택해야 한다.
LLM의 급속한 확장은 이를 비즈니스에 통합하려는 기업에 혁신적인 기회를 제공함과 동시에 가시밭길 같은 복잡한 과제를 제시한다. 현재 수많은 LLM이 시장에 나와 있다. 유명하거나 산업에서 많이 쓰인다는 이유로 무작정 도입하는 것은 금물이다. 철저한 사전 평가 과정을 통해 선정한 모델이야말로 장기적으로 가치를 창출하는 최적의 모델이 될 것이다.