‘독자 AI 파운데이션 모델’ 핵심은 VLM?…컨소시엄별 전략 비교

기업들 잇따라 모델 출시…컨소시엄 구성원과의 협력점 주목

2025-08-21     권영석 기자

[아이티데일리] ‘독자 AI 파운데이션 모델’ 사업에서 비전 언어모델(VLM)이 주목받고 있다. 각 컨소시엄이 단순한 언어모델이 아니라 멀티모달 모델, 옴니 모델 등을 개발한다는 목표를 제시하면서 VLM의 중요성이 떠오른 것이다.

VLM(Vision-Language Model)은 비전(Vision)과 언어(Language)를 결합한 인공지능 모델이다. 기존의 AI 모델들이 텍스트를 이해하거나 단순한 이미지를 인식했던 것과 달리 VLM은 복잡한 이미지와 영상과 같은 시각 정보와 텍스트를 동시에 이해하고 처리할 수 있다.

이러한 VLM 기술은 독자 AI 파운데이션 모델 사업에 참가한 컨소시엄들에게 중요한 차별화 포인트가 될 전망이다. 실제 네이버클라우드는 전방위적 기초 모형인 옴니 모델을, NC AI는 다중정보유형(멀티 모달)을 목표로 제시했으며 다른 컨소시엄들도 자체 VLM을 공개하거나 비전 AI 역량을 갖춘 업체들과 협력하고 있다.  컨소시엄별 전략을 비교해 봤다.

 

네이버클라우드 컨소시엄, ‘하이퍼클로바 X’와 트웰브랩스 협력으로 역량 확보

네이버클라우드는 자체 개발한 ‘하이퍼클로바 X’에 이미지 이해 능력을 더한 VLM 모델 ‘하이퍼클로바 X 비전’을 공개한 바 있다. 이는 기존 거대언어모델(LLM) 모델에 시각 및 언어 데이터를 사용해 추가 학습한 모델로, 이미지와 텍스트를 동시에 이해할 수 있다. 특히 다양한 상황에서도 시각과 언어 이해 작업을 수행할 수 있고 문서처리 능력과 글자 인식이 뛰어나다.

네이버클라우드는 이러한 하이퍼클로바 X 비전을 활용해 지난 3월 ‘하이퍼클로바 X 비디오’를 공개했다. 이는 단순한 장면 인식을 넘어 장면의 전환, 움직임의 흐름, 그에 따른 맥락 변화 등을 인식하는 모델이다.

네이버클라우드는 이번 사업에서 영상 AI 기업 트웰브랩스와 협력해 ‘옴니 파운데이션 모델’ 개발에 목표를 두고 있다. 트웰브랩스는 영상데이터 등 고품질 옴니모달 학습 데이터 구축 전략과 방법론을 개발하게 된다.

 

업스테이지 컨소시엄, ‘솔라’와 노타 경량 최적화 기술 결합

업스테이지는 자체 모델 ‘솔라’를 통해 문서 데이터를 효율적으로 처리하는 역량을 보유하고 있다. 특히 사진, 차트, 표와 같은 방대한 문서 데이터 속에서 인사이트를 추출하는 기술이 강점이다. 이러한 기술은 기업들의 실제 업무 효율화에 기여할 수 있다.

업스테이지는 AI 경량·최적화 기술기업 노타와 손잡으며 비전 AI 역량을 강화할 수 있을 것으로 예상된다. 노타는 이번 사업에서 모델 학습 및 경량·최적화를 담당한다. 노타는 다양한 VLM 모델을 경량화하고 조정해 여러 기업에 공급한 경험을 바탕으로 모델 개발에 기여할 계획이다.

 

SK텔레콤 컨소시엄, ‘에이닷 엑스’에 크래프톤과 전문 기술 협력

SK텔레콤은 최근 자체 LLM ‘에이닷 엑스(A.X)’를 기반으로 대규모 멀티모달 한국어 데이터셋을 학습한 ‘에이닷 엑스 4.0 VL 라이트(A.X 4.0 VL Light)’를 공개했다. 에이닷 엑스 4.0 VL 라이트는 한국어와 관련된 시각 정보 및 언어 이해뿐만 아니라 표·그래프·제조 도면 등 실제 기업 환경에서 중요한 이미지 이해에 특화돼 있다.

SK텔레콤은 크래프톤과의 협력해 독자 AI 모델의 확장성과 실용성을 강화할 계획이다. 크래프톤은 글로벌 게임 ‘인조이’를 개발하며 3D 오브젝트 변환 기술 등 음성 및 비전 분야 기술력을 확보해 왔으며 이번 컨소시엄에서 멀티모달 설계 핵심 역할을 맡게 된다.

 

NC AI 컨소시엄, ‘바르코 비전 2.0’과 게임 분야 경험으로 차별점 강조

NC AI는 지난 7월 ‘바르코 비전 2.0(VARCO-VISION 2.0)’을 오픈소스로 공개했다. 바르코 비전 2.0은 이미지와 텍스트를 함께 이해하고 복잡한 문서, 표, 차트 등을 효과적으로 처리할 수 있다. 특히 이전 버전에 비해 텍스트 생성 능력과 한국 문화에 대한 이해도가 향상된 것이 강점이다.

NC AI 측은 게임 분야에서 14년간 쌓아온 방대한 고품질 데이터와 멀티모달 AI 처리 역량을 바탕으로 비전 AI 역량 강화에 나선다는 방침이다. 게임 개발 과정에서 수억 장 이미지와 수천 시간 음성, 수십만 3D 캐릭터 데이터를 운영한 경험이 경쟁력으로 작용할 것으로 보인다.

 

LG AI연구원 컨소시엄, ‘엑사원 4.0 VL’ 출시 예정

LG AI연구원은 최근 ‘엑사원(EXAONE) 4.0’을 공개하면서 조만간 ‘엑사원 4.0 VL’ 출시할 것이라고 발표했다. 엑사원 4.0 VL은 문서 처리에 특화된 VLM으로, 복잡한 전문 문서부터 이미지, 분자 구조식까지 다양한 형태를 이해할 수 있는 점이 특징이다. LG AI연구원은 이 모델을 기반으로 피지컬 AI로 나아간다는 방침이다.

LG AI연구원은 비전 AI 기술 역량을 강화하기 위해 슈퍼브에이아이와 협력한다. 슈퍼브에이아이는 최근 비전 파운데이션 모델(VFM) ‘제로’를 공개했다. 제로는 산업 특화형 모델로 실제 산업 현장의 문제를 해결하는 데 특화됐다. 슈퍼브에이아이는 자체 기술을 바탕으로 컨소시엄 내에서 멀티모달 파운데이션 모델과 피지컬 AI 개발을 위한 데이터 설계, 선별, 합성 전 과정을 주도하는 핵심 역할을 맡을 예정이다.