기존 데이터, 고부가가치 AI 학습데이터로 전환…멀티모달 AI 기술 발전 토대 마련

[아이티데일리] 에이아이웍스는 한국지능정보사회진흥원(NIA)의 ‘2025년 AI허브 인공지능 학습용 데이터 업사이클링 구축 사업’에 주관기관으로 선정됐다고 30일 밝혔다.

에이아이웍스가 NIA의 ‘2025년 AI허브 인공지능 학습용 데이터 업사이클링 구축 사업’에 주관기관으로 선정됐다.
에이아이웍스가 NIA의 ‘2025년 AI허브 인공지능 학습용 데이터 업사이클링 구축 사업’에 주관기관으로 선정됐다.

이번 사업은 정부출연금 5억 5천만 원과 민간부담금 1억 8,333만 원을 포함해 7억 3,333만 원 규모다. 기존 AI허브의 단일 유형 데이터를 다양한 형태의 융합 데이터로 전환해 멀티모달 AI 학습에 최적화된 데이터셋을 구축하는 것이 목표다. 버티컬 AI, 소형언어모델(sLLM) 등 새로운 AI 기술 환경에 맞춰 활용도와 적합성을 높인다는 것이다.

업사이클링 구축 사업 총 11개 데이터셋을 대상으로 진행된다. 다운사이징 1종, 이미지-텍스트 관계 구축 5종, QA 데이터 구축 5종이다. 의류 가상착용 3D 이미지, 전술 판정 영상(핸드볼), 스포츠 영상(배구), 교통법규 위반 상황, 화질 변환 영상 등 다양한 도메인의 데이터가 포함된다.

에이아이웍스는 주관기관으로서 전체 프로젝트 총괄 관리와 다운사이징 및 이미지-텍스트 데이터 구축을 담당한다, 알체라도 참여기관으로 함께 참여한다. 협약 기간은 2025년 8월 30일부터 12월 31일까지 4개월간이다.

에이아이웍스는 이번 프로젝트에서 온톨로지(Ontology), 검색증강생성(RAG), 사고의 사슬(CoT) 등의 기술을 활용한다. 구체적으로는 도메인별 온톨로지 구축을 통해 데이터의 의미적 관계를 체계화하고, RAG 기법으로 텍스트 생성의 정확도를 높인다.

데이터 가공 과정에서는 1차 AI 자동 생성과 2차 직접 검수를 병행해 99.5% 이상의 구문 정확성과 95% 이상의 의미 정확성을 달성할 계획이다. 또한 멀티모달 거대언어모델(LLM)과 전문 인력을 활용한 3단계 품질 검증 시스템을 구축해 업계 최고 수준의 신뢰도를 확보한다.

에이아이웍스는 이번 사업을 통해 국내 AI 생태계에 즉시 활용 가능한 학습데이터를 구축하고 멀티모달 AI 기술 발전을 위한 기반을 마련한다는 방침이다. 또 기존 단일 유형 데이터의 활용 범위를 확장함으로써 빅테크 기업과의 기술 격차에도 기여할 것으로 전망하고 있다.

한편 프로젝트 완료 시 총 200만 건의 고품질 업사이클링 데이터가 구축돼 AI허브를 통해 공개될 예정이다.

에이아이웍스 윤석원 대표는 “이번 프로젝트를 통해 국내 AI 생태계의 데이터 인프라를 한 단계 끌어올리고, 멀티모달 AI 기술 발전의 토대를 마련하는 데 기여하겠다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지