NIA ‘AI 학습용 데이터 구축 사업’ 참여, 이미지 ᠂ 음성 등 고품질 AI 학습용 데이터 확보

[아이티데일리] 빅데이터 및 인공지능 전문 기업 비투엔(대표 조광원)은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘인공지능(AI) 학습용 데이터 구축 2차 사업’에서 ‘주제별 음성 데이터(솔트룩스 컨소시엄)’, ‘요약 텍스트 데이터(와이즈넛 컨소시엄)’, ‘반려동물 질병진단을 위한 영상 데이터(이노그리드 컨소시엄)’ 과제에 참여해 총 7종 88만건(이미지 60만, 텍스트 28만), 17000시간(음성)의 인공지능 학습용 데이터의 품질 점검을 완료하고 고품질 인공지능 학습용 데이터를 확보했다고 밝혔다.

비투엔은 이번 사업에서 품질관리 실무책임자로서 품질관리 계획 수립, 각 단계별 품질관리 활동 점검, 품질관리 실무와 관련된 협의체 구성 및 운영, 품질 관련 TTA 및 NIA 대응 등 품질 관리 전반의 업무를 수행했다. 또한 소리자바, 딥네츄럴, 유클리드소프트, 지케스 등 라벨링 전문기업들과 긴밀하게 협업해 체계적인 데이터 품질관리체계를 구축했다.

비투엔은 자사 AI 학습용 데이터 품질관리 솔루션 'SDQ for AI'를 활용해 파일의 완전성 진단, 구조의 정확성, 형식의 유효성 진단 등 구문 정확성 검사와 데이터 클래스 분포, 인스턴스 분포, 문장 길이, 어휘 개수 등 데이터 특성에 맞는 분석 가능 항목의 통계적 분포를 검증함으로써 고품질 학습용 데이터를 확보했다.

특히 ‘반려동물 질병진단을 위한 영상 데이터’ 과제에서는 구문 정확성과 통계 다양성에 더불어 구축된 학습용 데이터의 인공지능 알고리즘을 활용한 품질 점검 항목인 모델 유효성까지 업무 영역을 확장해 모델 유효성 검증 지표 설정, 구축된 학습용 데이터 기반의 모델 학습 및 목표 달성 여부 점검, 모델 유효성 관련 TTA 협의 및 분석 결과 제출 등의 세부 업무를 완벽하게 수행했다.

비투엔은 인공지능 학습용 데이터 구축 컨소시엄 내 품질 검사 도구를 확보하고 있지 않은 과제들을 대상으로 품질 검증 서비스와 SDQ for AI 도구를 제공하는 등 다양한 형태로 인공지능 학습용 데이터 구축 사업에 참여했다.

김문영 비투엔 사업총괄 부대표는 “인공지능(AI) 학습용 데이터 구축 사업의 경험을 기반으로 올해는 보다 다양한 구축 사업 참여해 인공지능 학습용 품질관리 전문 기업의 위치를 굳건히 하겠다. 앞으로 빅데이터·인공지능(AI) 데이터의 품질관리 사업을 신성장 핵심사업으로 선정하고 지속적인 투자와 연구개발을 통해 경쟁력을 더욱 강화할 것”이라고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지