한국어 특성 최적화된 AI 언어모델…KorQuAD 최고점 획득하며 1위 기록

 
[아이티데일리] 카카오는 자체 개발한 인공지능(AI) 언어모델이 LG CNS가 주최한 기계 독해 능력 평가에서 사람보다 높은 점수를 기록하며 1위를 차지했다고 31일 밝혔다.

LG CNS가 운영하는 기계 독해 능력 평가는 한국어 학습 데이터 ‘KorQuAD(The Korean Question Answering Dataset)’를 바탕으로 진행된다. ‘KorQuAD’는 스탠포드 대학에서 시작된 AI 언어지능 연구용 질의응답 학습 데이터셋 SQuAD(The Stanford Question Answering Dataset)에 기반해 구축된 것으로, LG CNS가 지난해 12월 오픈소스로 공개했다. 누구나 자체 개발한 AI 언어모델을 제출해 성능을 평가 받을 수 있다.

이번에 평가받은 카카오의 AI 언어모델 ‘BERT LM fine-tuned(single)+KHAIII’은 구글의 AI 언어모델 ‘BERT(Bidirectional Encoder Representations from Transformers)’에 카카오의 형태소 분석기 ‘KHAIII(Kakao Hangul Analyzer III)’를 접목한 것이다. 조사의 사용과 어미의 다양한 변형 등 한국어의 고유 특성에 최적화했다.

카카오는 해당 평가에서 91.85점을 받았다. 이는 LG CNS가 인간의 문장 판별 및 독해 능력 수준(Human Performance)이라고 밝힌 91.20점보다 0.65점 높은 수치다.

김응균 카카오 자연어처리파트장은 “이번 평가 결과는 카카오의 AI 자연어처리 기술을 활용해 인간의 독해 능력을 넘어서는 최초의 모델을 구현했다는 점에서 높이 평가받을 만하다”며 “이번에 개발한 언어모델 기술을 스마트 스피커 ‘카카오미니’에 적용하기 위한 연구를 진행 중”이라고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지