‘KorQuAD 1.0’ 성능 평가에서 F1 스코어 95.15점 획득…리더보드 1위 기록

[아이티데일리] 스켈터랩스(대표 조원규)는 자체 개발한 한국어 인공지능(AI) 언어모델이 한국어 기계 독해 데이터셋 ‘KorQuAD 1.0’ 기반 성능 평가 리더보드에서 1위를 기록했다고 14일 밝혔다.

‘KorQuAD 1.0’은 LG CNS가 2018년 12월 공개한 한국어 질의응답 데이터셋으로, 기계 독해 AI 학습 및 검증을 위해 위키백과로부터 추출한 표준 데이터 7만개로 구성돼 있다. 성능 평가는 데이터셋에서 추출한 내용을 질문으로 제시하고 이에 대해 개발 모델이 답을 찾아내는 방식으로 이뤄진다.

AI 기계 독해 모델을 제출하면 모델이 찾은 답과 실제 정답을 글자 단위로 비교해, 정밀도(Precision)와 재현율(Recall)을 종합적으로 고려한 수치인 F1 스코어와 모델이 정답을 정확히 맞춘 데이터의 비율을 뜻하는 EM 스코어로 성능을 평가한다. ‘KorQuAD’ 독해 문제를 인간이 직접 풀었을 때는 F1 스코어 91.20점, EM 스코어 80.17점을 기록했으며, 이를 기준으로 인간 대비 AI의 독해력을 평가할 수 있다.

스켈터랩스는 F1 스코어 95.15점을 획득해 기존 등재된 AI 모델들을 뛰어넘는 점수로 1위를 기록됐다. 이번에 평가받은 스켈터랩스의 AI 모델은 적은 양의 학습 데이터로도 한국어에서 관찰되는 다양한 고유 특성을 학습할 수 있도록 설계됐으며, 새롭게 개발되는 언어모델이나 활용 분야에 대해 유연하게 적용할 수 있도록 자체 프레임워크를 개발해 모델의 성능을 향상시켰다.

▲ 성능 평가 1위를 기록한 스켈터랩스의 AI 모델은 상반기 중 ‘AIQ.토크 챗봇’에 적용될 예정이다.

스켈터랩스는 해당 모델을 바탕으로 한 질의응답 기술을 올해 상반기 내 자사 AI 챗봇 설계 솔루션 ‘AIQ.토크 챗봇(AIQ.TALK Chatbot)’에 적용하고, 모듈 단위로도 제공할 예정이다. 이를 통해 대용량의 문서를 AI가 빠르고 정확하게 이해하고 사용자의 의사결정에 유용한 정보를 제공할 수 있도록 한다. 가령 금융 분야에서는 방대한 펀드 약관에서 사전 정의된 체크리스트를 바탕으로 AI가 내용을 분석해 적정성 여부를 판단함으로써 심사 시간을 대폭 줄일 수 있다.

조성진 스켈터랩스 CTO는 “방대한 양의 데이터와 자원을 보유하고 있는 기업이나 기관들 사이에서 스켈터랩스가 이들을 뛰어넘는 탁월한 기술우수성을 가지고 있다는 것을 보여준 것”이라며, “스켈터랩스는 해당 언어모델의 성능을 지속적으로 향상시켜 한국어 자연어이해(NLU) 분야에서 최고의 기술력을 갖춘 기업으로 공고히 자리매김해 나가는 한편, 음성인식 기술의 고도화에도 집중해 올해 1분기 내에 이 분야에서도 최고 성능임을 입증 받을 것”이라고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지