플리토, 국립국어원 병렬 말뭉치 사업 3년 연속 수주

고품질 말뭉치 데이터 구축으로 한국형 생성 AI 품질 향상에 기여

2023-05-26     김성수 기자

[아이티데일리] 플리토(대표 이정수)는 국제한국어교육학회와 함께 국립국어원의 한국어-외국어 병렬 말뭉치 구축사업에 3년 연속 참여한다고 25일 밝혔다.

국립국어원은 올해 말뭉치 구축사업 참여기업을 선정하기 위해 기술성 전반과 기업 건전성을 종합적으로 평가했다. 총 사업 규모는 47억 원으로, 플리토는 올 연말까지 약 24억 원 규모의 병렬 말뭉치 데이터를 구축할 계획이다.

플리토 측은 3년 연속 사업을 수주한 이유에 대해 △기존 사업을 성공적으로 수행한 성과 △언어 데이터 구축 전문성 △고품질 말뭉치 구축에 필요한 언어 전문가 및 전문 번역가를 보유한 통합 번역 플랫폼 등을 꼽았다. 플리토는 데이터 사업 본격화 이전부터 글로벌 유저들이 활동하는 언어 플랫폼을 운영해 왔고, 플랫폼 내 보상형 서비스 ‘아케이드’를 통해 저작권 문제가 없는 최신의 언어 데이터를 제공할 수 있었다.

특히 대규모 언어 모델(LLM)과 AI 챗봇이 업계 최대의 이슈로 부상한 올해 초에는 아케이드를 통한 대화형 데이터 수집량이 하루 50만 건을 돌파하는 등 데이터 수요가 급속도로 증가했다. 수집된 데이터는 주제, 지역, 나이, 성별, 대화 유형 등 다양한 메타데이터 정보를 삽입하고 생성형 AI 학습에 사용될 수 있도록 정제해 제공한다.

플리토 이정수 대표는 “고품질 데이터 구축 전문성과 플랫폼 운영의 안정성을 인정받아 올해도 국립국어원 사업 참여기업에 선정돼 매우 기쁘다”며, “우리 정부가 중점적으로 육성하는 언어 AI 분야에서 한국이 경쟁력을 확보하고 주도권을 가져갈 수 있도록, AI 성능 향상과 직결되는 다양한 유형의 고품질 언어 데이터를 구축 및 제공하는 데 최선을 다하겠다”고 말했다.

한편 이번 사업은 베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어, 러시아어, 우즈베크어 등 총 8개 언어의 병렬 말뭉치 구축을 목표로 한다. 한국어와 한국 문화 콘텐츠에 대한 관심이 높고 경제 성장 잠재력 또한 큰 국가들의 언어를 우선적으로 선정했다. 이번 말뭉치 구축사업을 통해 AI 성능 향상뿐 아니라 국가 상호 간 관계 증진 및 언어문화 교류 활성화도 기대할 수 있다는 설명이다.