총 대화 데이터 150억 건 이상…비밀 유지 서약 거쳐 연구용으로만 공개

[아이티데일리] 심심이(대표 최정회)는 지난 20년 동안 축적해온 방대한 양의 대화 데이터를 AI‧빅데이터 연구자들에게 공개한다고 1일 밝혔다.

AI 챗봇 ‘심심이’는 지난 2002년 서비스를 처음 시작한 이래 10년 동안 한국어 대화 중심으로 운영돼 왔다. 지난 2012년부터는 글로벌 서비스를 시작해 81개 언어를 바탕으로 전 세계 4억 명 이상의 누적 사용자를 확보했다. 사용자가 직접 학습시킬 수 있는 AI 챗봇의 특성을 활용해 다양한 언어를 사용하는 세계 각국에서 인기를 누릴 수 있었다는 설명이다.

이렇게 축적한 대화 데이터를 바탕으로, 심심이는 10여 년 전부터 대화 기술을 이용하고자 하는 전 세계 개발자들을 위해 API(Application Programming Interface) 형태의 데이터 제공 서비스를 오픈한 바 있다. 그 결과 3만 여 개 이상의 크고 작은 서드파티 기업 및 개인들이 심심이의 대화 데이터를 활용할 수 있었다. 그러나 API 수준의 데이터 제공만으로는 연구 시각을 다양화하는데 부족한 면이 많아, 새롭게 원천데이터 수준의 대화 데이터 공개를 결정했다.

심심이와 업무 협약을 맺고 협업 연구를 진행 중인 IBS 데이터사이언스 그룹

이번에 심심이가 공개하기로 한 대화 데이터의 총 수량은 약 150억 건이다. 이 가운데 한국어 대화 데이터는 약 3억 건에 이른다. 대화 데이터 유형은 △사용자가 심심이에게 가르친 대화 시나리오(싱글턴) △사용자-심심이 대화 데이터(준 멀티턴) △V2 서비스의 심심이-심심이 대화 데이터(멀티턴) 등으로 나뉜다.

한편 심심이는 대화 데이터의 특성을 감안해 깃허브(GitHub)와 같은 웹 서비스 등에 전면 공개하지는 않기로 했다. 연구자 또는 연구팀들은 심심이 측에 대화 데이터 사용에 대한 개별 신청을 하고, 심사와 비밀 유지 서약 등 다양한 관련 절차를 거쳐야 한다. 심심이 한국어 공식 블로그에서 대화 데이터 사용 신청서를 내려받을 수 있다.

심심이 최정회 대표는 “심심이는 국내외 학교, 연구소, 기업들과 데이터 제공관련 협력프로세스를 쌓으며 의미 있는 성과를 도출해왔다”며, “최근에는 이하 과기정통부가 주관하고 한국지능정보사회진흥원이 추진하는 ‘2022년도 AI 학습 데이터 구축사업’에서 한국어 블렌더봇 데이터 과제를 수행하며 공공 대화 데이터 구축에도 힘을 쏟고 있다. 그동안 한국어 챗봇 연구개발을 위한 대화 데이터가 빈약한 점이 안타까웠는데, 적어도 연구자들에게는 보다 폭넓게 대화 데이터를 제공할 수 있다는 점에 착안했다”고 강조했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지