기존 1/10 수준의 학습량으로 더 정확한 음성 인식 가능

[아이티데일리] 네이버가 자사의 음성 기술 연구 성과를 바탕으로 개발한 새로운 음성인식 엔진 ‘NEST(Neural End-to-end Speech Transcriber)’를 13일 공개했다.

‘NEST’는 제한된 데이터 학습만으로도 정확한 음성인식이 가능하다. 대량의 정제된 데이터가 준비되지 않은 상황에서도 복잡하고 다양한 장문의 음성 표현을 인식하고 텍스트로 변환할 수 있다.

네이버 측은 ‘NEST’의 뛰어난 성능이 음향 정보와 언어 정보를 별도로 학습하는 기존의 모델링 방식을 통합 모델링 방식(end-to-end)으로 개선한 결과라고 설명했다. 학습에 필요한 데이터의 양과 시간이 기존의 1/10 수준으로 줄어들었는데도 인식의 정확도는 오히려 높아졌다.

한익상 네이버 리더는 “‘NEST’는 동영상 및 오디오 콘텐츠의 자막 제작이나 아카이빙, 고객센터의 통화 데이터 관리 등 다양한 분야에서 활용 가치가 높을 것으로 기대된다”며, “앞으로도 AI 핵심 기술 연구에 더욱 집중하며, 음성인식의 품질과 효율을 더욱 고도화해 나가겠다”고 말했다.

현재 ‘NEST’는 ▲AI가 전화로 코로나19의 능동감시자를 확인하는 ‘클로바 케어콜 서비스’ ▲네이버 동영상 뉴스의 ‘자동 자막 서비스’ 등에 적용돼 있다. 개인 사용자들은 ‘클로바 스피치’ 홈페이지에서 ‘NEST’ 기술을 무료로 체험해볼 수 있으며, 기업 및 단체는 별도의 제휴를 통해 사용 가능하다.

네버는 ‘NEST’ 기술을 자사의 다양한 동영상 및 오디오 서비스, 동영상 검색 및 에디터 등에도 적용해나갈 계획이다. 또한 하반기 일본어 버전 출시를 시작으로 영어, 중국어 등으로 제공 언어도 확대한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지