40분의 음성 데이터로 활용 가능…기쁨·슬픔 등 감정 표현도

[아이티데일리] 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 기술이 공개됐다.

네이버(대표 한성숙)가 클로바의 음성 합성 신기술 ‘NES(Natural End-to-end Speech Synthesis)’를 14일 공개했다.

‘NES’는 약 400문장에 해당하는 40분 가량의 음성 데이터로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술이다. 최대 100시간 정도의 음성이 필요했던 기존 서비스보다 쉽고 빠르게 음성 서비스를 개발할 수 있다. 기본 목소리 외에도 기쁨·슬픔 등 감정이 반영된 목소리도 제공해 다양한 분야에서 제약없이 사용할 수 있다는 설명이다.

또한 네이버는 기업 이용자를 대상으로 ‘NES’ 기반의 보이스 비즈니스 서비스 ‘클로바 프리미엄 보이스(CPV)’도 판매할 계획이다. 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, ‘네이버 클라우드 플랫폼’에서 유료 API 형태로 제공된다.

김재민 네이버 클로바 보이스 책임리더는 “‘NES’ 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것으로 기대한다”면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 추가해나갈 것”이라고 말했다.

한편 네이버는 ‘클로바 스마트스피커’, ‘네이버 뉴스’, ‘네이버 지도’, ‘파파고’, ‘오디오클립’ 등 자사의 다양한 서비스에 ‘클로바’의 음성합성 기술을 활용하고 있다. 연내에는 NES 기술을 활용한 신규 AI 서비스도 출시할 계획이다. 또한 ‘클로바 보이스’ 홈페이지에서 무료로 ‘NES’ 기술로 제작한 음성합성을 체험해볼 수 있다.

한편 네이버 클로바는 ▲챗봇 ▲음성 인식 ▲음성 합성 ▲OCR ▲이미지 검색 ▲얼굴 인식 ▲비디오 분석 ▲머신러닝 ▲텍스트 분석 등 총 9개의 AI 핵심 엔진을 자체 개발하고 있으며, 이를 활용한 다양한 서비스 모델을 제공하고 있다. 가령 AI 고객센터 서비스 ‘클로바 AI 포 컨택센터(Clova AI for Contact Center)’에는 음성 인식, 음성 합성, 텍스트 분석 등의 기술들이 적용됐다. 네이버는 향후 클로바 기반의 AI 기술 활용을 본격화해 더욱 다양한 비즈니스 모델 라인업을 구축해 나갈 계획이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지