40분의 음성 데이터로 활용 가능…기쁨·슬픔 등 감정 표현도
[아이티데일리] 짧은 녹음만으로 고품질의 합성음을 제작할 수 있는 기술이 공개됐다.
네이버(대표 한성숙)가 클로바의 음성 합성 신기술 ‘NES(Natural End-to-end Speech Synthesis)’를 14일 공개했다.
‘NES’는 약 400문장에 해당하는 40분 가량의 음성 데이터로 실제 사람의 음성에 가까운 자연스러운 합성음을 제작할 수 있는 기술이다. 최대 100시간 정도의 음성이 필요했던 기존 서비스보다 쉽고 빠르게 음성 서비스를 개발할 수 있다. 기본 목소리 외에도 기쁨·슬픔 등 감정이 반영된 목소리도 제공해 다양한 분야에서 제약없이 사용할 수 있다는 설명이다.
또한 네이버는 기업 이용자를 대상으로 ‘NES’ 기반의 보이스 비즈니스 서비스 ‘클로바 프리미엄 보이스(CPV)’도 판매할 계획이다. 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, ‘네이버 클라우드 플랫폼’에서 유료 API 형태로 제공된다.
김재민 네이버 클로바 보이스 책임리더는 “‘NES’ 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것으로 기대한다”면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 추가해나갈 것”이라고 말했다.
한편 네이버는 ‘클로바 스마트스피커’, ‘네이버 뉴스’, ‘네이버 지도’, ‘파파고’, ‘오디오클립’ 등 자사의 다양한 서비스에 ‘클로바’의 음성합성 기술을 활용하고 있다. 연내에는 NES 기술을 활용한 신규 AI 서비스도 출시할 계획이다. 또한 ‘클로바 보이스’ 홈페이지에서 무료로 ‘NES’ 기술로 제작한 음성합성을 체험해볼 수 있다.
한편 네이버 클로바는 ▲챗봇 ▲음성 인식 ▲음성 합성 ▲OCR ▲이미지 검색 ▲얼굴 인식 ▲비디오 분석 ▲머신러닝 ▲텍스트 분석 등 총 9개의 AI 핵심 엔진을 자체 개발하고 있으며, 이를 활용한 다양한 서비스 모델을 제공하고 있다. 가령 AI 고객센터 서비스 ‘클로바 AI 포 컨택센터(Clova AI for Contact Center)’에는 음성 인식, 음성 합성, 텍스트 분석 등의 기술들이 적용됐다. 네이버는 향후 클로바 기반의 AI 기술 활용을 본격화해 더욱 다양한 비즈니스 모델 라인업을 구축해 나갈 계획이다.