전화망 환경 서 높은 정확성 보여…음절 에러 비율 8% 이하

저음질 전화망 음성인식 데이터 테스트 결과
저음질 전화망 음성인식 데이터 테스트 결과

[아이티데일리] 인공지능(AI) 플랫폼·서비스 전문 기업 티맥스에이아이는 올 연말 상용화를 앞둔 자사의 음성인식(STT, Speech to Text) 모델이 자체 수행 인식 성능 테스트에서 우수한 결과를 보였다고 7일 밝혔다.

티맥스에이아이에 따르면, 이번 테스트는 저음질 전화망 음성인식 데이터 샘플 4만 763개 및 고객 응대 음성 샘플 2만 1,788개를 대상으로 진행됐다. 음성 데이터를 들려주고 STT 모델이 원본에 얼마나 가깝게 텍스트화 하는 지를 측정했다.

저음질 전화망 음성인식 테스트 결과 티맥스에이아이 STT 모델은 전화망 환경에서 높은 정확성을 보였다. 이번 테스트에는 교육·민원·HR·전자상거래 등 분야의 전화 상담 음성 데이터를 활용했다. 음절 에러 비율을 의미하는 CER(Character Error Rate)은 8.00%로 나타났다. 이는 100개의 음절 중 92개의 음절을 정확하게 받아 적었음을 의미한다.

고객 응대 음성 테스트에서는 더 높은 정확도를 보였다. 고객 응대 음성 데이터는 매장이나 키오스크에서의 주문·검색·조작·고객 응대 음성 데이터로 가상 시나리오를 기반으로 제작됐다. 이 테스트에서는 3% 대의 음절 에러 비율을 기록했으며, 지역 방언까지 정확하게 인식해 받아쓰는 것으로 나타났다.

방언까지 정확하게 인식하는 티맥스에이아이 STT는 어떠한 발화자의 음성도 자연스럽게 받아 적는 강점을 갖고 있다. 잡음이 섞인 전화망 음성도 정확하게 텍스트화한다. 티맥스에이아이는 구축 수요가 급증하고 있는 AI 컨택센터 운영 시 원활한 유선 문의 응대에 도움이 될 것으로 예상하고 있다.

티맥스에이아이 측 음성 연구 관계자는 “음성 인식과 음성 합성 외에도 다양한 음성 AI 인식 기술을 확보했다”며 “단기간 내 상용화 서비스가 가능할 것 보인다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지