고도화된 음성인식 기술 수요에 적극 활용…업데이트된 구글 논문서 직접 언급

 

[아이티데일리] 마인즈랩(대표 유태준)은 자사 브레인팀에서 음성 분리 및 필터(Voice Filter) 기술을 구현하는 데 성공했다고 5일 밝혔다.

음성 분리 및 필터 기술은 여러 명의 발화가 동시에 겹쳐서 일어날 때 화자별로 음성을 각각 분리할 수 있는 기술이다. 해당 기술은 지난 10월 구글이 논문을 공개한 바는 있으나 실제 모델을 공개하지는 않았다. 마인즈랩 측은 음성 분리 및 필터 기술을 구현하고 오픈소스로 공개한 것은 이번이 처음이라고 강조했다. 발표 이후 구글의 논문이 업데이트돼, 마인즈랩의 성과가 구체적으로 포함됐다.

음성 분리 및 필터 기술은 회의록 자동 작성·전사, 스마트 오피스 환경 구축 등 고도화된 음성인식 기술이 필요한 분야에서 다양하게 상용화될 수 있다. 마인즈랩은 이번에 구현된 기술을 토대로 가장 높은 기술 수요가 있는 인공지능(AI) 회의록 서비스와 AI 하이브리드 고객센터 서비스를 구체화·강화할 계획이다. 또한 다중 화자 음성인식이 필요한 전 분야에 걸쳐 기술적 한계로 시도하지 못했던 다양한 형태의 음성인식 솔루션을 마련한다.

▲ 두 명의 화자가 겹쳐서 발화하는 음성에서 화자별로 음성을 분리하는 모습

최홍섭 마인즈랩 브레인팀 상무는 “음성 분리 및 필터 기술은 구글이 논문을 공개하며 높은 관심을 받았지만 오픈소스로 공개하지 않아 연구에 어려움을 겪었는데, 마인즈랩이 이를 구현하고 3명 이상의 화자까지 분리하는 데 성공했다”면서, “공공과 민간 분야 모두에서 회의록 자동 작성에 대한 기술 수요가 높아 이에 빠르게 대처하는 한편, 보다 고도화된 음성인식 서비스로 나아갈 수 있는 획기적인 R&D 성과로 보고 있다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지