메타, 10배 더 많은 언어 지원하는 음성-텍스트 변환 모델 공개

식별 가능한 언어 4000개 이상으로 확장…MMS 프로젝트 성과 오픈소스로 공유

[아이티데일리] 메타가 ‘대규모 다국어 음성인식(Massively Multilingual Speech, 이하 MMS)’ AI 모델을 24일 오픈소스로 공개했다.

현재 지구상에서 사용되는 언어의 수는 7,000개가 넘는 것으로 알려져 있다. 하지만 기존 음성 인식 모델들은 최대 100여 개의 언어만을 지원한다. 이에 메타는 더 많은 사람들이 손쉽게 정보에 접근하고 자신이 원하는 언어로 각종 기기를 사용할 수 있도록 돕기 위해 MMS 프로젝트를 진행해왔다. 메타가 공개한 AI 모델은 음성-텍스트 변환이 가능한 언어의 수를 기존 100여 개에서 1,107개로 10배가량 확대했으며, 식별 가능한 언어의 수 역시 4,000개 이상으로 40배가량 확대했다.

MMS 프로젝트를 통해 훈련된 AI 모델은 기존 음성 변환 모델에 비해 높은 성능을 자랑한다. 메타의 자체적인 분석 결과, 음성 변환 언어의 수를 61개에서 1,107개로 18배가량 늘렸을 때 문자 오류율은 단 0.4% 증가하는 데에 그쳤다. 또한 오픈AI의 음성인식 모델 ‘위스퍼(Whisper)’와 유사 비교를 수행한 결과, MMS 프로젝트로 교육된 모델은 단어 오류율을 절반으로 줄이면서도 11배 더 많은 언어를 처리할 수 있는 것으로 나타났다.

메타는 언어 다양성 보존에 기여하고 AI 생태계 전반의 발전과 책임 있는 개발을 위해 MMS 모델과 코드를 오픈소스로 공개한다는 방침이다. 또한 수천 개의 언어를 지원하는 단일 음성 모델 구축을 위해 적용 언어 범위를 늘리고, 기존 음성 기술로 다루기 어려운 방언 처리 문제 해결을 위해서도 지속적인 노력을 기울인다. 이러한 발전된 음성인식 기술을 VR/AR 기술 영역이나 메시지 서비스에 적용해 혁신을 주도하겠다는 목표다.

김성수 기자 kimss56@itdaily.kr

다른기사 보기

상단영역

본문영역

메타, 10배 더 많은 언어 지원하는 음성-텍스트 변환 모델 공개

식별 가능한 언어 4000개 이상으로 확장…MMS 프로젝트 성과 오픈소스로 공유

기사 댓글 0

비회원 로그인