‘코난 디지털아크’ 활용해 빠르고 정확한 자막 서비스 제공

[컴퓨터월드] 1972년 설립된 한국방송통신대학교(이하 방송대)는 국립원격대학으로 우리나라 국민 모두가 언제 어디서나 학습할 수 있는 온라인 교육 환경은 물론 오프라인에서 학습할 수 있는 지역 캠퍼스를 제공하고 있다. 2018년 현재 방송대에는 직업과 나이가 다른 약 11만 명의 학생들이 온라인 교육 환경을 이용하여 학습하고 있다.

특히 방송대는 장애학생들이 어려움 없이 강의를 들을 수 있도록 다양한 편의를 마련하고 있으며, 이러한 편의기능 중 하나로 청각장애 학생들을 위해 일부 동영상 강의에 자막을 덧붙여 제공하고 있다. 최근 방송대는 해당 기능에 딥러닝 기반의 실시간 자막 생성 기술을 도입해 강의 자막 자동 생성 프로세스를 고도화함으로써 학생들의 편의를 높이고 있다.


속기사가 손수 자막 제작…지원 가능한 강의 제한돼
방송대는 매년 학부와 대학원 강의로 천 여 개의 과목을 서비스하고 있다. 일반적으로 과목당 15강의 온라인 동영상 강의를 제공하고 있다. 동영상 강의는 제작 후 최대 3년간 사용할 수 있기 때문에 매년 평균적으로 300개 이상의 과목에 대해 과목당 15개 강좌를 새로이 만들어야 한다. 기존에 제작돼 있는 수많은 동영상 강의에 더해 매년 수천 개의 강의가 새롭게 제작되는 셈이다.

하지만 이러한 환경에서 기존에 방송대가 보유하고 있던 자막 생성 방법으로는 모든 동영상 강의에 자막 서비스를 제공하는 것이 불가능하다. 방송대는 속기사가 직접 동영상을 시청하며 자막을 작성하고 이를 동영상 내에 제공해왔지만, 속기사들이 시간당 작성할 수 있는 자막의 양에는 한계가 있다. 또한 해당 분야에 대한 전문 지식이 부족해 특수한 단어를 알아듣지 못하는 경우가 있어 다른 사람의 점검 및 후보정 작업이 요구됐다.

강의 내용이 제대로 전달되지 못하면 시험에서 불이익을 받는 학생이 나올 수도 있으므로 정확한 자막 생성은 매우 중요하다. 정확한 자막을 만들기 위해서는 많은 인력과 시간이 소요되기에 일부 동영상 강의에만 자막 서비스를 제공할 수 있었다. 따라서 자막이 꼭 필요한 청각장애 학생들은 수강할 수 있는 강의가 매우 한정적이다.

이를 개선하기 위해 방송대는 코난테크놀로지가 보유한 자연어 분석 기술 및 음성 인식 기술을 활용해 자막 생성 시스템 구축에 나섰다. 멀티미디어 자산 관리 솔루션(Multimedia Asset Management, MAM) ‘코난 디지털아크(Konan DigitalArc)’를 기반으로 인력에 의존하던 기존 방식을 일신해 자동화된 자막 자동 생성 프로세스를 구성함으로써 빠르고 정확한 자막을 제작할 수 있다는 설명이다.

▲ 코난테크놀로지의 MAM 솔루션 ‘코난 디지털아크’ 개요

신속·정확한 자막 생성 시스템 마련
자동화된 자막 생성에서 가장 중요한 것은 정확도다. 특히 정확도 측면에서는 강의 내에서 교수가 강의하는 내용을 정확히 캐치해 텍스트로 옮기는(Speech to Text, STT) 것이 중요한데, 대학 강의의 경우 일반적으로 사용되지 않는 전문용어나 고유명사가 빈번하게 사용된다는 어려움이 있었다.

보편적인 학습 모델을 활용한 프로젝트 초기에는 자막 생성의 정확도가 80% 수준에 머무르기도 했다. 방송대 측은 자막 자동 생성 기능을 제공하고 있는 타 온라인 동영상 사이트들이 영상에 따라 자막의 정확도가 심하게 차이가 난다는 점을 지적하며, 학생들이 방송대에서 제공하는 모든 강의에 대해 정확한 자막을 제공받을 수 있어야 한다고 강조했다.

이에 따라 방송대와 코난테크놀로지는 속기사들이 수작업으로 제작했던 자막이나 학습교재와 같은 텍스트 데이터를 활용해 학습시킴으로써 자막 정확도를 높였다. 특수기호나 자막 데이터에 포함된 타임레코드를 제거하는 등 학습용 데이터를 통합하는 과정을 자동화하고, 이렇게 축적한 데이터로 학습시킨 결과 고유명사나 전문용어를 높은 확률로 잡아낼 수 있게 됐다.

여기에 코난테크놀로지가 보유한 자연어처리 기술을 적용함으로써 90~95%에 달하는 정확도를 확보했다. 남아있는 오류를 잡아내고 품질을 개선하기 위해 여전히 인력에 의한 후보정 작업을 병행하기는 하지만, 이전에 비해 훨씬 적은 인원으로 향상된 수준의 자막을 제공할 수 있게 됐다는 설명이다.

▲ 한국방송통신대학교는 청각장애 학생들을 위한 자막을 자동으로 생성할 수 있는 시스템을 구축했다.

자막 생성의 신속함 역시 이번 프로젝트의 결과 중 하나다. 속기사와 같이 인력에 의존하는 방법으로는 직접 강의를 들으며 자막을 만들다보니 강의 시간에 준하는 많은 시간이 소요되며, 수많은 강의에 대해 동시다발적으로 자막을 생성하는 데에도 한계가 있었다. 반면 새로운 자막 자동 생성 시스템을 활용하면 45분 강의를 기준으로 10분 이내에 최초 자막을 생성하기에 충분하다. 내용 점검과 후보정 및 영상과의 통합을 위해 약간의 시간이 더 소요되기는 하지만, 기존의 방법에 비해서는 획기적으로 시간을 단축한 셈이다.

또한 강의 영상을 제작해 업로드한 시점에 실시간으로 제작한 자막을 함께 제공하는 것도 가능하다. 이는 속기사를 활용한 별도의 과정이 필요했던 기존 방법으로는 불가능했던 일이다. 물론 점검 및 후보정 작업을 거쳐 완성도를 높인 자막을 차후에 빠르게 재업로드하고 있다.
 

 
“모든 학생들이 제한 없이 편리하게 사용할 수 있는 교육 환경 마련”
이긍희 한국방송통신대학교 디지털미디어센터 원장 겸 정보통계학과 교수


Q. 자동화된 자막 생성 프로세스 도입을 결정한 이유는?
- 연간 수천 개의 강의를 제작하고 있는 상황에서 속기사를 활용한 인력 중심의 서비스를 유지해서는 학생들의 요구에 제때 대응하기 어렵다. 근래에 음성인식과 같은 IT 기술이 충분히 발전했으며, 이미 이를 현장에서 도입하고 있는 IT 기업들도 늘어나고 있다. 우리와 같은 일선 학교에서도 이와 같은 기술을 활용해 서비스를 고도화해야 한다고 생각한다.

기존에 사용해오던 익숙한 시스템을 새롭게 바꾸려면 초기에 약간의 어려움이 발생할 수도 있겠지만, 코난테크놀로지와 같이 멀티미디어 자산 관리(MAM)과 자연어처리 분야에서 우수한 기술력을 갖춘 기업과 함께 한다면 충분한 성과를 거둘 수 있을 것이라고 판단했다.

Q. 프로젝트 성과에 대해 평가한다면?
- 해당 기능을 이용하고 있는 학생들이 속기사가 직접 작성하던 자막과 차이를 느끼지 못할 정도의 품질을 확보하면서도 훨씬 빠른 시간에 서비스 제공이 가능해졌다. 기존에는 청각장애 학생들이 많은 관심을 보이는 한정적인 강의에만 자막 서비스를 제공할 수 있었지만, 향후 방송대에서 제공하는 모든 강의에 자막을 제공하는 것도 가능해질 것이다. 이를 위해 지난 1학기에는 62개 과목에 대해 음성인식 기반의 자막생성 시스템을 활용했으며, 2학기에도 약 60개 강의에 대한 자막 생성과 후보정 작업을 진행할 예정이다.

이 서비스는 장애를 가지지 않는 학생들에게도 많은 도움이 될 것이라고 생각한다. 소음이 발생하는 지하철 등에서 이동 중 모바일로 강의를 수강하는 학생들이나 고령의 학생들에게는 소리만으로 제공되는 강의보다 자막이 제공되는 강의가 훨씬 편하게 다가올 수 있다. 즉, 이 서비스는 청각장애 학생들을 위한 서비스로 개발됐지만 결과적으로 모든 학생들이 편리하게 학습할 수 있는 서비스로 확장된 것이다.

교수별 음성 모델 구축해 정확도 향상
한편 방송대와 코난테크놀로지는 올해 하반기에 자막 자동 생성 시스템의 성능 향상을 위한 2차 프로젝트를 진행하고 있다. 2차 프로젝트에서는 자막 정확도를 향상시키기 위해 맞춤법 검사와 교수별 음성 모델 분리, 다자간 음성 분리 등이 추진될 계획이다. 특히 강조되고 있는 것은 교수별로 음성 모델을 분리해 개인화된 개별 학습 모델을 구성하는 것으로, 이를 통해 보다 자막의 정확도를 높여 완전히 자동화된 자막 생성 프로세스 구축을 준비한다는 방침이다.

발화자의 언어 습관에 따라 음성 인식 모델의 정확도에는 차이가 발생할 수 있다. 만약 강의를 진행하는 교수의 발음이 부정확하거나, 잘 쓰이지 않는 자신만의 표현을 빈번히 사용하는 경우 음성 인식률이 떨어질 수 있다. 이를 감안해 개별 교수마다 특징을 분석해 개인화된 음성 인식 모델과 용어 사전을 구성할 수 있다면 보다 정확한 자막 생성이 가능할 것이다.

이를 위해서는 현재 방송대의 교수진을 구성하고 있는 150여 명에 더해, 방송대에서 강의를 진행하는 타 학교 교수들에 대해서도 모두 각각의 개별 언어 인식 모델을 구축해야 한다. 코난테크놀로지 관계자는 방송대가 자사의 CMS(Contents Management System)를 도입해 사용하고 있기에 가능한 일이라고 덧붙였다. CMS 상에서 강의 영상 정보를 통합해 관리하고 있기에 교수별로 별도의 사전을 구축하는 것이 가능하다는 설명이다.

▲ 자동화된 자막 생성 시스템 편집 화면

앞서 방송대와 코난테크놀로지가 일부 교수를 대상으로 개인화된 음성 인식 모델에 대한 파일럿 테스트를 진행한 결과 실제로 자막 정확도가 향상되는 것을 확인할 수 있었다. 현재 사용하고 있는 음성 인식 모델로도 90% 내외의 정확도를 보이고 있지만, 개인화된 음성 인식 모델을 활용한다면 95% 이상의 정확도를 확보하는 것도 가능하다.

또한 자막 데이터 기반의 검색 서비스도 계획 중에 있다. 자막 데이터에 대한 검색이 가능해진다면 학생들이 원하는 강의 영상과 관련 내용이 나오는 시간대를 손쉽게 찾을 수 있다. 현재에는 청각장애 학생들의 관심이 높은 일부 강의에만 자막이 제공되고 있기에 검색 기능이 구현되더라도 효과가 낮지만, 향후 모든 강의에 대한 자막 제공이 가능해진다면 보다 편리한 교육 환경 제공이 가능해질 것이다.

 
“음성 인식 기술 도입, 중장기 계획 수립해 고도화해나가야”
박정선 코난테크놀로지 지능형콘텐츠사업부장


“음성 인식 기술 활용, 중장기 계획 수립해 고도화해 나가야”
박정선 코난테크놀로지 지능형콘텐츠사업부장 (사진 있음)

Q. 프로젝트 진행에 어려움이 있었다면?
- 이번 프로젝트의 목적은 청각장애 학생이 비장애 학생들과 차별 없이 동일한 시점에서 강의를 들을 수 있도록 하는 것이므로, 강의 음성 인식률을 높이는 것이 가장 큰 요구사항이었다. 특히 교수님들의 습관적 추임새, 부정확한 발음, 전문용어나 특수기호의 인식 등이 인식률을 높이는 데에 큰 장애로 다가왔다.

음성을 텍스트로 변환할 때는 기본적으로 70~85% 정도의 성능을 보여주며, 축적된 데이터를 활용해 언어 및 음성 학습을 진행한다면 90% 내외의 인식률을 얻을 수 있다. 또한 20여 년간 축적해온 자사의 한국어 자연어처리 기술을 적용해 더욱 인식률을 향상시킬 수 있었다. 후보정이 필요 없는 완전한 자막 자동 생성 시스템으로 거듭나기 위해서는 평균 인식률을 95% 이상으로 끌어올려야하며, 이를 위해 맞춤법 검사, 교수별 음성 모델 분리, 다자간 음성 분리 등의 과제가 남아있다.

Q. 이번 프로젝트에서 얻은 노하우를 바탕으로 유사한 서비스를 개발하려는 기업 및 기관에게 조언한다면?
- 만약 음성인식 기반의 서비스를 도입하려는 기업이나 기관이 100% 정확도를 보장하는 음성인식 기술 개발을 기다리고 있다면, 그런 날은 오지 않을 것이며 현재의 기술로도 충분히 원하는 성과를 구현할 수 있다고 말해주고 싶다.

이미 음성인식 기술은 일정량의 언어 및 음성 학습으로 일상적인 내용에 대해서는 90% 이상의 인식률을 기대할 수 있다. 전문용어나 특수기호를 많이 사용하는 분야에 대해서는 자연어처리 기술을 활용한 후처리 방식으로 문제를 해결하는 것도 가능하다. 도입 직후의 단기적인 성과를 기대하기보다, 중장기 계획을 수립하고 시스템의 학습을 통해 고도화해나간다면 충분히 원하는 결과를 얻을 수 있을 것이다.

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지