문장 단위 번역으로 번역 품질 향상…시장 규모 예측불가능

[컴퓨터월드] 지난해 11월 구글 번역 서비스에 신경망 기계번역 기술이 도입된 이후, 고작 2개월 사이에 구글 번역 서비스를 사용하는 한국어-영어 트래픽이 50% 이상 증가했다. 마이크 슈스터 구글 리서치사이언티스트는 신경망 기계번역 기술 도입이 지난 10년에 걸친 번역 서비스의 품질을 향상시키기 위한 노력보다 더 효과적이었다고 말하기도 했다. 네이버, 한글과컴퓨터, 시스트란 등의 국내 기업들도 자사의 서비스에 신경망 기술을 도입한 후 눈에 띄는 성능 향상을 가져왔다. 통번역 서비스를 제공하는 대표 업체들을 통해 기계번역 서비스의 현재와 미래를 짚어본다.


기계번역 서비스, 인공신경망으로 큰 변화 맞아
지난해 9월, 구글은 자사 기계번역 서비스를 구글 신경망 기계번역(Google Neural Machine Translation, 이하 GNMT)이라는 새로운 시스템으로 전환한다고 발표했다. 2007년 구문 기반 기계번역(Phrase Based Machine Translation)으로 시작된 구글 번역 서비스는 신경망 기계번역(Neural Machine Translation, 이하 NMT)에 속하는 GNMT를 통해 획기적인 품질 향상을 경험하게 됐다. NMT는 인공지능(AI)과 머신러닝의 도입을 통해 기계번역 서비스를 개선하려는 시도였다.

자동통번역 서비스 시장은 AI의 도입으로 큰 효과를 거두고 있는 분야 중 하나다. 구글이나 마이크로소프트 등의 글로벌 기업은 물론, 국내에서 기계번역 서비스를 제공하는 네이버와 한글과컴퓨터 등도 자사의 기계번역 서비스에 NMT 기술을 적용함으로써 유의미한 성능 향상을 거두고 있다.

위키피디아 및 주요 뉴스 매체의 샘플 문장을 기준으로 평가했을 때, GNMT 도입 이후 구글 번역 서비스의 번역 오류는 55~85% 가량 감소한 것으로 나타났다. 한글과컴퓨터는 자사가 제공하는 ‘지니톡’ 역시 NMT 기술 도입 이후 번역 오류 접수 건수가 약 50% 감소했으며, 심지어 자주 나오는 비문을 학습해 사용자의 의도에 맞는 번역을 제공하기도 하는 등 기대 이상의 성과를 올리고 있다고 설명했다.

▲ NMT 기술 도입 이후 기계번역 서비스의 품질이 향상됐다.

이와 함께 통번역 시장의 빠른 성장에 대한 기대치 역시 높다. 구글 번역 서비스는 전 세계 5억 명 이상의 사용자를 보유하고 있으며, 103개 언어를 지원하고 매일 1,400억 개의 단어 번역이 이뤄지고 있다. 그랜드뷰리서치는 전 세계 자동통번역 시장 규모가 2022년에 약 10억 달러에 이를 것으로 전망했으며, 시장조사기관인 윈터그린리서치는 자동통번역과 관련된 전체 시장이 2019년까지 69억 달러에 이를 것으로 내다봤다. 시스트란인터내셔널 측은 “기술이 사용되는 전방 산업 자체가 늘어나고 산업 내 규모가 커지고 있는 만큼, 예측이 불가능한 수준으로 성장하게 될 것”이라고 강조했다.


RBMT·SMT의 특징과 한계
NMT가 도입되기 전에 자동통번역 시장을 이끌고 있던 것은 규칙 기반 기계번역(Rule Based Machine Translation, 이하 RBMT)과 통계 기반 기계번역(Statistical Machine Translation, 이하 SMT)이었으며, 초기에는 정확한 문법 체계를 바탕으로 하는 RBMT가 주로 사용됐다. 이는 번역 대상인 언어에 대해 높은 이해를 가진 개발자가 직접 정의한 규칙에 따라 번역하는 방법이기 때문에 번역 결과를 어느 정도 예측할 수 있으며, 정의된 규칙에 맞게 작성된 올바른 문장을 입력하면 정확한 번역 결과를 얻을 수 있는 장점을 가지고 있었다.

하지만 번역기를 만들거나 새로운 언어를 추가할 때마다 해당 언어에 능통한 개발인력이 필요하고, 문법 규칙이 많은 언어의 경우 개발 및 유지보수에 비용과 인력이 더욱 많이 요구된다. 또한 번역할 문장이 문법에 어긋나거나 개발자가 정의한 규칙에서 어긋난 형태를 취하고 있는 경우, 혹은 구어체나 문학적 표현이 들어간 경우 RBMT의 번역 효율은 급감하게 된다. 서비스 제공자가 직접 규칙을 개발하고 업데이트 하는 방식을 취하므로 지속적인 업데이트가 필요한 것은 물론이다.

▲ RBMT와 SMT 비교 (출처: 시스트란인터내셔널)

한편 통역과 관련된 빅데이터가 확보되고 이를 분석할 수 있는 역량이 확보되면서 RBMT를 대체할 수 있는 SMT가 주목받기 시작했다. 수많은 데이터로부터 자동으로 통계정보를 추출해 결과를 제시하기 때문에 RBMT 방식에 비해 상대적으로 넓은 범위의 번역 정보를 제공할 수 있으며, 좀 더 자연스러운 번역 결과를 제공한다. 또한 추가적인 데이터 확보를 통해 지속적인 품질 향상이 가능함은 물론, 정의된 규칙 이외의 번역에도 성능을 발휘할 수 있다.

그러나 최소 200만 개 이상의 번역 데이터를 필요로 하기 때문에 이를 확보할 수 있는 역량을 갖추기가 쉽지 않으며, 이를 관리하고 분석하기 위해 들어가는 시간과 비용도 만만치 않다. 또한 다양한 언어 조합을 지원하기 위한 방법도 확보해야 한다.

번역에 필요한 문법이나 규칙을 하나하나 지정해 줄 필요가 없기에 RBMT 방식에 비해 서비스 제공을 위한 최소한의 품질 역량은 빠르게 갖출 수 있지만, 번역 모델의 구축에 필요한 데이터를 갖추지 못해 실제 제품으로 이어나가지 못하는 경우가 많다. 또한 SMT는 데이터를 분석하고 학습하는 과정이 실시간으로 이뤄지기 때문에 상대적으로 높은 컴퓨팅 성능을 요구하며, 충분한 컴퓨팅 인프라를 갖춰야만 제대로 된 성능을 발휘할 수 있다.


벡터값 활용해 문장단위 번역 실행
RBMT와 SMT 이후 새로운 대안으로 제안된 번역 기술이 바로 AI가 적용된 NMT다. NMT는 빅데이터로 학습된 인공신경망을 기반으로 하며, 대다수의 기계번역 서비스들은 순환신경망(Recurrent Neural Network, 이하 RNN)을 사용하고 있다. NMT의 번역은 원문의 문장을 숫자 형태인 벡터값으로 치환(encoder)하고, 이렇게 만들어진 문장벡터를 기반으로 번역결과를 얻고자 하는 대상언어의 문장을 생성(decoder)해내는 방식이다. 원문에 포함된 단어나 표현 등은 유사한 단어들과 관계를 맺고 있는 일정한 벡터값을 가지며, 이를 대상언어와 조합해 최적의 가중치(weight parameter)를 갖는 문장을 만든다.

▲ NMT는 원문을 문장벡터로 치환하고 다시 대상언어의 문장을 생성하는 방식으로 이뤄진다.

NMT는 적절한 문장벡터를 계산하기 위해 충분한 데이터를 학습한 인공신경망 기술을 활용한다. 빅데이터를 통한 학습을 전제한다는 점에서는 SMT와 공통점을 갖지만, 두 번역방식의 차이는 데이터를 어떻게 활용하는가에서 나타난다. SMT는 데이터에서 나타나는 통계정보를 구성하고, 번역하고자 하는 원문이 들어오면 단어나 구 단위로 분할하고 통계정보에 따라 대상언어로 번역하게 된다.

입력된 데이터를 분석해 일정한 말뭉치를 구성하고, 번역이 필요한 원문이 입력되면 단어나 구 단위로 끊어 통계적으로 높은 비율을 보이는 대상언어로 바꾸기 때문에 단어나 구 단위로 통계정보가 모델링돼있다. 따라서 빈번히 사용되는 표현에 대해서는 강점을 갖지만, 전체 문장의 구조 파악이나 단어 사이의 관계를 분석하기는 어렵다. 또한 통계정보를 활용해 말뭉치를 구성하기 때문에 데이터가 누적될수록 엔진 자체의 용량이 커지는 결과를 불러오게 된다.

반면 NMT는 문장벡터를 계산하기 위한 인공신경망의 학습을 위해서 데이터를 활용한다. NMT는 단어나 구 단위가 아닌 문장 전체를 대상으로 삼아 전체 문맥을 고려한 번역 결과를 제공하며, 이에 따라 RBMT나 SMT보다 상대적으로 매끄러운 문장 번역 성능을 보여준다. 학습이 고도화될수록 문장벡터 계산 과정은 복잡해지지만 전체 데이터양은 일정 수준 이상으로 늘어나지 않는다는 것도 장점이다. 따라서 NMT는 복잡한 계산을 감당하고 학습 시간을 줄이기 위해 GPU나 인메모리 등의 효율적인 연산 성능 확보에 중점을 두게 된다.

문장벡터를 계산함으로써 얻을 수 있는 또 하나의 장점은 시스템에서 지원하지 않는 언어 조합 간에도 기계번역 서비스를 제공할 수 있다는 것이다. 구글은 지난해 11월, 시스템이 시도해 본 적이 없는 언어 조합 간 기계번역 서비스를 제공하는 ‘제로샷(Zero-Shot) 번역’ 기능을 공개했다.

▲ 구글 ‘제로샷’ 번역은 직접 연결이 불가능한 언어 조합 간에도 우회적으로 번역이 가능하게 만든다.

‘제로샷 번역’은 A와 B 사이의 번역이 가능하고 B와 C 사이의 번역이 가능하다면, A와 C 사이의 번역 역시 가능하게 만들어준다. 이는 원문과 대상언어가 1:1 대응을 통해 번역 결과를 제공하는 기존 방식들과 달리, 원문을 공통 값인 문장벡터로 치환하고 이를 다시 대상언어로 바꾸는 과정을 거치기 때문이다. 따라서 문장벡터를 경유해 최적의 가중치 계산이 가능한 언어끼리는 시스템이 직접 해당 번역을 지원하지 않더라도 양질의 기계번역 서비스를 제공할 수 있게 된다.

이는 기계번역 서비스가 제공하지 않는 A와 C 사이의 번역을 위해 과거의 RBMT나 SMT가 A에서 B로, 다시 B에서 C로 번역하는 이중의 과정을 거쳐야 했던 것과는 차별화된다. 특히 번역 과정을 두 번 거침으로써 번역 품질이 현저히 떨어진다는 점을 감안한다면, A와 C 사이의 직접 번역 기능을 제공하는 NMT의 장점이 더욱 두드러진다.


인간 번역가 vs 기계번역, 공정한 승부 가능한가?
지난 2월 21일, 국제통번역협회와 세종대학교, 세종사이버대학교는 ‘인간 vs 인공지능 번역대결’을 개최하고, 인간 번역가와 자동통번역 서비스의 번역 품질 대결을 진행했다.

이날 대결은 현업 베테랑 번역가 4명이 NMT를 탑재한 구글, 네이버, 시스트란의 기계번역 서비스와 경쟁하는 방식으로 치러졌으며, 출전자들에게는 한글과 영어로 된 문학, 비문학 지문 각각 2개씩이 주어졌다. 정해진 시간 안에 보다 정확한 번역을 내놓는 방식으로 진행된 대결에서 인간 번역가 측은 30점 만점에 평균 25점을 획득하며 승리를 거머쥐었다. 승부 결과에 대해 일부 관계자는 알파고와 이세돌의 바둑대결을 언급하며 ‘AI에 대한 인간의 승리’라는 점을 강조했다.

▲ 국제통번역협회와 세종대학교가 공동개최한 ‘인간 vs 인공지능 번역 대결’

그러나 관련 업계의 반응은 탐탁지 않다. 인간 번역가와 기계번역 서비스의 대결에 공정한 기준이 적용되지 않았으며, 심사 역시 인간에게 훨씬 유리하게 평가됐다는 것이다. 인간 번역가 측은 지문 번역을 위해 기계번역 서비스에게 책정된 시간보다 훨씬 긴 50분을 제공받았다. 지문을 입력하면 오래지 않아 결과를 제공해주는 기계번역 서비스와 달리, 인간 번역가는 같은 양의 지문을 번역할 때에도 훨씬 많은 시간을 필요로 한다.

또한 기계번역 서비스는 한 번 번역한 것을 반복해 검토할 수 없지만, 인간 번역가는 시간이 허락하는 한 초안을 두고 교정 과정을 거쳐 품질을 향상시킬 수 있었다. 심사기준 역시 ▲오역·누락 여부 ▲심층적 의미부여 ▲어법의 정확성 ▲어휘선택과 표현의 명료함 ▲내용의 논리성 ▲전후 맥락 파악 등 6개 부문으로 책정돼 인간 번역가에게 유리하다는 주장이 제기됐다.

해당 대결에 참가한 시스트란 측은 “‘사람과 기계간 협업 필요’라는 화두를 이끌어내기 위해 기획된 행사였지만, 주최 측의 서투른 진행으로 오점을 남기고 말았다”고 아쉬움을 토로했다. 기계번역이 번역하기에 어려운 문학 부문이 많은 비중을 차지하고 있었고, 기계번역 서비스가 제공할 수 있는 시간 단축의 이점은 전혀 고려되지 않았다는 것이다.

단일 언어로 습득하던 정보 채널을 다국어 기반으로 확장할 수 있다는 것은 신속하고 정확한 정보의 획득이 중요한 현대에 강력한 무기임에도, 오로지 번역이 얼마나 매끄럽게 됐느냐만 심사 기준으로 삼았다는 설명이다.

알파고와 이세돌의 대결은 바둑이라는 공통된 규칙 안에서 명확한 승리 조건을 달성하기 위한 승부였지만, 이번 인간 번역가와 기계번역 서비스의 대결은 공정하지 않은 규칙과 심사 기준으로 인해 제대로 된 승부가 되지 못했던 것으로 보인다.


기계번역, 용도 확실히 해야
네이버 측은 “기존의 번역방식에 비해서 NMT 번역이 품질 면에서 대폭 개선된 것은 사실이지만, 인간 번역가와 비교하기에는 무리”라고 선을 그었다. 특히 RBMT 및 SMT 방식에서 NMT 방식으로 바뀌면서 단어 및 구 단위 번역에서 문장 단위 번역이 가능해져 큰 번역 품질 향상을 가져왔지만, 이것만으로 인간 번역가의 수준을 따라잡는 것은 무리라는 점이 지적됐다.

인간 번역가는 문장 단위를 넘어 전체 지문의 흐름과 문장 간의 관계까지 고려해 번역할 수 있음은 물론, 필요에 따라 글쓴이의 감정·주변상황·배경 등의 비(非)언어적 정보까지 획득해 번역에 반영할 수 있다. 이는 문학 작품 번역과 같은 감성적인 영역에서 더욱 두드러진다. 문학 작품의 번역은 문장이 의미하는 바를 그대로 옮기는 직역이 아닌, 다른 문화권에서 만들어진 작품의 의미를 해치지 않으면서도 문장의 뜻을 전달하기 위한 창작의 영역이기 때문이다.

반면 시스트란 측은 향후 몇 년 이내에 기계번역 서비스가 인간 번역가의 수준을 뛰어넘는 분야가 나올 것이라고 전망했다. 문학과 같은 감성적 번역 분야에서 기계번역 서비스가 인간 번역가의 수준을 뛰어넘는 것은 매우 어렵겠지만, 사용 용도가 한정돼 있는 특정 분야에서는 충분히 경쟁해 볼만하다는 설명이다.

특히 기계, 법률, 일부 공학과 같은 영역에서는 사용되는 용어가 전문적이고 한정적이며 문장의 함의보다는 겉으로 드러난 의미가 중요하기 때문에 기계번역이 강세를 보일 수 있는 시장으로 손꼽힌다. 인간 번역가보다 훨씬 빠른 번역이 가능하고 일반 사용자가 접근하기 용이하다는 점을 살려, B2C 분야에서 실시간 번역 서비스를 제공하거나 대량의 외국어 자료를 빠르게 살펴보고 싶은 경우 등 다양한 방면에서 활용될 가능성이 있다.

한글과컴퓨터 측은 기계번역 서비스의 가능성을 인정하는 만큼, 기계번역 서비스가 갖는 한계 역시 명확히 인정해야 한다고 설명했다. 커뮤니케이션이라는 역할에 한정한다면 기계번역 서비스가 전체의 8~90% 수준의 서비스 수요는 만족시킬 수 있다.

표면적으로 드러난 언어의 의미를 분석하고 신속한 번역을 제공하는 것은 지금의 기술 수준으로도 어렵지 않으며, 이를 통한 일상적 편의는 충분히 제공 가능하다. 하지만 문장에 드러나지 않는 비언어적 표현을 기계번역 서비스가 이해하지 못하는 이상 인간 번역가와의 번역 품질 대결에서 일방적인 우세를 점하기는 힘들 것이다.

반대로 인간 번역가는 번역 속도에 있어서만큼은 기계번역 서비스를 따라갈 수 없다. 기계번역 서비스는 장문의 지문도 짧은 시간안에 효과적으로 번역해낼 수 있으므로, 해외 기사나 정보 등을 가볍게 둘러보고자 하는 일반 사용자 등에게는 인간 번역가의 심화된 번역 품질보다 빠르고 간단해 더 유용할 수 있다.
한편 머신러닝을 통한 개인화를 활용한다면 반복적으로 기계번역 서비스의 도움을 받는 사용자들의 이목을 끌 수 있을 것이다. 이미 많은 인간 번역가들은 기계번역 서비스를 통한 초벌 번역 과정을 거침으로써 자신의 업무에 효율성을 더하고 있다. 대량의 문서를 빠르게 번역할 수 있는 만큼 기계번역과 인간 번역가의 우열을 얘기하기보다, 인간 번역가끼리도 번역하는 스타일이 다르고 전문적으로 담당하는 분야가 다르듯 기계번역 역시 하나의 번역 스타일의 문제로 받아들여야 한다.

머신러닝을 전제하는 기계번역은 필요와 용도에 따라 각 산업분야에 특화된 학습이 가능하며, 이로써 해당 분야에 전문적인 역량을 발휘하고 때로는 인간 번역가보다 적합한 통역 서비스를 제공할 수 있다.


업체별 전략

 

한글과컴퓨터: 특화된 도메인과 결합해 차별화된 서비스에 주력
한글과컴퓨터가 서비스하는 ‘지니톡’은 지난 2012년 한국정보통신연구원(ETRI)이 정부의 AI 분야 연구개발 지원을 바탕으로 개발한 것이다.

현재는 한글과컴퓨터 계열사인 한컴인터프리에서 기술이전을 받아 서비스 중이며, 지난 2월부터 NMT 방식이 적용돼 향상된 번역 서비스를 제공한다. 특히 RBMT와 NMT를 모두 지원하는 하이브리드 방식을 사용하는데, 이는 경우에 따라 NMT보다 RBMT가 더 좋은 번역 품질을 내기 때문이다. 별도로 정의된 규칙에 의존하는 RBMT는 해당 규칙에 완벽히 부합하는 문장이 입력될 경우 매우 수준 높은 번역 품질을 보장한다.

▲ 한글과컴퓨터가 제공하는 넥밴드형 통역 단말기는 가까이 있는 동일 제품끼리 통역 서비스를 제공한다.

한글과컴퓨터 측은 자체적으로 실시한 내부 테스트 결과에 따르면 전체의 20% 정도는 RBMT가 NMT 보다 우수한 번역 품질을 보인다며, 자사의 ‘지니톡’에 RBMT와 NMT 방식을 모두 적용함으로써 차별화된 번역 서비스를 제공한다고 밝혔다.

‘지니톡’은 지난 2014년 인천아시안게임에서 자동통역서비스를 제공한 데 이어 오는 2018년 평창동계올림픽에서도 공식 통역 SW로 선정됐다. 이에 한글과컴퓨터는 동일 제품간 통역 서비스를 제공하는 넥밴드 형태의 블루투스 제품과 수많은 언어로 안내 및 통역 서비스를 지원할 수 있는 로봇 등을 제공한다.

통역 로봇의 경우 앞서 진행된 평창동계올림픽 테스트 이벤트에서도 선행 공개됐으며, 지난 5월 10일부터 사흘간 르완다에서 개최된 ‘트랜스폼 아프리카 서밋 2017’에서도 선보였다. ‘트랜스폼 아프리카 서밋 2017’은 르완다 정부가 주최하고 아프리카 17개국 정상들이 참석한 글로벌 행사다.

▲ 한글과컴퓨터가 선보인 통역 서비스 로봇

한글과컴퓨터 측은 특화된 도메인을 중심으로 한 소형 제품을 출시함으로써 시장을 확대해나가겠다고 밝혔다. ‘지니톡’ 등의 기계번역 서비스를 앱 형태로 제공하는 것만으로 수익을 올리는 것은 어려운 일이지만, 음성인식 통번역 서비스를 원하는 도메인과의 결합을 통해 해당 분야에 맞춤학습이 진행된 제품을 제공함으로써 수익 확대를 노린다는 방침이다.

지역별 고유명사 학습이 중요한 대중교통 분야, 대고객 서비스가 많고 높은 숫자 인식률을 필요로 하는 금융 분야, 의료 여행자를 대상으로 한 의료 분야 및 보다 전문화된 언어로의 통번역이 필요한 법률 분야 등 다양한 도메인들과의 협력을 통해 서비스와 제품을 확대해 나가겠다는 것이다. 이를 위해 각 도메인에 특화된 음성인식 통번역 엔진이 탑재된 소형 단말기를 개발 및 제공한다. 일반적으로 음성인식 서비스를 위해서는 약 5Gb 정도의 리소스가 필요하지만, 용도를 제한하고 해당 도메인에서 빈번히 사용되는 표현에 특화시킴으로써 1.2Gb 사이즈로 소형화된 단말을 제공할 수 있게 됐다.

이와 함께 오프라인에서도 양질의 통번역 서비스를 제공하기 위한 OTG USB 라이브러리도 제공한다. 인터넷 연결이 잘 되지 않는 여행지에서는 통번역 서비스를 이용하기가 불편하다는 점을 개선하기 위한 것으로, 통번역 서비스를 위한 리소스를 OTG USB에 탑재해 이를 통번역 애플리케이션이 설치된 스마트폰과 연결하면 오프라인 모드로 사용이 가능하다. 온라인 서버에서 제공하는 것과 비교하면 내용물이 1/5 수준이지만, 전문적인 표현을 배제하고 여행지에서 빈번히 사용되는 표현이나 일반적인 통역 기능을 위주로 특화시킴으로써 필요한 기능은 모두 담았다는 설명이다.

 

네이버: ‘파파고’ 다음 달 정식 서비스…다른 서비스와의 융합 강조
네이버는 지난해 8월 통역 애플리케이션 ‘파파고’를 출시했다. ‘파파고’는 기존의 통역 애플리케이션들이 가진 음성인식 기능은 물론, 광학 문자 인식(Optical Character Recognition) 기술을 활용해 카메라로 촬영한 텍스트를 번역해주는 이미지 번역 기능을 제공한다.

▲ 네이버의 통역 애플리케이션 ‘파파고’


지난해 10월에는 자체 개발한 N2MT(Naver Neural Machine Translation) 기술을 한국어-영어 번역에 우선 적용했으며, 이후 한국어-중국어, 한국어-프랑스어, 한국어-스페인어 등 다른 언어에 대한 N2MT 기술도 차례로 적용해나갔다. 현재 20개 언어에 대해 SMT 방식의 번역 서비스를, 6개 언어에 대해 N2MT 방식의 번역 서비스를 제공하고 있다. 네이버 측은 올해 연말까지 N2MT 방식을 10개 언어로 확장하겠다고 밝혔다.

‘파파고’는 현재 시범서비스 중으로, 6월 말에 정식 서비스를 시작할 예정이다. 올해 초에는 다른 앱을 실행하면서도 파파고의 번역 서비스를 사용할 수 있는 ‘파파고 미니’ 기능, 별도의 파트너십 체결을 통해 외국인과의 대면업무가 많은 사용자를 위한 별도의 서비스를 제공하는 ‘파파고 파트너’ 기능 등이 추가되는 등 정식 서비스를 위한 다양한 업데이트가 진행 중이다. N2MT를 활용한 번역 서비스에는 200자 제한이 부여돼 있으며, 정식 서비스 개시와 함께 글자 제한을 대폭 완화할 계획이다.

네이버 관계자는 “통번역 기술의 경우 그 자체로도 서비스 가치가 있지만 다른 서비스들의 가치를 높여주는 데에도 중요한 역할을 한다”고 강조했다. 자사의 통번역 서비스를 앱 형태로만 제공하는 것에서 벗어나 다양한 서비스들과의 결합을 통해 수익을 창출한다는 방침이다.

예를 들어 쇼핑몰의 상품 설명 및 구매평에 대한 번역은 해외 접속자를 대상으로 한 매출 증대에 도움을 줄 수 있고, 챗봇이나 메신저에서의 번역 서비스는 고객 유입 증대 및 트래픽 향상에 기여할 수 있다. 네이버는 현재 ‘V 라이브’ 앱에서 자막 번역이나 블로그 등의 자사 서비스에 번역 기능을 제공하고 있으며, 일부 국가에서는 자사의 메시지 앱 ‘라인’에 번역봇을 선행 적용했다.

▲ 네이버는 ‘V 라이브’에서 자동 자막번역 기능을 제공한다.

한편 네이버는 최근 페이스북이 합성곱신경망(Convolution Neural Network, 이하 CNN)을 활용한 번역기술을 오픈소스로 공개한 것에 관심을 보이고 있다. 오른쪽에서 왼쪽 혹은 왼쪽에서 오른쪽으로 순서에 따라 처리하는 RNN과 달리, CNN 방식은 단어들이 한 문장 안에서 흩어져 있더라도 문장을 이해하는데 도움이 되는 단어에 집중하는 번역 체계다. 이는 사람이 문맥을 이해하는 것과 유사한 방법으로, 페이스북 측은 CNN 방식이 기존의 번역 SW들보다 약 9배 빠르고 정확도도 높다고 설명했다.

네이버는 현재 자사의 기계번역 서비스에 RNN방식을 활용하고 있지만, 공개된 CNN 방식 번역기술을 이용해 한국어-영어 번역기를 CNN 방식으로 만들어 연구 중이라고 밝혔다. 페이스북이 공개한 논문은 영어-독일어와 같이 어순이 비슷한 언어에 대한 평가가 이뤄져 있어, 한국어-영어처럼 어순에 큰 차이가 있는 경우에도 CNN 방식이 잘 먹히는지 검증이 필요하다는 설명이다.

 

시스트란: 직접 개발보다 API 제공…온프레미스 여전히 강세
시스트란인터내셔널의 전신은 국산 자동번역 솔루션 기업 씨엘에스아이(CLSi)로, 2014년 5월 시스트란을 인수해 시스트인터내셔널로 사명을 변경했다. RBMT와 SMT, 혹은 두 가지를 섞은 하이브리드 방식을 사용해 언어별 특성에 따라 차별화된 번역 엔진을 개발해왔으며, 통번역 분야에서 NMT가 대세로 떠오르자 하버드 NLP와 함께 ‘오픈NMT 프로젝트’를 진행, PNMT(Pure Neural Machine Translation)을 개발해 오픈소스 커뮤니티에 공개했다.

현재는 RBMT와 SMT, NMT, 그리고 시스트란이 자체 개발한 SPE(SYSTRAN Post Editing)를 조합해 언어별 특성에 맞는 다양한 제품을 출시하고 있다. SMT 및 RMBT 방식으로는 140개 이상의 언어쌍을, PNMT 방식으로는 110개 언어쌍을 제공 중이며. 특히 빠르게 성장하고 있는 동남아시아권 수요에 집중해 연내에 200개까지 확대해 나간다는 방침이다.

▲ ‘시스트란 엔터프라이즈 서버’ 구조도

시스트란은 직접적인 앱 개발 및 공급보다는 API 형태의 번역 엔진을 제공하는 방식을 취하는 것이 특징으로, 기계번역 서비스를 자사 서비스로 제공하고 있는 여타 기업들과는 대조적이다. 이를 위해 지난해 ‘시스트란.IO(SYSTRAN.IO)’라는 개발자 플랫폼을 오픈했으며, 2022년까지 10만 명의 개발자가 100만 개의 앱을 만들어내는 플랫폼으로 성장시킬 계획을 가지고 있다.

▲ 수원시에 특화된 모바일 통번역 앱 ‘수원관광 통역비서’
시스트란은 미국 및 유럽 주요 고객들에게 ‘시스트란 엔터프라이즈 서버(SYSTRAN Enterprise Server, SES)’라는 기업용 번역 솔루션을 1980년대부터 제공해왔다. 보안을 요구하는 국가 정보기관, 정부, 대기업 등의 경우 전통적으로 클라우드보다는 온프레미스 제품의 선호가 높았으며, 이는 클라우드가 대세로 자리잡은 현재도 마찬가지라는 설명이다. 이에 시스트란은 현재 미국, 프랑스, 한국에서 약 150억 원 수준에 머물러있는 온프레미스 매출을 2022년까지 약 1,000억 원 수준으로 끌어올린다는 계획을 가지고 있다.

웹이나 모바일 영역에서는 2013년부터 삼성전자의 갤럭시 시리즈에 꾸준히 탑재되고 있는 ‘S번역기’가 시스트란의 대표 앱이다. 또한 국제 행사 및 자치단체용 특화 서비스를 제공하는 ‘통역비서(ezTalky)’ 제품군을 보유중이며, ‘통역비서’는 지난해 3월 수원시에 특화된 모바일 통번역 앱 ‘수원관광 통역비서’로 공개된 바 있다.

한편 시스트란은 통번역 솔루션을 개발하며 갈고닦은 자연어 처리(Natural Language Processing, NLP) 모듈 및 번역엔진을 통해 빅데이터, IoT, 챗봇, 로봇 등의 분야에서 새로운 시장을 창출해나가겠다고 밝혔다. 최근 들어 비정형 데이터 처리로 각광받고 있는 해당 시장에서 시스트란의 NLP 모듈 및 번역엔진에 관심을 보이고 있으며, 시스트란 측은 이를 체계적으로 지원하기 위한 시스템을 갖춰 향후 2022년까지 연 500억 원 이상의 매출을 달성한다는 방침이다.

 

구글: 자체 커뮤니티 운영으로 사용자 통한 품질 향상 기대
2007년에 2개 언어로 시작한 구글 번역 서비스는 2016년 기준 103개 언어를 지원하는 등 큰 성장을 이뤄왔다. 전 세계 사용자 수는 5억 명 이상, 매일 1,400억 개의 단어 번역이 일어나고 있다.

지난해 9월, 구글은 구글 신경망 기계번역(GNMT)을 공개하고 자사의 기계번역 서비스에 적용한다고 밝혔다. 같은 해 11월에는 구글 전체 검색 요청의 35%를 차지하는 한국어 포함 11개 언어에 GNMT를 적용했다. 이로 인해 구글의 번역 품질은 크게 향상됐는데, 특히 아시아 언어에서 이러한 경향이 두드러지게 나타났다.

▲ GNMT 적용 이후 구글의 번역 품질이 크게 향상됐다.

6점 만점으로 치러진 구글의 자체 테스트에 따르면 GNMT 도입으로 인해 한국어-영어 번역은 0.94점, 중국어-영어 번역은 0.6점이 개선된 것으로 나타났다. 이는 지난 10년간 이뤄진 품질 향상을 합친 것보다 더 높은 수치다.

또한 한국어에 GNMT가 도입된 이후 2개월간 구글 번역 서비스를 활용한 영어-한국어 번역 트래픽은 50% 이상 증가해, 성능 향상이 실제 사용자들의 사용 빈도 증가에 큰 영향을 미친 것으로 보인다. 구글 측은 학습 내용 축적으로 보다 고도화하는 머신러닝의 특성상 GNMT 역시 점점 더 성능이 향상될 것이라고 밝혔다.

구글은 자사의 번역 서비스 성능 향상을 위해 자체적인 번역 커뮤니티를 운영하고 있다. 사용자들은 번역 커뮤니티를 통해 번역 품질을 향상시키고 새로운 언어를 추가하는 데에 기여하고 있으며, 지금까지 350만 명의 사용자가 9천만 건의 번역에 참여했다. 구글 측은 사용자들이 직접 번역의 품질을 검토하고 검증하고 추천함으로써 지속적인 번역 성능 개선이 이뤄질 것이라고 강조했다.

▲ 구글은 카메라로 촬영한 이미지에서 텍스트를 찾아 번역해주는 ‘워드 렌즈’ 기능을 제공한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지