[오피니언] 응용기반 소프트웨어, 인공지능의 날개를 달다

글로벌 상용SW 백서 프로젝트 마감 소회⑤: 김영길 ETRI 언어지능연구그룹장

[컴퓨터월드] 글로벌 상용SW 백서 작업을 본격적으로 시작하기 전에 소프트웨어 기술 분류체계를 세우는 일부터 참여를 했다. 기존의 다양한 SW 분류체계가 존재하고 바라보는 관점마다 다를 수 있었지만, 최종적으로 이번 백서에서 다루고자 하는 소프트웨어는 대분류로 ▲시스템 소프트웨어 ▲미들웨어 ▲응용 소프트웨어로 나뉘어졌는데 이중에서 응용 소프트웨어 분야를 맡게 됐다. 응용 소프트웨어가 워낙 광범위한 분야여서 그 정의와 범위를 정하는 것부터 쉽지 않은 일이었다.

처음에는 의욕이 넘쳐 인공지능 기술도 하나의 중분류로 포함시켰지만, 그 내용의 방대함으로 지금 생각해 보면 당연한 일이었지만 이를 맡아서 작업할 전문가들이 중도에 포기하는 등의 우여곡절을 겪을 수밖에 없었다. 그리고 응용 소프트웨어 내의 중분류에 포함되어 있는 영상처리 SW, 자연어처리, 음성처리는 인공지능의 핵심기술로 이미 포함되어 있어 인공지능을 이번 작업에서는 따로 다루지는 않기로 했다.

응용 소프트웨어를 운영체제와 미들웨어에서 실행되는 다양한 응용분야에 사용 가능한 응용 솔루션 및 서비스 기술로 정의했으며, 다양한 응용 분야에 공통적으로 활용할 수 있는 기반 기술을 이번 작업의 대상으로 선정했다. 관련 전문가들의 의견을 바탕으로 1차 작업에서는 중분류로 영상처리, CG/VR, 콘텐츠배포, 자연어처리, 음성처리, 기업용SW 기술을 선정했다. 2차에서는 대분류를 응용기반 소프트웨어로 명칭을 변경했고 다양한 기업용SW는 다른 대분류로 독립시키고 관련 전문가들을 보강해 자세히 다룰 수 있게 했다.

여기에서는 글로벌 상용SW 백서에서 다루는 응용기반 소프트웨어의 범위가 넓고 필자가 전문적으로 다룰 수 있는 분야가 한정되어 있어, 4차 산업혁명의 핵심이며 최근 국내는 물론 전세계적으로 화두가 되고 있는 인공지능의 주요 기술인 영상처리, 자연어처리, 음성처리 분야를 중심으로 언급하고자 한다.

그리고 이들 기술 분야들에 대해 백서에서 다루고 있는 국내외 기술동향, 발전방향, 이슈 등에서 공통적으로 나타나고 있는 주요 특징으로 머신러닝, 딥러닝 기술 등 인공지능 기술의 활발한 적용과 확산, 플랫폼화의 가속화, 학습데이터의 중요성 등을 들 수 있다.

머신러닝, 딥러닝 등 인공지능 기술의 적용과 확산

아침에 신문을 펼치면 인공지능 기술을 적용한 다양한 응용 SW에 대한 기사를 손쉽게 찾아볼 수 있다. 가히 인공지능 기술을 빼고는 최근의 응용 SW를 이야기 할 수 없을 정도이다. 최근 신문 기사를 검색해 보니 인공지능 기반 마케팅 자동화 플랫폼, 미래 식품 트렌드 예측 인공지능 시스템, 인공지능 금융 플랫폼, 인공지능 스피커, 인공지능 게임, 인공지능 사이버 보안, 인공지능 반도체, 인공지능 로봇, 인공지능 모션캡처, 인공지능 차량용 SW, 인공지능 헬스케어 등 모든 산업 분야에서 다양하게 인공지능 기술이 적용되고 있음을 확인할 수 있었다.

백서는 딥러닝을 포함한 머신러닝(기계학습) 기술이 발전하면서 영상처리, CG/VR, 자연어처리, 음성처리 분야에 빠르게 적용되고 있음을 보여주고 있다. 응용 기술이 개선되고 관련 응용 서비스가 광범위하게 확대되고 있는 것이다. 백서에서 다루고 있는 영상처리, 자연어처리, 음성처리 분야는 시각지능, 언어지능, 청각지능에 해당하는 인공지능의 주요 기술이다. 이들 분야는 특히 알파고 등장 이후 전세계적으로 주목을 받으면서 백서가 작성되는 도중에도 새로운 기술이 발표되는 등 급속히 변화하고 있음을 보여주었다.

영상처리 분야와 관련, 2012년 이미지넷 대회에서 토론토 대학의 제프리 힌튼 교수팀이 딥러닝에 기반한 알렉스넷(AlexNet)으로 우승했다. 전년도 우승팀과 비교했을 때 크게 기술 향상을 보인 것으로 당시 이미 딥러닝 기술이 본격적으로 알려지고 활용되기 시작했음을 의미했다고 할 수 있다.

이미 이미지에서 물체를 인식하고 분류하는 능력에 있어서는 사람의 시각적 인지능력을 뛰어 넘는 것으로 평가된다. 영상처리 기술은 얼굴 인식은 물론, 이미지를 이해하고 의료 분야에서 영상 데이터를 판독하는데 적용되면서 놀라운 성능을 발휘하고 있다. 최근에는 동영상에서 사물이나 행동을 분석하고 이해하는 영상이해 기술 개발이 활발히 진행되고 있는데 조만간 영화에서나 가능했던 일이 가능해질 것으로 기대된다.

사물과 사람의 행동 패턴까지 스스로 예측해 추적하고 집중 관제하는 등의 지능형 CCTV의 출현도 머지않은 것 같다.자연어처리 분야에서는 형태소 분석, 개체명 인식, 구문 분석, 의미역 분석 등에서 사용하던 규칙 기반 방법이 기계학습 및 딥러닝 기술로 이미 대체되었고, 대화처리 기술도 대화 데이터 학습 기반의 종단간(end-to-end) 신경망 방법론이 대세로 자리를 잡고 있다.

최근 질의응답에 활용 가능한 기계독해(Machine Reading Comprehension) 기술을 위해 전세계적으로 글로벌 챌린지 대회가 개최되고 있으며 거의 대부분 딥러닝 기술을 적용한 솔루션이 상위권을 차지하고 있는 실정이다. 향후 질의응답 기술을 기반으로 전문가 수준의 의사결정지원 시스템이 개발될 수 있을 것으로 예측되는데 여기에는 딥러닝, 추론 등의 인공지능 기술이 활용될 것으로 생각된다.

최근 신경망 자동번역 기술이 도입되면서 자동번역 분야에서도 큰 진진이 이루어지고 있다. 최근 2~3년간의 기술 진전이 지난 수십 년 간의 규칙기반 및 통계기반 방식의 발전 수준을 뛰어 넘으면서, 그동안 고전을 면치 못했던 문서 자동번역은 물론 음성 통역, 웨어러블 및 실시간 동시통역과 관련된 솔루션/서비스 시장이 새롭게 열리고 있다.

딥러닝 기술이 음성인식 성능을 비약적으로 발전시키자 음성처리 분야에서도 다양한 딥러닝 모델이 제안되고 활용되고 있다.

최근 구글에서 발표한 듀플렉스(Duplex)는 신경망 기반의 응답 생성과 함께 사람처럼 자연스럽게 대화함으로써 대화 상대자가 기계인 줄 모를 정도의 성능을 보여줘 세계를 놀라게 했다. 대용량의 실시간 음성 로그데이터에 기반한 딥러닝 기술의 적용으로 음성인식, 음성합성 기술 성능이 크게 향상될 것으로 전망되며, 기존의 정형적인 발화 음성인식뿐만 아니라 비정형 발화 음성인식 기술도 크게 발전할 것으로 예측된다.

플랫폼화에 의한 공개/공유로 산업 생태계 주도권 싸움 치열

백서가 작성되고 있는 중에도 전세계적으로 응용기반 소프트웨어에 대한 글로벌 기술 경쟁력 확보 및 시장 선점을 위한 플랫폼화 경쟁이 치열하게 진행되고 있었다. 관련 기업들은 인공지능 분야의 기술을 플랫폼 형태로 공개 및 공유하고 해당 플랫폼의 API를 이용하여 손쉽게 제품/서비스를 개발할 수 있는 환경을 지원하면서 관련 산업 생태계를 선점하려 하고 있다. 이들 기업들은 플랫폼 사용을 통해 축적되는 실제 환경에서의 데이터를 학습 데이터로 활용해 플랫폼을 개선시키는 등 기술 개발의 선순환 과정을 이미 구축하고 있다.

특히, 구글, 아마존, IBM 등 주요 IT 기업들은 자사의 인공지능 기술을 플랫폼화해 다양한 산업 분야에서 혁신을 리드하며 산업 생태계를 주도하고 있다. IBM은 왓슨(Watson) 플랫폼을 통해 의료, 헬스케어 분야 등에서 AI 생태계를 주도하고 있고, 아마존은 음성대화 인터페이스 기술을 알렉사 플랫폼 형태로 제공해 AI 스피커, 스마트 가전 등에서 산업 생태계를 선점하고 있다.

최근 실생활로 들어온 AI 스피커의 음성인식 개인비서의 경우, 애플에서 시리(SIRI)를 먼저 출시했지만 지금은 아마존의 알렉사가 시장에서 우위를 점하고 있다. 두 회사의 가장 큰 차이는 플랫폼화를 통한 개방형 정책이라고 할 수 있다. CES 2017에 참가한 약 3,800개 기업 중에서 700여 기업이 아마존 플랫폼을 통해 AVS(Alexa Voice Service)를 탑재한 제품을 전시했다는 점은 주목할 만하다.

국내에서도 국가 주도로 2017년 11월 엑소브레인 핵심기술 위주로 AI 오픈 API가 공개되면서 인공지능 분야의 전문인력 양성 및 산업 생태계 조성을 위한 첫 걸음을 시작했다. 솔트룩스, 마인즈랩 등 AI 전문 중소기업을 중심으로 AI 기술을 플랫폼화해 외산 제품 및 서비스에 대응하고 있지만 그 대응 속도와 서비스 규모에 있어 차이가 날 수밖에 없는 실정이다.

학습 데이터의 중요성

인공지능의 핵심인 머신러닝, 딥러닝은 정의된 문제에 대한 학습 데이터를 이용해 모델을 학습시키는 기술이다. 학습 데이터 훈련을 통해 이후 발생하는 수많은 '경우의 수'에 대한 응답 또는 행동을 예측하는 것이다. 머신러닝, 딥러닝 기술이 아무리 뛰어나다 해도 이를 훈련시킬 풍부한 양질의 학습 데이터가 부족하다면 좋은 성능과 결과를 기대하기 어렵다.

전세계적으로 주목 받았던 인공지능 바둑 프로그램 '알파고'가 이세돌 9단을 이길 수 있었던 것도 머신러닝으로 5개월간 스스로 128만 번이나 대국을 펼치며 바둑을 학습했기 때문이다. 의료 분야의 IBM 왓슨도 의학 논문 수백만 건을 분석하고 지식화 하고 환자들의 실제 진료 데이터를 분석하는 학습 과정을 거쳤다. 아마존은 인공지능 스피커 알렉사 서비스를 통해 입력되는 대량의 로그데이터를 학습데이터로 정련하기 위해 수천 명의 인력을 동원하기도 했다고 한다.

영상처리 분야에서도 딥러닝 솔루션뿐만 아니라 학습 데이터의 중요성은 매우 중요하다. 글로벌 기업 또는 연구 기관들은 학습 데이터의 중요성을 인식하고 YouTube-8M, TRECVID, Sports-1M, ActivityNet, ImageNet 등 학습을 체계적으로 지원하기 위한 학습 데이터를 공개하고 있다. 국내에서도 대부분 해외에서 오픈한 이 학습 데이터들에 의존하고 있다. 이런 이유로 국내의 특수성을 딥러닝으로 학습시키기 어려우며 관련 기술을 선도하기 매우 어려운 실정이다. 국내에서도 CCTV 등 실환경 영상인식을 위한 머신러닝 알고리즘 개발 및 국내의 문화 및 경험이 포함된 양질의 학습 데이터 구축이 필요한 이유이다.

열쇠 혹은 비밀번호 등의 전통적인 인증 수단과 달리 분실 및 망각의 위험이 없는 지문과 얼굴, 홍채 등의 생체정보를 인증 수단으로 활용하는 생체인식 기술이 확대되고 있다. 이러한 생체 인식 기술은 단순한 단말기의 보안을 위한 기능을 넘어 애플페이, 삼성페이 등 생체정보를 인증 수단으로 활용하는 자체 금융결제 솔루션에 접목되어 금융과 정보기술이 융합된 핀테크의 핵심으로 자리잡았다. 생체인식 기술과 관련해 최근 얼굴, 지문, 홍채 등 빅데이터를 확보하기 위한 기업간 경쟁이 심화되고 있는데 신경망 개발 기술과 함께 양질의 학습 데이터 확보 방안이 최종 성능을 좌우할 것으로 예측되고 있다.

자연어처리는 물론 음성처리 분야에 있어서도 학습 데이터의 중요성은 강조되고 있다. 학계는 물론 산업 현장에서 즉시 활용 가능한 음성, 언어 DB 구축이 절실히 필요하다. 예를 들어, 인공지능 개인비서, 자동통역, 대화형 로봇, 콜센터 녹취분석 등에 필요한 음성인식 기술을 개발하기 위해서는 대용량 음성 및 텍스트 DB가 필수적이며 언어분석 및 대화처리를 위한 단어의 품사와 의미, 문장의 구조와 의미, 대화의 의도 등이 부착된 기계학습용 학습 데이터가 필요하다.

자동번역 분야에서 구글은 방대한 다국어 번역 DB를 활용한 신경망 자동번역 기술로 경쟁 우위를 점하고 있다. 그러나 국내에서는 영어, 중국어, 일본어 이외에 다국어에 대한 번역DB가 절대적으로 부족해 다국어 확장에 어려움을 겪고 있다.

국내의 AI 관련 기업들이 겪고 있는 가장 큰 애로 사항은 공통으로 활용할 수 있는 학습 데이터 부족하다는 점이다. 각 업체, 기관별로 필요한 DB를 자체적으로 구축하는데 많은 시간과 비용을 투입하고 있지만 서로 공유가 되지 않아 문제점으로 지적된다. 국가차원에서 공용으로 AI 서비스 및 솔루션 개발에 활용할 수 있는 양질의 영상, 언어, 음성 등의 학습 데이터 DB를 지속적으로 구축하고 이를 공개 및 공유하는 등의 체계적인 관리가 필요한 시점이다.

특화된 분야에서의 차세대 원천기술 확보 필요

응용 소프트웨어 솔루션 및 서비스가 이전에는 사용자의 눈높이를 맞추기 어려웠지만, 최근에는 기계학습, 딥러닝 등의 인공지능 기술이 접목되면서 놀라울 정도의 성능 향상이 이루어지고 다양한 응용 분야에서 활용되고 있다. 응용기반 소프트웨어가 인공지능 기술의 날개를 달고 실생활에서 쉽게 접할 수 있을 정도로 급속히 발전하고 확산되고 있는 것이다.

그렇다고 해도 현실은 녹록하지 않은 게 사실이다. 이름만 들어도 위압감이 드는 구글, IBM, 아마존 등 쟁쟁한 글로벌 기업들이 공격적으로 대규모 투자를 하면서 한국 시장을 포함해 글로벌 시장을 선점하는 등 발 빠르게 움직이고 있다. 최근에는 중국이 막강한 자금력과 내수 시장의 이점, 풍부한 우수 연구 인력을 기반으로 급부상하는 등 국내 기업으로서는 위기감을 느낄 수밖에 없다.

그러나 위기 속에도 기회가 있다고 할 수 있다. 잘할 수 있는 특화된 분야에서 차별화된 기술과 아이디어로 경쟁력을 확보하면서 중장기적으로 차세대 원천기술을 확보해 나가면 경쟁에서 이길 수 있을 것이다. 전문인력 양성, 산업 생태계 활성화 등을 위해 정부는 물론 산학연의 협력이 절실히 필요한 시점이라고 할 수 있다.

김영길 kimyk@etri.re.kr

다른기사 보기

상단영역

본문영역

[오피니언] 응용기반 소프트웨어, 인공지능의 날개를 달다

글로벌 상용SW 백서 프로젝트 마감 소회⑤: 김영길 ETRI 언어지능연구그룹장

기사 댓글 0

비회원 로그인