인간과 대결에서 3:2로 승리…연구 역량 결집하며 기대 이상의 성과 거둬

[아이티데일리] 2017년 시작된 비디오 튜링 테스트(VTT, Video Turing Test) 사업이 지난 해를 끝으로 성공적으로 마무리됐다. 영상을 보고 내용을 이해할 수 있는 ‘사람보다 더 사람 같은 AI’를 목표로 다양한 분야의 전문가들이 보여 기술 개발에 매진해왔다. 이를 바탕으로 다수의 글로벌 비디오 챌린지에 참가해 우수한 성과를 거뒀고, 지난해 11월 개최된 VTT 대회에서는 전문가들이 포함된 평가단을 교묘히 속여넘기며 ‘사람보다 더 사람 같은 AI’의 성능을 증명해보였다.


사람보다 더 사람같은 AI 로봇, ‘바이로’

지난해 11월, 서울대학교 두례문예관에서 비디오 튜링 테스트(VTT, Video Turing Test) 대회가 개최됐다. 대회 무대에는 예능프로그램 ‘히든싱어’처럼 커튼으로 가려진 5개의 칸막이가 준비됐다. 커튼 뒤에는 각각 4명의 사람과 AI 로봇 바이로(VAIRO)가 자리했다. 참가자들은 드라마 ‘또 오해영’의 일부 장면들을 보고 이어지는 질문에 답변해야 한다. 이어서 AI 전문가와 비전문가로 구성된 평가단들은 참가자들이 내놓은 답변을 보고 어느 커튼 뒤에 AI 로봇 바이로가 숨어있는지 찾아야 한다.

VTT 사업으로 개발된 AI 로봇 ‘바이로’

대회는 총 5라운드로 진행됐으며, 객관식 문제와 주관식 문제가 각각 15개씩 출제됐다. 1라운드에서는 드라마 속 인물들의 감정 상태나 변화를 묻는 질문들이 제시됐다. 투표 결과 1라운드는 평가단들이 바이로가 숨어있는 곳을 정확히 찾아내면서 바이로의 패배로 돌아갔다. 그러나 이어지는 2라운드부터는 이변이 일어났다. 영상 속의 일반상식에 대해 묻는 2라운드, 영상 속에 등장한 배경과 사물을 기억해야하는 3라운드, 등장인물 간의 대화나 독백의 맥락을 이해해야 하는 4라운드 등 3개 라운드에서 바이로가 연거푸 승리를 거뒀다. 특히 2라운드에서는 약 30여 명의 평가단 중 바이로가 있는 곳을 찾아낸 사람은 단 한 명에 불과했다. 5명의 참가자 중 그 누구보다도 가장 사람같은 모습을 보여준 셈이다.

바이로는 만 6~9세 참가자들과 비슷한 정답률을 기록했다.

VTT 대회는 과학기술정보통신부가 추진한 ‘비디오 튜링 테스트: 인간 수준의 비디오 이해지능 및 검증 기술 개발 사업(이하 VTT 사업)’의 연구 성과를 피로하는 자리다. VTT 사업은 2017년부터 AI부문 국가전략프로젝트로 추진됐으며, 인간과 구별이 어려울 정도로 고도화된 비디오 이해지능 및 검증 기술을 개발한다. 비디오 분야에서 앨런 튜링(Alan Mathison Turing)이 제시한 튜링 테스트를 통과하는 것이 목표다. 이를 위해서는 AI가 영화나 드라마 등 영상 콘텐츠를 보고 인간 수준으로 핵심 서사와 내용을 정확히 이해할 수 있어야 한다.

이번 VTT 대회에서는 바이로가 3:2로 승리했다. 지난 5년 간 추진된 VTT 사업이 우수한 성과를 달성했음이 입증된 셈이다. 특히 바이로는 전체 문제에서 만 6~9세 참가자들과 비슷한 정답률을 기록하면서 영상 콘텐츠에 대해 인간 어린아이 수준의 인지능력과 추론능력을 가지고 있음을 보여줬다.


“산 정상에는 더 큰 열매가 있다”

오늘날 전 산업영역에서 AI 기술을 접목해 새로운 서비스를 개발하고 있다. 오히려 일상생활에서 AI를 적용한 서비스를 피하기 힘들 정도다. 온라인 쇼핑몰이나 OTT 서비스의 맞춤형 추천, 스마트폰 조작을 돕는 빅스비(Bixby)나 시리(Siri) 등 대중적인 서비스에서부터, 녹음파일만 넣으면 회의록을 자동으로 작성해주는 STT(Speak to Text)나 공장 생산라인에서 불량 제품을 자동으로 찾고 걸러내는 비전AI 기반의 불량검수 모델과 같은 기업용 서비스에 이르기까지, 이미 AI는 우리의 삶에서 떼어놓을 수 없는 기술이 됐다.

그러나 일각에서는 우리가 AI 기술이 가지고 있는 가능성들을 충분히 이용하지 못하고 있다고 지적한다. AI를 통해 기존 기능들을 고도화하거나 새로운 서비스를 제시할 수 있게 됐지만 대부분 AI의 가능성을 단편적으로 이용하고 있을 뿐이라는 것이다. 이에 대해 장병탁 서울대학교 교수는 “많은 사람들이 AI 연구를 하고 있지만 한편으로는 할 수 있는 게 너무 많다보니 낮은 수준의 기술에만 집중하고 생각한다”며, “AI라는 길을 따라 산 정상까지 올라가면 더 크고 맛있는 열매를 따먹을 수 있는데, 입구 부근에 열린 산딸기를 따먹는 데에 정신이 팔려서 정작 목표로 했던 곳을 잊어버리고 있는 셈”이라고 말했다.

이러한 추세를 뒤집기 위해서는 ‘산 정상에 위치한 더 큰 과실’의 존재를 알리는 첨병이 요구된다. 2016년 구글 딥마인드가 ‘알파고(AlphaGo)’를 통해 AI가 인간을 이길 수 있는 시대가 도래했다는 것을 증명한 것처럼 말이다. 당시 알파고는 세계 정상급 바둑기사였던 이세돌을 4:1로 꺾으면서 전 세계 기업들이 AI 시장에 뛰어들게 만드는 기폭제 역할을 톡톡히 했다. 방대한 컴퓨팅 파워와 축적된 데이터가 있다면 바둑이라는 한정된 영역 안에서 인간을 뛰어넘을 수 있다는 것을 보여줬다.

VTT 사업은 비디오 튜링 테스트를 통과할 수 있을 정도로 인간과 구별이 불가능한 AI를 개발하는 것이 목표다. 영상을 보고 인간만큼, 혹은 인간보다 더 잘 이해하고 답변할 수 있는 AI를 개발하겠다는 것이다. AI가 영상을 보고 내용을 이해한다는 것은 바둑판 위의 수 싸움에서 이기는 것보다 훨씬 고도화된 기술을 요구하며, 이것이 성공한다면 알파고보다 더 큰 반향을 일으킬 수 있을 것으로 예상된다.


AI에게도 상식이 필요하다

잔뜩 어질러진 방에서 10대 남자가 컴퓨터 앞에 앉아 게임에 열중하고 있는 장면을 상상해보자. 잠시 후 방문이 열리고 중년 여자가 방을 들여다보며 마뜩잖은 표정을 짓는다. 곧이어 여자가 여전히 모니터에서 눈을 떼지 않는 남자에게 묻는다. “돼지우리냐?”

1분이 채 되지 않는 짧은 장면으로도 우리는 영상 속 두 사람의 관계를 파악할 수 있다. 중년 여자가 건넨 말이 정말 이곳이 돼지우리인지 궁금해서 묻는 게 아니라는 것도 알고 있다. 더 나아가서는 어질러진 방과 사람이 들어왔는데도 게임에만 열중하고 있는 모습에서 남자의 평소 행실까지 미루어 짐작할 수 있을 것이다.

AI가 인간과 구별이 불가능할 정도의 이해력을 갖춘다는 말은 겉으로 명징하게 드러나지 않는 요소들에 대해서도 정확히 이해할 수 있어야 한다는 의미다. 방금 전의 영상을 본 AI가 “남자는 컴퓨터 앞에 앉아있고 있고, 여자가 방으로 들어왔다”는 상황 설명만을 내놓는다면 이는 인간 수준의 이해력을 갖췄다고 보기 어렵다. 영상 내에서 인물이 이동하거나 장면이 바뀌는 것을 캐치하는 것은 단편적인 컴퓨터 비전(Computer Vision) 기술로도 충분히 가능하지만, 이렇게 얻은 정보를 바탕으로 그 행동에 어떤 의미가 있는지를 분석하기 위해서는 더욱 복잡하고 다양한 분야의 기술들을 결합할 필요가 있다.

영상 속에서 일어나는 사건의 인과를 파악하기 위해서는 다양한 지식과 기술이 결합돼야 한다.

영상에 직접적으로 드러나지 않는 표현과 상징을 이해하기 위해서는 그 영상에서 표현되는 세계관에 대한 지식(세계지식)이 필요하다. 쉽게 말해 상식이 있어야 한다는 얘기다. 예를 들어 ‘돼지우리냐’라는 말이 우리나라에서 지저분한 방을 비꼬는 표현으로 쓰인다는 것을 알아야 한다. 만약 영상에 등장한 인물이 백인이고 방에 어질러져 있는 물건들이 미국에서나 보일 법한 물건들이었다면 이들의 대사나 표현은 다른 방식으로 연출됐을 것이다. 우리나라와는 다른 상식과 세계지식이 통용되기 때문이다.

AI가 인간 수준의 영상 이해력을 가지기 위해서는 인간 수준의 세계지식을 먼저 학습할 필요가 있다. 그러나 아쉽게도 VTT 사업에서는 진짜 인간 수준의 세계지식을 구축하는 것은 불가능했다. 영상이 배경으로 삼고 있는 지역이나 시대에 따라 공유하는 세계지식이 전부 달라지기 때문이다. 심지어 영상이 ‘왕좌의 게임’ 같은 중세 판타지의 세계를 다루거나 ‘스타워즈’ 같은 스페이스 오페라 작품이라면 일반적인 상식도 통하지 않는다.

VTT 사업의 목표는 어떤 영상이라도 내용을 이해할 수 있는 AI를 개발하는 것이다. 하지만 아직 연구 단계에서 수많은 세계지식을 모두 구축하고 학습시키는 것은 거기에 들어가는 시간이나 비용을 고려했을 때 현실적이지 않다. 이에 따라 VTT 사업에서는 배경이 되는 지역과 시대를 한 가지로 고정해, AI가 학습해야 하는 세계지식의 범위를 줄였다.

VTT 사업이 시작된 당시에는 AI를 학습시키기 위한 영상을 ‘프렌즈(Friends)’로 한정했다. 프렌즈는 미국에서 1994년부터 2004년까지 방영된 대표적인 시트콤 작품으로, 전 세계적으로 높은 인지도와 두터운 팬층을 자랑한다. 1990년대라는 가까운 시대의 미국을 배경으로 하는데다 등장인물들의 연령대가 비슷해 상대적으로 세계지식을 구축하기 쉽다. 또한 10년 간 약 230여 개의 에피소드가 방영돼 AI 학습에 사용할 수 있는 영상이 많고, 팬 커뮤니티에 축적된 감상이나 분석 등을 세계지식 구축에 활용할 수 있을 것으로 예상됐다. 향후 글로벌 학회나 비디오 챌린지 등을 통해 연구 성과를 공유하고 참여를 독려하기 위해서는 전 세계적으로 유명한 콘텐츠가 유리할 것이라는 계산도 깔려있었다.

초기 연구는 예정대로 프렌즈로 진행됐다. 라벨링 등을 통해 학습용 데이터를 마련하고 세계지식을 구축하는 작업이 모두 프렌즈를 중심으로 이뤄졌다. 하지만 얼마 지나지 않아 VTT 사업단은 학습용 영상을 전면 교체해야하는 위기에 봉착했다.


콘텐츠 전면 교체…‘프렌즈’에서 ‘또 오해영’으로

VTT 사업단은 사업 3년차인 2019년부터 본격적으로 글로벌 학회나 비디오 챌린지에 참가하려는 계획을 세웠다. 하지만 연구 성과를 보여주기 위해 국제 비디오 챌린지를 직접 개최하려고 하자 콘텐츠 저작권 이슈에 부딪히게 됐다. 이미 콘텐츠가 제작된 지 20년 가까이 지났고 기업의 이윤이 아니라 대학 중심의 기술연구가 목적이기 때문에 허가를 얻는 것은 어렵지 않을 것으로 예상됐지만, 실제로는 프렌즈의 저작권을 보유한 워너브라더스가 공식적인 허가를 내주지 않았다.

장병탁 서울대학교 교수는 “프렌즈는 아주 오래됐는데도 여전히 팬이 많고 영상 이외의 데이터도 구하기 쉬워서 학습용 콘텐츠로 삼기에 유리했다. 그런데 제작사인 워너브라더스가 비디오 챌린지에서 프렌즈를 사용하는 것을 용인하지 않아서 대회에서는 활용할 수 없었다. 워너브라더스와 빈번히 연락을 주고받으며 해결책을 찾았으나 원하는 결과는 얻어내지 못했다. 아마 90년대 미국을 대표하는 작품이고 아직도 넷플릭스 등에서 방영되고 있는 메이저 콘텐츠다보니 허들이 높은 것 같다”고 설명했다.

이에 VTT 사업단은 연구에 사용하는 영상 콘텐츠의 전면 교체를 선언, 저작권 문제가 없는 콘텐츠를 찾아 나섰다. 특히 국제 대회를 개최할 경우를 대비해 영어권에서 제작됐거나 최소한 영어로 더빙된 작품이 필요했다. 다행히 tvN에서 지난 2016년 방영된 ‘또 오해영’을 제공받아 급한 불은 끌 수 있었다. ‘또 오해영’은 tvN의 역대 드라마 최고 시청률을 갈아치웠을 정도로 큰 인기를 끈 작품이고, 프렌즈에 비하면 제작 시기가 훨씬 최근이라서 세계지식을 구축하고 공감하는 데에도 어려움이 없었다. 해외 방영을 위해 영어로 더빙된 영상이 있었기 때문에 곧바로 투입할 수 있다는 점도 장점으로 꼽혔다.

영상 콘텐츠 전면 교체라는 사태를 맞이해 VTT 사업에 참여한 기업과 기관들은 분주히 움직이기 시작했다. 특히 학습용 데이터 구축을 담당한 3세부는 기존에 프렌즈를 중심으로 만들어왔던 데이터들을 전량 폐기하고 ‘또 오해영’으로 새로운 데이터셋을 만들어야 했다.

다만 그간 쌓인 경험과 노하우를 바탕으로 처음보다는 훨씬 수월한 진행이 가능했다. 3세부를 총괄한 국내 AI‧데이터 전문기업 코난테크놀로지는 그동안 프렌즈 영상으로 학습용 데이터셋 구축을 진행하며 영상 라벨링을 자동화할 수 있는 도구를 개발했는데, 해당 도구의 성능과 정확도가 상당한 수준으로 완성돼 있어 ‘또 오해영’에 그대로 적용할 수 있었다. 2세부에서 프렌즈를 통해 개발한 이벤트 팩터 추론 기술이나 그래프 탐색 모델 등은 영상 콘텐츠가 바뀌어도 그대로 적용할 수 있었다.

VTT 사업의 본래 목표가 어떤 영상이라도 내용을 이해할 수 있는 AI를 개발하는 것이라는 점을 감안하면, 결국 이번 사업에서 개발한 기술들이 다른 영상 콘텐츠에도 적용될 수 있다는 것을 검증하게 됨으로써 전화위복이 됐다고도 볼 수 있다.

“콘텐츠 전면 교체에도 축적한 기술력으로 문제없이 대응”
코난테크놀로지 강현수 인공지능그룹 이사


Q. 학습 콘텐츠 교체라는 상황이 당황스러웠을 것 같은데.

사실 프렌즈 데이터셋을 못 쓰게 될 지도 모른다는 얘기를 들었을 때 상당히 충격을 받았다. 코난테크놀로지가 총괄하는 3세부는 학습용 데이터셋 구축과 영상 인식 관련 연구를 수행하는데, 영상 콘텐츠가 바뀌면 데이터셋을 처음부터 다시 구축해야 하기 때문이다. 혹시 프렌즈 데이터셋을 그대로 쓸 수 있을지도 모른다고 기대해봤지만, 결국 ‘또 오해영’으로 다시 학습용 데이터셋를 만들게 됐다.

하지만 프렌즈 때보다 훨씬 수월했던 것은 사실이다. 익숙하지 않은 일을 할 때 어떻게 접근해야 하는지를 생각하는 게 어렵지, 한 번 했던 일을 다시 하는 것은 어렵지 않다. 더군다나 사업 1년차부터 영상 데이터 라벨링 도구를 자체 개발해 고도화해왔기 때문에 상대적으로 쉽게 느껴졌다. 예를 들어 해당 도구를 처음 개발했을 때는 영상에서 의미있는 객체를 잡아주기만 하고 라벨링은 사람이 직접 하는 방식이었는데, 지금은 객체 검출기 성능도 높아지고 여러 가지 모듈들도 많이 추가돼서 대부분의 과정은 자동으로 진행된다. 라벨링 가이드라인이나 요구사항도 처음에는 자주 바뀌어서 적응이 힘들었지만, 이번에는 어느 정도 윤곽이 잡혀 있었기 때문에 수월하게 진행됐다.

물론 당시 데이터셋을 다시 처음부터 만드는 작업이 힘들고 번거로운 일이었던 것은 사실이다. 그래도 이제와서 생각해보면 최근 전 세계적인 한류 열풍에 편승해 우리나라 문화를 알릴 수 있는 기회가 됐으니 한편으로는 오히려 잘된 게 아니었나 싶기도 하다.


Q. VTT 사업 경험을 활용한 비즈니스 계획은?

첫 해에 사업을 시작할 때는 ‘실패해도 좋으니 한 발 내딛어보자’ 하는 마음이었다. 결과적으로 성공했고, 여기서 얻은 경험과 부산물로 무엇을 만들어나갈 수 있을지 고민하고 있다.

코난테크놀로지는 그동안 대외적으로 텍스트 분야에서 강점을 가진 회사로 알려져 있었다. 하지만 사실 우리는 내부적으로 영상과 관련된 기술을 20년 이상 축적해왔고, 관련 사업 레퍼런스도 많이 보유하고 있다. VTT 사업을 수주할 때도 유명 IT기업인 N사와 경쟁해 이겼을 정도로 이미 상당한 기술력과 경쟁력을 갖추고 있다.

이번 사업을 통해 코난테크놀로지의 영상 기술력을 알릴 수 있었다. 실제로 VTT 사업을 진행하면서 우리가 영상 분야에서 뛰어난 기술력을 가지고 있다는 것을 알리고, 이게 단초가 돼서 몇 가지 사업을 따내기도 했다. 공공과 국방 쪽에서 각각 굵직한 프로젝트를 진행하면서 레퍼런스도 강화했다. 일반적으로 AI는 기업 입장에서 사람과 기술 투자가 많이 들어가야 하는 분야라서 단기적으로는 흑자를 내기 어려운데, VTT 사업 이후 기술력 강화와 비즈니스 기회 확보를 동시에 달성할 수 있어서 많은 도움이 됐다.

한편 이번 사업을 진행하면서 영상 데이터 라벨링 자동화 도구를 자체 개발했다. 내부적으로는 이것을 더욱 발전시켜서 라벨링 사업까지 진출할 것인지에 대해 논의를 진행하고 있다. 다만 개인적으로는 R&D와 AI 솔루션 개발에 강점을 가진 코난테크놀로지가 라벨링 사업을 하는 것은 탐탁지 않다. 용역이나 구축으로 빠지기 쉬운 라벨링 사업에 손대기 보다는 우수한 기술력을 바탕으로 좋은 솔루션을 만들어 제공하는 게 우리의 본분이라고 생각한다.

 지능을 검증하는 질문

영상 콘텐츠 전면 교체 이슈가 한바탕 휩쓸고 지나간 후 VTT 사업단의 관심은 5년차에 예정된 VTT 대회에 집중됐다. 본 기사의 처음에 언급된 바로 그 대회다. 지난 5년간의 성과를 피로하고 선도적인 AI 기술 개발에 대한 방향성을 제시하는 자리인 만큼 주변에서의 관심도 뜨거웠다.

대회를 준비하는 과정에서 주요 쟁점 중 하나로 떠오른 것은 ‘지능을 무엇으로 정의할 것인가’하는 점이었다. 튜링 테스트는 결국 인간이 가지고 있는 지능과 인간이 만든 인공지능을 비교하는 실험이다. 알파고는 성능을 높여서 사람을 이기기만 하면 그만이지만 VTT 사업에서는 인간을 닮은 AI를 만들어야 한다. 여기에 필요한 AI는 단순히 주어진 질문에 대해 단편적인 답변을 내놓는 것만으로는 부족하다. 가령 영상 속 등장인물이 사과를 먹고 있는 상황을 보여준 후 “그가 먹고 있는 것은 무엇인가”라는 질문이 이어진다면, 이는 지능이 아니라 눈썰미와 기억력을 확인할 수 있을 뿐이다.

4년차 무렵 바이로(왼쪽)는 아직 정보와 속성에 치우친 학습을 하고 있었다.
4년차 무렵 바이로(왼쪽)는 아직 정보와 속성에 치우친 학습을 하고 있었다.

지능을 어떻게 검증할 것인지에 대해 충분한 논의가 이뤄지기 전까지, AI 로봇 ‘바이로’가 학습하고 있던 질문들은 누가(who), 어떻게(how), 무엇을(what) 하는지에 대한 것들이 대부분이었다. 특히 누구(who)인지를 묻는 질문이 전체의 58% 가량을 차지했다. VTT 사업단은 이렇게 단순히 정보와 속성을 묻는 질문으로는 바이로의 지능 수준을 보여줄 수 없다는 결론을 내렸다. 그 결과 바이로는 대회를 1년도 채 남겨두지 않은 상황에서 새로운 질문들을 학습하게 됐다. 영상 안에서 보이는 정보를 읊는 게 아니라 일반상식과 대인관계, 인과 등을 고려해야 답할 수 있는 질문들을 추가했다. 또한 질문에서 단어 한두 개만 바꾸면 답변이 되는 경우는 최대한 지양했다.

대회 당일 공개된 질문을 보면 이러한 변화를 실감할 수 있다. 상황은 다음과 같다. 도경(男)과 해영(女)이 버스에서 나란히 앉아있는데, 해영이 갑자기 창문을 열고 “나도 박도경을 사랑해! 박도경은 내꺼야!”라고 외친다. 다음 장면에서는 해영 옆에 앉아있던 도경이 버스 가장 구석자리로 옮겨간 모습을 보여준다. 이어지는 질문은 “도경이 왜 자리를 옮겼는가?”다. 이에 대해 참가자들은 ‘해영이 소리를 질러서’, ‘당황해서’, ‘버스에서 내리려고’ 등 다양한 답변을 내놓았다. 바이로가 내놓은 답변은 ‘불안해서’다. 공공장소라는 상황, 불안해보이는 도경의 표정, 마냥 해맑은 해영의 태도 등을 고려한 결과다. 해당 라운드에서 바이로는 평가단에게 정체를 들키지 않았다.


선도적 입지 살려 지속 추진해야

VTT 사업이 막 시작될 무렵에는 사업 자체에 회의적인 시각도 적지 않았다. 짧은 시간 안에 사람과 구분이 가지 않을 정도로 고도화된 AI를 개발하는 것은 현실적으로 불가능하다는 이유였다. 일각에서는 사람과 구분이 가지 않는 AI 개발에는 실패할 것이고, 대신 사업 진행 과정에서 얻을 수 있는 다양한 기술 개발과 연구 성과에 집중해야 한다고 조언했다.

지난해 11월 개최된 VTT 대회에서 AI 로봇 ‘바이로’는 평가단을 훌륭히 속여넘기며 3:2로 승리를 거뒀다. 정답률이나 연령 대비 성취도를 따지면 만 6~9세 아이 수준의 지능을 갖추고 있는 것으로 나타났다. 당시 주변의 우려와 달리 충분히 가능한 프로젝트였다는 것을 결과로 증명한 셈이다. 지난 5년 간 VTT 사업단은 연구 성과를 바탕으로 국제 학술대회에서 약 200편 가량의 논문을 발표했으며, 2018년부터는 다양한 글로벌 비디오 챌린지에 참가해 1위를 다수 차지하기도 했다. 2019년 개최한 국제 비디오 챌린지에서도 참가자들로부터 좋은 평가를 받았다.

VTT 사업은 본래 5년 동안 프로젝트를 진행한 후 성과를 고려해 추가로 5년 더 추진하는, 최대 10년까지 이어지는 사업이다. 그간의 성과와 기술의 유용성, 그리고 전 세계적으로 우리가 먼저 선점해 이끌어나가고 있는 선도적 분야임을 감안한다면 향후 후속 사업으로 연계되는 것은 자명할 것으로 예상된다.

VTT 사업이 ‘산 정상의 달콤한 과실’로써 AI 산업계의 혁신을 이끌어줄 미래를 기대해본다.

“다양한 분야 아우르는 학제적 연구 과제”
서울대학교 장병탁 컴퓨터공학부 교수 겸 AI연구원 원장


이번 사업에서 가장 중요한 점은, 국내에 있는 다양한 분야의 연구자들이 한 자리에 모여서 같은 과제를 수행하는 경험을 만들었다는 것이다. 대학교 연구실만 해도 20개 이상, 연구원만 150명 이상이 참여했다. 일반 기업이나 협회 등을 포함하면 어마어마한 숫자다. 전문분야도 다양해서 머신러닝이나 자연어처리 등 IT 분야는 물론 인지과학이나 사회심리학, 인문학 전문가들도 대거 참여했다. VTT 사업을 통해 이들이 함께 모여서 서로의 지식을 나누고 배움을 공유할 수 있는 기회가 생겼다.

1~2년차에는 봄에 AI 서밋을 하고 가을에는 가을학교라는 워크숍을 진행했다. 그러면서 각자가 가지고 있는 아이디어를 나누고 본인이 연구하는 분야를 소개하면서 교류를 가졌다. 이렇게 서로 간에 놓인 벽을 넘어서 학제적 연구를 수행하는 자세야말로 다음 세대의 연구자들이 배워야 하는 것이다. AI를 연구하는 사람이라면 특히 더 그렇다. AI가 혼자서 할 수 있는 것은 없다. 흔히 공학과 인문학을 대척점에 있는 것으로 생각하며 섞일 수 없는 것으로 여기는 경우가 있는데, 다음 세대의 연구자들은 그런 편견에 빠지지 말고 폭넓게 소통하면서 더 큰 그림을 그릴 수 있어야 한다.

사업성과를 놓고 보면 지난해 11월 대회에서 3:2로 이겼기 때문에 매우 고무적이다. 주제 자체가 미래 비전을 제시하는 연구였는데 실제로 성과도 거둘 수 있어서 기쁘다. 특히 이번 연구에 참여한 대학원생들은 글로벌 레벨의 AI 연구를 경험할 수 있는 기회를 얻었다. 선도적인 주제를 연구하며 국제 대회에 참여해 1등도 해보고 직접 개최해보기도 하면서 많은 연습이 됐을 것이다. 이런 경험을 해본 연구자들이야말로 앞으로 더욱 수준높은 연구를 이끌어나갈 수 있을 것이다.

한편 다소 아쉬운 것이 있다면, 연구를 위한 콘텐츠 확보와 민간산업으로의 확장이 부족했다는 점이다. VTT 사업에서 중간에 학습 콘텐츠를 바꾼 것은, 결과적으로 잘 되기는 했지만 과정에서 어려움이 많았다. 오늘날 AI 분야에서 콘텐츠나 데이터 확보는 중요한 이슈다. 먼저 정부에서부터 체계를 바꿀 필요가 있다. 데이터를 가지고 있는 기업이나 기관들이 자신이 가지고 있는 것들을 내놓도록 유도해야 한다. 강제로 데이터 달라고 한들 얌전히 내놓을 리가 없다. 데이터를 제공한 기업이 이득을 얻을 수 있도록 제도적인 개선이 필요하다.

이와 함께 필요한 것이 신뢰사회의 구현이다. 기술과 제도로 묶어놓아도 덮어놓고 악용하기 시작하면 끝까지 막을 수는 없다. 연구 목적이든 비즈니스 목적이든 데이터를 사용하는 쪽에서 편하게 쓰게 하되, 악용하는 사람에 대한 징벌적인 제재를 가해야 한다. 독일에서는 지하철을 탈 때 따로 티켓 검사를 하지 않는다. 개찰구도 없고 누구나 자유롭게 탈 수 있다. 대신 무임승차가 걸리면 약 한 달치 벌금을 내야 한다. 데이터도 이렇게 돼야 한다. 일단 믿어주고 자유롭게 해주되 잘못한 것은 엄정히 바로잡는 신뢰사회가 있어야 한다.

이번에 VTT 사업의 연구성과는 민간산업으로의 확장이 거의 이뤄지지 못했다. 학계에서 개발한 기술은 결국 산업에 가서 꽃을 피우는 것이다. 현재 서울대 AI연구원 안에는 AI 분야의 핵심 인재들만 해도 100명 이상이 포진해있다. 전체 인원을 다 더하면 300명이 훌쩍 넘는다. 이들을 단순히 자기 연구 과제에만 목매게 하지 말고 산업적으로 영향을 줄 수 있는 길을 마련해줘야 한다. 이번 VTT 사업이 후속 과제로 계속 이어진다면 여기서 나온 요소기술을 산업적으로 활용할 수 있는 방법을 찾아 추진할 계획이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지