시각지능(DeepView)

[컴퓨터월드] 최근 빅 데이터를 대상으로 한 딥 러닝 기술의 급속한 발전에 따라 전 세계적으로 인공지능 관련 기술에 대한 폭발적인 관심과 경쟁적인 개발이 추진되고 있다. 인공지능은 지능적인 기계를 만들기 위한 SW와 HW를 포괄하는 과학 및 공학을 지칭하며, 인공지능이 인간의 지능을 뛰어넘는 시점을 특이점(Singularity)이라고 부른다.

영국의 BBC(Tomorrow’s world: A guide to the next 150 years)와 유엔 미래포럼(유엔 미래보고서 2045) 등은 2045년에 인간의 지능보다 뛰어난 슈퍼지능머신이 출현해 특이점이 도래할 수 있다고 예측했다. 또한, 인공지능이 인류의 일자리를 빼앗고, 나아가 인류의 멸망을 초래할 수도 있다는 부정적인 전망도 했다.

본지는 ICT 역사상 가장 혁신적인 기술로 주목받고 있는 인공지능과 관련, “인공지능 기술 개발 어디까지 왔나?”라는 주제로 국내 최고의 인공지능 전문가들을 필진으로 구성해 기획연재를 한다. 인공지능 필진과 게재할 주요 내용은 다음과 같다.

■ 엑소브레인(언어지능): ETRI 김현기 실장
■ 딥뷰(시각지능): ETRI 박종열 실장
■ 머신러닝 및 딥러닝: 포항공대 최승진 교수
■ 뇌공학: 고려대 이성환 교수
■ 음성처리: ETRI 박전규 실장
 


시각지능(DeepView)

박종열 한국전자통신연구원
분석소프트웨어연구실장


 박종열 실장은 광주과학기술원 정보통신공학과(박사)를 졸업했으며 한국전자통신연구원, 분석소프트웨어연구실, 선임연구원을 거쳐 현재 실장으로 근무중이다. 과학기술연합대학원대학교(UST) 컴퓨터 소프트웨어 분야 겸임교수(조교수), 충남대학교 컴퓨터공학과 겸임교수를 역임했으며 현재 과학기술연합대학원대학교(UST) 컴퓨터 소프트웨어 분야 겸임교수직을 맡고 있다.

하드웨어, 소프트웨어 기술의 눈부신 발전은 사람들의 생활에 큰 변화를 가져왔다. 최근에는 스마트폰, CCTV, 블랙박스, 드론, 인공위성, 디지털 카메라 등에서 수집되는 영상 데이터의 양이 기하급수적으로 증가함에 따라 이러한 데이터의 활용에 대한 관심도 함께 증가하고 있다. 이와 같은 변화는 하드웨어 기술의 발전과 더불어 대규모 클러스터링을 이용하는 빅데이터 기술의 비약적인 발전에 기인하고 있다.

많은 데이터를 실시간으로 수집하고 빠르게 분석할 수 있는 기반 환경이 구축되면서 다양한 빅데이터 솔루션들이 등장하고 있다. 빅데이터 기술은 기존의 정형화되어 있는 데이터를 분석하는 대신 그 동안 분석하지 못하고 있던 비정형 데이터에 주목하고 있으며, 이 중 영상데이터의 분석을 통해 새로운 가치를 발굴하는 시각지능기술이 각광을 받고 있다.

조사에 의하면 전세계 데이터의 90% 이상이 2년 이내에 만들어졌고 그 중 80%가 비디오 또는 이미지 같은 비정형 영상 데이터로 파악되고 있다. 또한 전체 인터넷 트래픽의 60% 이상, 스마트폰에서 생산되는 네트워크 트래픽의 70% 이상이 멀티미디어 데이터이고 전체 비정형 데이터의 70% 이상이 멀티미디어 데이터이다.1)

앞으로도 이러한 영상 데이터는 계속해서 기하급수적으로 늘어날 것이며 이 데이터를 분석하여 활용할 수 있는 기술의 요구 또한 함께 증대될 것이다. 하지만 현재의 기술로는 대규모의 영상을 동시에 처리하는 데 많은 어려움이 따른다.

여기에서는 최근 주목을 받고 있는 시각지능에 대해 살펴보고, 미래창조과학부에서 주관하는 최신 시각지능 기술개발 과제인 DeepView 시스템에 대해 소개한다.


시각지능이란

▲ 이미지/동영상의 내용을 이해하는 과정 2)

시각지능이란 사람이 사물을 인지하고 시공간적으로 상황을 파악할 수 있는 능력을 의미하며, 직관적으로 사물을인식하는 능력과 심층적 사고에 의한 인지 능력으로 나뉘어진다.

직관적으로 사물을 인식하는 능력은 학습(경험)에 의해 사물의 특징과 내용을 정확히 이해하는 것이며, 심층적 사고는 낯선 장면이나 감춰진 사물을 인식하기 위해 주변 상황으로 유추하는 능력을 의미한다. 사람과 비슷한 수준으로 사물을 인식하기 위해서는 2만가지 이상의 사물을 구분할 수 있어야 하며, 한 종류의 객체를 인식하기 위해서는 훈련(학습) 과정을 거쳐야 한다.

학습된 인식기는 사물을 즉시적으로 인식할 수 있으며, 나아가 동작이나 장면 자체를 이해할 수도 있다. 직관적으로 인식할 수 없는 일부가 가려진 사물이나 처음 접하는 사물은 주변 상황이나 외부 데이터와 연계하여 추론하며, 또한 다양한 객체들이 상황을 만들어 내는 경우 이를 이해하는 기술이 필요하다.

이러한 시각지능기술은 사람의 눈을 대신하는 것으로 산업체의 품질검사, 의료 영상에서 질병 탐지, 지능형 CCTV에서 사건/사고 감시, 소셜 미디어 분석뿐 아니라 자율주행 자동차, 지능형 로봇까지 산업 전반에 걸쳐 활용이 가능하다.
 

기술개발 동향
영상의 내용을 이해하는 기술은 미국을 중심으로 많은 연구가 진행되고 있으며, 상황의 이해와 행동을 분석하여 다음에 발생할 상황을 예측하는 기술로까지 이어지고 있다.

현재 가장 널리 알려진 기술은 DARPA 주도의 프로젝트로 VIRAT(Video/Image Retrieval and Analysis Tool) 과제3), Mind’s Eye 과제4)와 Deep Learning 기술5)이 대표적이다.
 

DARPA VIRAT (Video/Image Retrieval and Analysis Tool)
대규모 감시 비디오 데이터에서 관심 있는 콘텐츠를 신속하게 검색하고 특정 행위를 자동 인지하고 분석하는 도구 개발을 목표로 하고 있으며, 국방 시스템에 활용할 목적으로 시작되었다. VIRAT은 2008년 시작해 현재 2단계 기술 개발에 접어들고 있으며, 5개 기업과 13개 대학이 참여해 방대한 분량의 이미지/동영상의 내용 분석 및 검색을 효과적으로 수행하는 기술이다.

▲ DARPA VIRAT 프로젝트 개념도

VIRAT은 대용량 비디오 클립에서 선택된 객체를 빠르게 검색하고 등록된 객체의 출현이나 학습된 행위를 자동 인지하는 기술을 핵심으로 하여 대용량의 이미지/비디오를 모니터링 하는 시스템에 효과적으로 적용할 수 있게 설계되었다. 실제 인지되는 내용도 객체보다는 행동 인식을 중점적으로 연구하고 있으며 현재 23가지 행동을 인지할 수 있는 것으로 알려져 있다.

검색 기술은 2시간 분량의 비디오에서 수초에서 수분 안에 응답이 오는 것을 목표로 시스템을 개발 중에 있으며, 정확한 분석 수준이나 분석의 대상이 되는 프레임의 규모는 알려져 있지 않다.
 

DARPA Mind’s Eye
Mind’s Eye 프로젝트는 영상에서 객체를 인식하고 인식 객체의 행위를 인지하여 상황을 판단할 수 있는 인지 능력 개발을 목표로 하고 있다. 실제 행동 인식을 위한 마이크로 수준의 객체 구분과 분류를 통해 개별 행동에 대한 인식과 이를 통한 즉각적인 행동 인지 기술을 개발하고 있으며 최종 48종 동사(행동) 인식을 목표로 기술을 개발하고 있다.

실제 영상에 대한 분석을 위해 HOMIE(Hybrid Ontology for the Mind’s Eye)를 구축하고 입력 비디오에 대해 저수준 비전과 오브젝트 추출을 통해 영상을 분석하고 있으며 행동과 행동의 연계분석을 통해 다음 행동을 예측한다.

▲ Mind's Eye에서 행동을 인식하는 방식 3)

보다 적극적인 영상 이해를 위해 Mind’s Eye 프로젝트는 CMU의 ACT-R의 인지 시스템을 기반으로 영상에서 상황을 인지하고 이해하는 기술을 적용하고 있으며 미인식 이벤트의 시계열 보간(Interpolation), 행동/사건의 예측(Prediction) 등을 적용하고 있다.
 

[Google, Microsoft, BAIDU] Deep Learning – Convolutional Neural Network
최근 몇 년간 급속도로 성장하고 있는 기술인 Deep Learning은 사람의 뇌처럼 다단계의 신경망 네트워크를 만들고 각각의 노드를 학습하는 방법이다. Deep Learning은 사람이 사물을 인지하는 과정을 숨겨진 계층(Hidden Layer)으로 표현하고 입력과 출력 값으로 개별 네트워크 노드를 학습하는 방식이다.

Deep Learning의 장점은 인식 성능이 뛰어나다는 것이다. 또한 기존의 객체 분류뿐만 아니라 영상 분할, 영상 복원, 해상도 업스케일링 등의 다양한 분야에서도 좋은 성능을 보이고 있다. 특히 유사 이미지(분위기) 검색 및 변형된 객체 사진을 인식하는 것은 기존 기술을 훨씬 뛰어 넘고 있다.

▲ BAIDU의 유사 이미지(분위기) 검색 화면 5)

또 다른 응용으로 CNN(Convolutional Neural Network)을 반대로 사용하는 Deconvolution network이 있다. CNN으로 인식한 데이터를 역으로 수행하면 객체의 윤곽선을 그리는 그림이 된다.

▲ Deconvolution neural network 적용 결과 6)

CNN 방식은 많은 장점이 있으나 재학습이 어렵고 인식 대상의 확장성에 한계가 있다는 단점이 있다. 이런 문제를 해결하고자 네트워크를 분할하고 계층화하는 연구가 진행되고 있다.
 

시각지능을 위한 이미지뱅크 기술
시각지능은 영상인식의 수준과 다양성이 기반이 되는 분야로 많은 종류의 데이터와 이를 통한 지식 체계를 만드는 것이 핵심 기술이다. 특히 시각지능을 위한 학습 데이터 세트를 구성하는 것은 객체, 장면, 비디오의 다양한 환경에서 구축이 본격화 되고 있다.

▲ 이미지 영상 인식을 위한 지식 뱅크 구축 사례

영상 데이터를 구축하는 것은 주로 미국의 대학들이 중심이 되어 진행되고 있다. Stanford, MIT, NYU, Princeton, Penn. State 대학 등이 각종 데이터를 축적해 다양한 연구활동에 적용하고 있다.
 

Stanford ImageNet 데이터베이스7)
Stanford는 대규모 이미지 검색 데이터베이스인 ImageNet을 운영하고 있으며, 태깅되지 않은 영상 데이터 소스에서 스스로 학습하는 자기 학습(Self-taught Learning) 방식을 연구하고 있으며 구글 브레인 프로젝트에서 시각 인식 기반의 인공 지능 기술 개발에 참여하고 있다. ImageNet은 WordNet을 기반으로 21,841개 객체에 대한 1,400만장의 이미지 데이터베이스를 구축하고 개별 객체(명사)의 의미 표현을 위해 평균 700개의 이미지를 매칭하고 있다.

ImageNet의 객체들은 계층 구조로 되어 있어 계층적 학습이 가능하고, 데이터를 지속적으로 확대할 수 있다. 이 계층적 구조는 객체(명사) 중심의 데이터 온톨로지 체계에 따르는 것으로 객체의 동작이나 객체간의 상호 관계에 기반을 둔 의미 부여는 불가능하다는 단점이 있다.
 

MIT SUN 데이터베이스8)
MIT는 대규모 장면 인식과 분류를 위해 SUN(Scene UNderstanding) 데이터베이스를 구축하고 벤치마크 자료를 공유하고 있다. 웹으로부터 장면 관련 이미지를 유형별로 수집해 데이터베이스로 구축하고, 정제된 397개 카테고리를 사용하여 최대 908개 카테고리까지 확장이 가능하다는 특징이 있다. 최대 확장 가능한 카테고리는 분류가 가능하다는 것을 의미하며 인식의 정확도를 고려하여 908개 중에서 상위 397개 카테고리를 사용하고 있다.

컴퓨터에 의한 이미지 장면 검출은 23개 카테고리에서 104개의 사진을 사용하여 분류 시험한 결과 평균 30.1%의 정확도를 보이고 있다.
 

마이크로소프트 COCO 데이터베이스9)
마이크로소프트에서 운영하는 데이터로 학습에 특화된 객체 데이터를 수집하고 있다. 총 91개의 카테고리에 대해서 크라우드소싱 방식으로 32만개 이미지를 수집하였고, 이미지마다 존재하는 개체의 수는 평균 7.7개 수준으로 기존의 다른 데이터베이스에 비해 많은 객체가 등장하는 자료를 보유하고 있다.

COCO 데이터베이스는 기존의 바운딩 박스로 제공되는 객체 정보 대신 다각형 구조의 세그멘테이션을 제공하고 있으며, 객체의 움직임을 쉽게 인식할 수 있는 관절 중심의 키포인트를 제공하고 있다. 또한 영상 내 객체간의 관계, 객체의 정확한 위치 정보를 같이 배포하고 있다.
 

DeepView 소개
DeepView 과제는 정부에서 추진 중인 15대 미래 서비스 중의 하나인 만리안 서비스와 재난재해 조기감지‧예측 서비스 개발을 목적으로 미래창조과학부 주관 하에 총 10년 간 3단계에 걸쳐 수행되는 시각지능 기술개발과제이다.

대규모 이미지 및 동영상을 수집하고 이에 대한 내용의 이해를 통해 도심공간의 다차원/시계열 변화를 이해하며, 환경 재난 ・재해 ・위험 예측을 실시간으로 수행하는 대규모 시각 빅데이터 분석 및 예측 SW의 개발이 목표이다.

▲ DeepView 단계별 사업추진 계획 및 목표 시스템

1단계(2014년 ~ 2017년) 목표는 시각 빅데이터의 실시간 처리 및 분석 플랫폼 핵심기술을 개발하는 것이며, 이를 기반으로 재난 ・재해 ・위험 등 공간상황을 이해하는 응용기술을 개발하는 것이 2단계(2018년 ~ 2021년) 목표이다.

마지막 3단계(2022년 ~ 2024년)는 개발된 기술을 이용하여 기업/공공 분야에 시각지식 관련 실용사업화를 목적으로 한다. 수자원 관리, 기후 변화, 해수 변화 등의 환경 스캐닝을 통한 재난/재해 예측 및 공간의 위험상황 인지, 경찰청, 지자체, 학교 등의 CCTV, SNS(이미지/동영상) 및 블랙박스로부터 얻은 영상 데이터의 심층 분석을 통한 안전/안심사회 실현 등을 그 목표로 두고 있다. 뿐만 아니라 시각 지식 큐레이션, 스마트 디바이스(스마트폰, 스마트 글래스)를 통해 얻은 영상 데이터의 내용 검색, 모바일 시각지식 증강, 자율로봇 및 자율주행 자동차 등의 원격시각 분야 등 그 활용의 폭은 더 넓을 것으로 전망하고 있다.

▲ 세부과제 목표 및 연구 흐름

비주얼 디스커실버리 플랫폼이란 대규모 이미지 ・동영상 데이터를 실시간으로 처리하여 시각 빅데이터의 내용이해, 시공간 중심 의미론적 분석 및 상황추론형 분석 등의 응용시스템을 포함하는 시각 지식화 파이프라인 소프트웨어를 의미한다. 이를 달성하기 위해서는 크게 아래의 세 분야를 연구해야 한다.
 

수집 관리(시각 데이터 뱅크)
수집 관리는 시각 데이터를 저장하는 시각 데이터 뱅크를 중심으로 데이터를 수집하는 부분과 저장/가공하는 부분으로 구분된다. 시각 데이터를 수집하는 부분은 다양한 소스의 데이터를 수집하고 기본적인 카테고리를 지정하는 역할과 저장된 시각 데이터는 학습시키기 위해 저장, 편집, 변환하고 외부의 요청에 따라 서비스(API)로 제공되는 기능을 한다.

대규모 처리(시각 데이터 처리 파이프라인 SW)
시각 데이터 처리 파이프라인 SW는 대규모의 이미지/비디오 데이터를 처리하는 방법을 규격화하고 이미지 데이터에 특화된 분산/병렬 처리를 지원한다. 이를 위해서 워크플로우 기반의 분산 처리와 CPU-GPU 사용을 극대화하는 하이브리드 스케줄러 기술을 개발한다.

내용 분석(다차원 시각 데이터 내용 분석 및 이해 SW)
이미지/동영상의 객체(명사)와 움직임(동사)을 분석하고 이들의 상호 관계 및 공간적 위치에 따른 복합 분석을 통해 공간 축과 시간 축에서의 변화를 이해하는 기술을 개발한다.

DeepView 과제의 시각지능은 이미지/동영상에서 나타나는 동사(이벤트)와 명사(객체)를 이해하는 기술로 설계되고 있다. 가장 하위 수준에서 명사와 기본 동사를 인식하고 이들의 조합과 상관관계를 통해 복합 상황과 복합 동사를 정의하는 것이다.

예를 들면, 객체(사람)의 움직임을 “걷다”, “서다”, “다가가다”와 같이 기본 동사로 이해하고 사람과 자동차의 공간적 위치가 점점 가까워진다면 “차를 탄다”라는 복합동사로 인식되는 것이다. 이를 위해서

▲ "자동차에 타다" 에 대한 시각지식 표현 (오른쪽이 대상 객체를 표현)

[시각 텍사노미 정의] 동사(이벤트)와 명사(객체)에 대한 지식 체계를 구축하고
[시각 데이터 처리] 이미지/동영상에 나타나는 기본 명사와 동사를 이해하고,
[시각 데이터 이해] 행동 이해 온톨로지 기반으로 복합동사를 추론하여
[시공계열 공간 이해] 이미지/동영상이 표현하는 공간을 시계열 또는 공간계열로 이해하는 기술을 개발하고 있다. 특히 대규모 데이터를 누적 분석하는 시계열 및 시공계열 분석을 위해서 고속의 인메모리 데이터베이스에 다차원 검색을 지원하는 다차원 인덱싱 기술을 개발하고 있다.
 

향후 전망
시각 지능의 사회적 가치는 다양한 분야에서 시각 지능을 활용하는 활용성을 넘어 과거에는 불가능했던 새로운 분야의 영상 인식 기능으로 확장되고 있다.

기술 활용의 측면에서 DeepView 과제는 특정 분야가 아닌 일반적인 시각 지능을 구현하는 기술이기에 새로운 가치 창출과 신비즈니스 산업 육성이 가능할 것으로 기대되고 있으며, 공공 사회적 측면에서는 사회안전망이나 재난재해 예방을 위한 보조 시스템으로 활용 가능하여 국가적 위기에 보다 빠른 대응과 적절한 조치를 취하는데 도움이 될 것으로 기대된다.

시각지식 분야 시장은 2013년 334억 달러에서 2018년 740억 달러로 연평균 17.21% 이상 성장하는, 장기적으로 비교적 높은 성장세를 보일 것으로 기대된다. 특히 2015년을 기점으로 증가속도가 급증하여 2018년에는 18.49%의 고속 성장을 기록할 것으로 예측된다.

앞서 언급했듯이 스마트 기기와 고화질 CCTV 등의 보급으로 영상 데이터의 양은 꾸준히 증가될 것이 확실시 되기 때문에 시각지식 산업의 수요와 기술개발에 대한 요구는 앞으로도 지속적으로 증가할 것이며, 이에 기반한 고부가가치 시장 형성도 기대된다.

 

맺음말
이동단말과 각종 고화질 기기의 발전 및 보급으로, 이제는 영상을 재생하는 시대에서 영상을 읽고 이해하는 시대로 변화하고 있다. 컴퓨터에게 시각 지능을 부여하여 위험 상황이나 지속적인 모니터링이 필요한 분야에서 사람을 대신할 수 있고, 사람이 상황을 판단하는데 보조적인 역할을 수행하는 것이 가능해지고 있다.

기술적 측면에서 이러한 양상은, 영상 인식 알고리즘 경쟁을 영상 이해 플랫폼 경쟁으로 변화시키고 있으며 현재까지는 자원과 자료의 보급한계 등으로 인해 글로벌 기업을 중심으로 플랫폼화하는 경향이 강하다. 특히 대규모의 데이터를 분석하는 새로운 지능 엔진 개발에 박차를 가하고 있어, 국내의 독자적인 기술 확보가 필요한 분야이다.

▲ DeepView 과제로 인한 향후 변화

이미 보스턴 테러 사건 등을 통해 일반 시민의 사진과 동영상 분석이 사건해결의 중요한 자료가 될 수 있음을 확인하였고, 이는 국내의 재난 및 재해 상황에서 사용자 생산 영상 데이터의 시각분석 기술의 가치가 매우 높음을 보여주었다. 하지만 대규모의 이미지/비디오 데이터의 고속 처리 및 저장/유지 등의 관리 문제 해결에 대한 기술적 보완이 부족하여 실제 서비스로 이어지는 데는 아직 많은 어려움이 따른다.

DeepView SW는 지능 관점에서 영상의 내용을 이해하는 기술로 적용 도메인에 따라 국가 기간 산업에서 재난/재해 예측 또는 지능형 통합관제센터 구축에 기여할 수 있고, 시각이라는 측면에서 새로운 신산업 창출의 원동력이 될 것으로 기대한다.


[01] Chunsheng (Victor) Fang, “Large-Scale Video Analytics on Hadoop,” Aug. 2013. [Online] http://blog.gopivotal.com/features/large-scale-video-analytics-on-hadoop.
[02] UCLA, “I2T: Image Parsing to Text Generation”, [Online] http://www.stat.ucla.edu/~zyyao/projects/I2T.htm.
[03] DARPA, “BAA-08-20: Video and Image Retrieval and Analysis Tool (VIRAT),” March 03, 2008.
[04] DARPA, Mind’s Eye, [Online] http://www.darpa.mil/Our_Work/I2O/Programs/Minds_Eye.aspx.
[05] BAIDU Deep Image, [Online] http://usa.baidu.com/tag/deep-learning/
[06] H. Noh, S. Hong, B. Han,” Learning Deconvolution Network for Semantic Segmentation”, ICCV 2015(예정).
[07] Stanford, ImageNet, [Online] http://www.image-net.org/
[08] MIT, SUN database, [Online] http://groups.csail.mit.edu/vision/SUN/
[09] MS COCO, [Online] http://mscoco.org/
[10] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, “Going Deeper with Convolutions”, CVPR 2015.

저작권자 © 아이티데일리 무단전재 및 재배포 금지