IITP, ‘인공지능 기술 청사진 2030’ 가이드 발간

[아이티데일리] 인공지능 기술 및 제품이 하루가 다르게 개발 공급되고 있다. 또한 관련 시장 및 산업도 빠르게 확산되고 있다. 인공지능 기술은 이미 일상생활 속으로 알게 모르게 빠른 속도로 파고들고 있는 것이다. 그러나 일반인들은 개념적으로는 이해하고 있지만, 인공지능이 어떤 분야에 어떻게 적용되고 있고, 어떻게 발전해 나갈지 등에 대해서는 잘 모르고 있는 게 현실이다. 또한 이와 관련된 믿을 만한 자료는 물론 청사진도 없다고 할 수 있다. 정보통신기술평가원(IITP)이 이에 대한 가이드를 최근 ‘인공지능 기술 청사진 2030’이라는 제목으로 발간해 주목을 받고 있다. 이 가이드는 1년여에 걸쳐 100명 이상의 인공지능 전문가들을 통해 연구 개발했다고 한다. 이 자료는 인공지능 기술 발전의 이정표 역할을 하기에 크게 부족함이 없다는 평가를 받고 있다.

‘인공지능 기술 청사진 2030’은 크게 다섯 가지 방향을 중심으로 추진했다고 한다. 즉 첫째, 사람의 지능과 유사한 기술 분류체계 수립에 심혈을 기울였다는 것이다. 다시 말해 IQ(지능지수), EQ(감성지수) 같은 사람의 지능을 반영할 수 있는 분류체계를 수립해 인간과 가까운 지능체계를 수립했다는 것이다. 두 번째는 미국 중심의 동향에서 중국, EU, 일본 등으로 조사범위를 확대해 각국의 프로젝트 파악에 주력했고, 세 번째는 새로운 기술 분류체계를 기반으로 100여명이 넘는 인공지능 전문가들을 통한 심층 기술수준을 조사했으며, 네 번째는 일반인들도 쉽게 이해할 수 있는 기술 개요부터 전문가들이 원하는 국내외 동향과 주요 R & D 이슈를 폭넓게 조사 정리했다고 한다. 마지막으로는 실제 산업분야에 적용 가능한 인공지능 기술을 제시했다고 한다.

본지는 이에 따라 ‘인공지능 기술 청사진 2030’을 5회에 걸쳐 주요 이슈별로 요약 정리해 게재한다. 즉 ▲ 깊이 성장 AI, ▲ 범위 성장 AI, ▲ 지속성장 AI, ▲ 신뢰성 있는 AI, ▲ 공감하는 AI 등이다.

① 깊이 성장 AI
② 범위 성장 AI
③ 지속 성장 AI
④ 신뢰성 있는 AI
⑤ 공감하는 AI (이번호)

개념 및 범위

   개념
사람은 타인이 처한 상황과 감정을 이해하여 적합한 말과 행동으로 의사소통하는 ‘공감’ 능력을 갖고 있으며, 이는 정서적 유대감과 신뢰 형성의 필수 요소로서 인간 사회 유지의 근간이 되고 있다.

- 인공지능은 타인이 처한 상황과 감정을 잘 이해하기 위해 시각, 청각, 촉각 등 오감 정보를 종합 처리해 동시다발적으로 발생하는 다양한 단서를 시의 적절하게 감지하고 해석해야한다.

- 인공지능은 타인이 처한 상황을 사실적으로 해석할 뿐 아니라 사실 속에 내재된 정성적 특징과 인과율적 요소까지 파악하는 사회적 맥락 이해 능력을 갖고 있어야 한다.

- 인공지능은 적절한 행동과 말로 감정을 표현하면서 협력, 위로, 격려 등 다양한 교류 전략을 통해 의사소통을 해야한다. 또한 개인별 상황과 감정의 변화 양태에 맞춰 차별화된 반응을 생성함으로써 교류의 지속성을 확보해야 한다.

‘공감하는 AI’는 미래 ‘인간-AI 공존사회’에서 ‘인간 중심 AI’를 실현하기 위해 반드시 필요한 기술이다.


   범위

사람과 직간접적으로 교류하면서 사회적이고 감성적으로 서로 이해하고 공감할 수 있는 능력을 지닌 인공지능을 실현하는 목표를 지닌 기술 분야는 다음과 같다.

1. 오감을 통한 감각 입력을 융합 처리하고 그 암묵적 표현을 학습함으로써 다양한 상황을 종합적으로 이해하고 판단하는 다중감각인지 기술

2) 사람의 외형, 표정, 자세, 제스처를 포함하는 비언어적 행위를 감지하고 해석하여 사회적인 의미를 이해할 뿐 아니라 사람에게 사회적 의미를 전달하기 위한 적확한 행동 표현을 생성함으로써 사람과 기계 간 자연스러운 교류를 실현하는 행동지능 기술

3) 다중감각인지를 통해 사람의 감정 상태를 이해하고 적절한 반응을 생성함으로써 사람의 정서적 안정을 증진하는 교감형 AI 기술
 

중분류 주요 기술동향

다중감각인지 : 감각 범위 확장, 딥러닝 기반 다중감각 결합

ㅇ (멀티모달 표현 학습과 계산모델) 딥러닝을 기반으로 멀티모달 정보를 처리하기 위한 결합 표현(Joint Representation) 학습과 처리 방법이 활발히 제안되고 있음
    - 언어지능 분야에서 최고 성능을 달성하고 있는 Transformer 모델0을 확장하여 다중감각 데이터를 수용, 융합, 처리하는 방법으로 M-BERT와 M-XLNet(미국 Rochester 대학과 CMU, ’20), VideoBert(미국 구글, ’19), Multimodal Transformer Network(싱가포르 경영대학, ’19) 등장

ㅇ (다중감각의 확장) 음성, 영상, 텍스트 정보를 넘어 촉각과 후각을 융합하는 등 감각 수용 범위를 확장해 나가고 있음
    - 촉각 정보 융합을 통해 적은 훈련 데이터로도 물체 형태와 배치 변화에 강인한 물체 조작 방법 제안(미국 스탠포드대와 NVidia, ’20)
    - 시각, 촉각, 청각 정보를 결합하여 로봇이 능동적으로 물체를 다루면서 종류를 탐지하는 기술 발표(미국 터프츠대, ’19)

ㅇ (멀티모달 소셜 인터랙션) 음성, 영상, 텍스트 입력을 종합 분석해 교류 맥락을 인지적이고 감정적으로 심층 이해함으로써 인공지능의 사회적 상호작용 능력을 제고하는 연구가 활발하게 이루어지고 있음
    - 음성과 텍스트로부터 사람의 정서적, 사회적 상태를 인식하는 가상 코치를 개발하고 이를 노인의 독립 생활 지원에 적용(EU, ’18)
    - 자연스러운 청취 능력을 기반으로 상담을 진행하고 상대의 우울증 여부를 판단하는 가상 컨설팅 아바타(SimSensei) 연구(미국 USC, ’11 ~ )
    - 멀티모달 교류를 통해 사람에게 일상생활 지원과 삶의질 개선 서비스를 제공하는 자율지능 디지털 동반자 개발(대한민국, ’17 ~ )
 

행동지능 : 사회적 맥락 심층이해, 사람/규범 맞춤형 행위생성

ㅇ (사회적 맥락 인지) 주어진 영상 내 상황을 분류하고 사실적 맥락을 이해하는 연구가 활발하며, 정성적 속성과 인과 정보를 이해하는 심층이해 연구가 선구적으로 이루어지고 있음
    - 미국 워싱턴대와 앨런 AI 연구소는 상황과 사건의 인과적 맥락 이해 연구를 위한 ATOMIC(`19)과 Visual Commonse Graphs(`20) 데이터셋 발표
    - 미국 MIT는 이미지 캡션 생성 기술을 기반으로 사람의 행동 동기를 유추하는 연구 결과를 발표(’16), 콜럼비아대학은 현상과 상황 간 상관관계 분석을 통해 미래 상황을 확률적이고 계층적으로 예측하는 모델을 발표(’20)

ㅇ (사회적 교류 행위 생성) 딥러닝 생성 모델을 기반으로 사람의 행동 패턴을 모사한 발화 제스처와 비언어 교류 행위 생성의 초기 연구가 활발함
    - 발화 음성을 입력받아 손과 팔 제스처를 생성하거나 (미국 UC 버클리와 MIT, ’19), 움직이는 3차원 얼굴 영상을 생성(미국 NVidia, ’17)
    - 경험 학습을 통해 맥락에 따라 사람 바라보기, 악수, 손 흔들어 인사하기 중 적합한 행동을 최고 95.3%의 정확도로 결정(일본 오사카대, ’17)
    - 음성, 발화 문장, 사용자 신원을 동시에 입력받아 행동의 품질과 다양성을 높이는 멀티모달 입력 기반 행위생성 방법 제시(한국 ETRI, ’20)

ㅇ (사회 친화적 행위 계획) 자율 주행과 물체 조작 분야를 중심으로 사람의 움직임과 의도를 반영하고 로봇의 의도를 표현하는 연구가 지속됨
    - 로봇 스스로 주행 의도를 표현하여 사람의 로봇에 대한 이해도와 신뢰도를 향상하는 역강화학습 방법(미국 Waymo LLC와 스탠포드대, ’20)
    - 사람들의 보행 패턴을 학습모사하여 로봇이 사회 친화적으로 주행하게 만드는 확률적 강화학습 방법(독일 프라이부르크대와 보쉬, ’20)

ㅇ (적응적 행위 최적화) 교류 품질과 협업 효율 개선을 위해 사용자의 감정 상태와 교류 태도에 따라 로봇 행동을 변화 대응하는 딥러닝 연구 시작
    - 사용자의 정서 상태나 학습 능률에 따라 로봇 행위를 개인화하여 몰입도과 교육 효과를 높이는 정서적 강화학습 방법(미국 MIT, ‘20)과 자폐 아동 치료와 훈련을 위해 자폐아의 학습 패턴에 따라 로봇 반응을 차별화하는 계층적 학습 프레임워크(미국 USC, ’20) 제시
    - 다양한 조건의 낯선 공간에서도 공간 특성에 맞춰 로봇 자율주행이 가능한 강화학습, 자기지도학습, 평생학습 기술 연구(미국 UC Berkeley, ’17) (미국 조지메이슨대와 구글, ’19) (대한민국 네이버랩스, ’20)


◆ 교감형 AI : 감정인식과 표현의 심화, 감정 증강 기계학습

ㅇ (감정인식 심화) 모달리티의 확장과 결합을 통한 감정인식 성능 개선 시도가 활발함
    - 감정 표현의 시공간적 특징을 결합해 감정인식에 활용하는 멀티모달 감정 분석 방법(영국 옥스퍼드대, ’18), 음성과 텍스트 특징 간 상호 연관도를 분석하여 을 더 정확하게 분류하는 방법(대한민국 서울대와 미국 Adobe, ’19) 제시
    - 얼굴 표정 뿐 아니라 자세를 함께 보고 감정을 인식하는 딥러닝 방법 등장(홍콩 과학기술대학교, ’19), 뇌파(EEG)뿐 아니라 비침습 웨어러블 센서로 측정한 심전도(ECG), 근전도(EOG) 신호로부터 감정을 인식하는 딥러닝 연구 활발(대한민국 충남대와 중국 난징대, ’17) (대한민국 서울대와 충남대, ’19)

ㅇ (감성대화 연구) 대화 상대의 감정 변화를 인지하여 적합한 답변을 생성하는 연구가 시작되었으며 이를 활용한 다양한 적용 분야를 개척하고 있음
    - 대규모 대화 데이터셋으로부터 감정 특징과 대화 문장 간 연관성을 학습함으로써 감정 상태에 적합한 단어를 추출하여 문장을 생성하는 딥러닝 모델을 개발 (중국 칭화대와 미국 일리노이대, ’18)
    - 멀티모달 정보로부터 대화의 감정적 흐름을 인지하고 개인 맞춤형 상담을 제공할 수 있는 정신상담 챗봇 시스템을 개발 (대한민국 KAIST, ’17)

ㅇ (감정 증강 기계학습) 인공지능의 계획(Planning), 추론(Reasoning) 능력에 감정을 결합 확장하는 방법론 제안
    - 1980년대 후반 OCC(Ortony, Collins, Clore) 모델로 대표되는 감성 추론(Emotion Reasoning) 분야의 연구 목표들을 인공지능 분야의 최신 기획/추론 기술들과 접목시켜 고도화(영국 임페리얼칼리지 런던, ’17)
    - 감정 인식과 감정 생성에 융합하여 감성컴퓨팅(Affective Computing)의 핵심 목표인 ‘인간과의 자연스럽고 사회적인 소통(Communication)과 이해(Understanding)’을 달성하기 위한 핵심 요소 기술로 대두되고 있음

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지