AI 학습용 데이터 구축, AI 강국의 기반 다진다

[아이티데일리] 최근 IT 업계에서 가장 많은 이목을 집중시키고 있는 것은 정부의 디지털 뉴딜 프로젝트일 것이다. 코로나19로 인해 비대면 트렌드가 확산되고 이를 지원하기 위한 디지털 역량의 중요성이 높아지면서, 정부는 전 산업 분야의 디지털 역량을 강화하고 IT 기술 기반을 다지기 위한 디지털 뉴딜 프로젝트를 추진하고 있다. 오는 2022년까지 총 23조 4000억 원의 예산을 투입해 ▲D·N·A 생태계 강화 ▲교육 인프라 디지털화 ▲비대면 산업 육성 ▲SOC 디지털화 등 4개 대표 분야에서 12개 세부 과제를 추진한다.

‘AI 학습용 데이터 구축사업’은 디지털 뉴딜 정책의 핵심 과제 중 하나인 ‘데이터댐 구축’에서 가장 많은 주목을 받고 있는 사업이다. 국내 AI 생태계를 활성화시키기 위해, 정부 예산을 통해 상대적으로 미흡한 학습용 데이터 구축을 지원하겠다는 목표다.

① 디지털 뉴딜의 핵심 과제, ‘AI 학습용 데이터 구축사업’
② 사용자 수요 고려해 활용성 높은 데이터셋 마련

학습용 데이터셋 준비, AI 서비스 개발의 최우선 과정

맛있는 요리를 만들기 위해서는 좋은 재료와 올바른 조리방법이 필요하다. 마찬가지로 성능이 뛰어난 AI를 만들기 위해서는 많고 정확한 데이터와 우수한 알고리즘 모델이 요구된다. 어느 한 쪽이라도 부족해서는 맛있는 요리도, 뛰어난 AI도 만들어지지 않는다.

최근 몇 년 사이 많은 국내 기업들이 AI 서비스를 개발하기 위해 노력하고 있지만 AI를 학습시키기 위한 데이터가 부족해 어려움을 겪고 있다. 대다수 국내 기업들은 AI 서비스를 개발할 때 대부분의 시간을 데이터 준비에 소요한다. 실제로 AI 알고리즘을 개발하고 모델을 학습시켜 서비스를 출시하는 데에 걸리는 시간보다, 데이터를 수집‧정제하고 AI 학습에 사용할 수 있도록 가공하는 과정에 소요되는 시간이 훨씬 길다.

데이터를 준비하는 시간이 AI 개발 일정의 대부분을 차지한다. (출처: NIA)
데이터를 준비하는 시간이 AI 개발 일정의 대부분을 차지한다. (출처: NIA)

학습용 데이터의 정확도와 양은 AI 모델의 성능에 직접적인 영향을 미치는 요소다. 쓸만한 AI 모델을 학습시키기 위해서는 최소한 수십만 건에 달하는 데이터가 필요한데, 이는 한 기업이 감당하기에는 너무 큰 규모다. 신규 서비스 하나를 개발하기 위해 방대한 학습용 데이터를 구축하기에는 시간과 비용이 수지가 맞지 않는다. 대량의 데이터를 손쉽게 수집‧가공하는 기술들이 꾸준히 개발되고 있지만 여전히 부담스럽기는 마찬가지다. 그나마 전통적인 산업군에서는 누적된 데이터를 가공해 활용할 수라도 있지만, 새롭게 떠오른 신규 산업군이나 새로운 형태의 IT 서비스들은 기존에 축적된 데이터도 없어서 어려움이 배가된다.
 

전 산업계에서 관심 폭증…1900여 기업‧기관 지원

이에 따라 정부는 기업들이 겪고 있는 학습용 데이터 마련의 어려움을 줄여주기 위해 ‘AI 학습용 데이터 구축사업’을 추진하고 있다. 해당 사업은 디지털 뉴딜 프로젝트의 일환인 ‘데이터댐 구축’에 포함된 대표 과제 중 하나다. 정부 예산으로 데이터 활용 수요가 높은 분야에서 AI 학습에 사용할 수 있는 데이터를 선제적으로 구축해, 기업들이 손쉽게 데이터를 확보하고 AI 모델을 학습시켜 혁신적인 AI 서비스를 출시할 수 있도록 돕겠다는 취지다.

‘AI 학습용 데이터 구축사업’에 대한 업계의 반응은 가히 폭발적이다. 지난해 하반기에 추진된 사업자 공모에 1,900개 이상의 기업‧기관이 지원한 것이다. 해당 사업에서는 음성‧자연어처리나 컴퓨터 비전(vision)과 같은 최신 기술 분야 외에도 교통‧물류, 제조, 농‧축‧수산 등 전통적인 산업 분야의 데이터도 구축하게 되어, 기존 산업 분야에서 두각을 나타내던 기업들 중 데이터 기반의 서비스 개발을 필요로 하는 기업들이 대거 참가한 것으로 분석된다. 결과적으로 4.2대 1이라는 높은 경쟁률 하에서 72개 컨소시엄과 548개 기업‧기관이 최종 선정됐다.

국내 AI 학습용 데이터 관련 사업 개요 (출처: NIA)

업계의 폭발적인 반응에 응답하고자 정부는 지난해에만 추경을 포함해 2,925억 원의 예산을 투입, 적극적인 공세에 나섰다. 향후 2025년까지 약 2조 5,000억 원에 달하는 예산을 순차적으로 투입할 예정이다.

사실 정부 주도로 AI 학습용 데이터를 구축하겠다는 시도는 이번이 처음이 아니다. 이미 정부는 2017년부터 AI 산업 활성화를 위해 대규모 AI 학습용 데이터 구축을 수 차례에 걸쳐 추진해왔다. 공공기관이 보유하고 있는 데이터를 선제적으로 공개해 민간에서 활용할 수 있는 데이터를 양적으로 확장하려는 시도도 이어졌다. 또한 학습용 데이터를 필요로 하는 수요기업과 원천데이터 및 관련 기술을 보유하고 있는 공급기업을 매칭하고 제반 비용을 지원하는 데이터 바우처 사업을 마련해, AI 서비스를 개발하려는 기업들이 조금이라도 쉽게 AI 학습용 데이터를 확보할 수 있도록 지원하고 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지