AI 산업 육성 밑거름 ‘데이터 라벨링’이 떠오른다

[아이티데일리] 인공지능(AI)의 발전과 함께 ‘데이터 라벨링’ 산업이 떠오르고 있다. 데이터 라벨링은 AI 학습데이터를 만들기 위해 원천데이터에 값(라벨)을 붙이는 작업이다. 사람이 일일이 데이터에 라벨을 붙여야 해 ‘AI 눈알 붙이기’라고 불리기도 했다. IT업계의 막노동으로 인식되는 데이터 라벨링 역시 다른 AI 기술들과 마찬가지로 자동화 수순을 밟고 있다. 최근 들어 업체들이 반자동화 툴을 만들어 인력과 비용 절감을 꾀하고 있다.

데이터 라벨링을 손쉽게 할 수 있도록 반자동화 툴을 만드는 기업들이 있다. 이들 기업은 ‘디지털뉴딜’ 정책으로 특히 주목받고 있다. 데이터 라벨링 산업 생태계를 조성하기 위해 노력하고 있는 ‘코난 테크놀로지’, ‘테스트웍스’, ‘슈퍼브에이아이’, ‘마인즈랩’ 등 4곳의 반자동화 툴 및 전략과 각 기업들의 데이터 라벨링 절차에 대해서도 알아봤다.

[데이터 라벨링①] 데이터 라벨링은 ‘AI 눈알 붙이기’
[데이터 라벨링②] 겉보기엔 쉬워도 실상은 어려워
[데이터 라벨링③] 반자동화 툴 활용한 기업 전략(1)
[데이터 라벨링④] 반자동화 툴 활용한 기업 전략(2)

 

 

데이터 구축부터 분석까지 ‘스위트’로 해결한다

슈퍼브에이아이는 데이터 라벨링 전문 기업으로 출발해 데이터 플랫폼으로 사업 영역을 확장했다. 이를 위해 데이터 플랫폼 솔루션인 ‘스위트(Suite)’를 개발했다. ‘스위트’는 머신러닝 데이터를 구축, 분석, 관리하기 위한 플랫폼으로 AI 개발 과정에서 협업을 지원하는 생산성 도구다.

이 솔루션은 방대한 데이터의 가공, 데이터 시각화, 분석 기능을 제공하는 데 초점이 맞춰졌다. 또한 AI 개발에 참여하는 데이터 라벨러, 프로젝트 관리자, AI 리서치 엔지니어들이 서로 데이터와 관련한 내용을 공유하고, 이슈를 추적하며 편리하게 소통할 수 있는 UI/UX와 커뮤니케이션 도구들도 포함하고 있다.

시장 조사 기업인 커그니리티카에 따르면, 데이터 구축 작업은 전체 AI 개발 과정 중 약 80%를 차지하고 있다. 슈퍼브에이아이는 전체 AI 개발 과정 중 약 80%를 차지하는 데이터 구축 작업을 ‘스위트’로 해결할 수 있다는 점을 강조한다. ‘스위트’에는 오토라벨링 기능이 탑재돼 사람이 수작업으로 일일이 진행해야 했던 라벨링 작업을 1/10 수준으로 줄여준다.

김현수 슈퍼브에이아이 대표는 “슈퍼브에이아이는 AI로 머신러닝 앞단의 데이터 라벨링을 반자동화 하는 기업이다. 머신러닝 개발에 필요한 데이터 정제 방식은 데이터 라벨러들이 데이터를 이메일 첨부파일로 받아 툴로 라벨링해서 보내주는 등 대부분 수작업으로 이뤄진다”며, “이 경우 틀리면 수정해야 하고 계속 업데이트가 필요해 불편했다. 이를 반자동으로 데이터 라벨링은 물론 품질 관리, 분석까지 가능한 플랫폼을 개발했고, 이것이 바로 ‘스위트 플랫폼’”이라고 말했다.

김 대표는 소프트웨어 개발과 데이터 라벨링은 여러 면에서 비슷하다고 설명했다. 김 대표는 “지금은 개발자 협업 도구나 관리도구가 굉장히 많아 국내외 개발자들이 효율적으로 소통하며 함께 개발에 참여하고 있지만 10년 전만 해도 아주 불편하게 일했다. 머신러닝 개발에도 비슷한 흐름이 나타나게 된 것”이라고 설명했다.

김대표에 따르면 ‘스위트 플랫폼’을 통해 데이터 라벨링을 진행할 경우 데이터마다 약간의 차이는 있지만, 최대 10배 빠르다. 스위트를 이용하면 데이터 구축에 참여하는 다양한 이해관계자의 어려움을 해결할 수 있다. 재택근무를 하는 라벨러가 있다면 다운로드 기능을 막아 유출 우려를 없애야 하고, 반대로 분석이나 관리하는 사람에게는 열려있어야 하는데 이런 문제를 플랫폼으로 개발된 ‘스위트’가 해결해준다.

▲ 슈퍼브에이아이의 스위트 오토라벨링 기능 (출처: 슈퍼브에이아이)

‘스위트’ 플랫폼의 주요 화면은 ▲프로젝트 생성 ▲프로젝트 관리, 대시보드 ▲데이터 저장, 라벨 필터 ▲데이터 통계분석 ▲이슈 트래킹 ▲자동화 등으로 구성돼있다. 먼저 프로젝트 생성 화면에서는 관리자가 몇 번만 조작해도 데이터 구축 프로젝트를 생성할 수 있고 관리자가 데이터 라벨링 작업을 위한 기본 조건, 즉 컨설팅 때 이뤄졌던 사항들을 설정하면 모든 라벨러가 작업을 기준에 맞춰 진행하게 된다.

프로젝트 대시보드는 여러 개의 프로젝트를 한 눈에 확인할 수 있는 통합 대시보드 기능으로, 작업자들에게 할당했던 라벨링 작업이 얼마나 진행됐는지, 진행도를 확인할 수 있다. 프로젝트 전반적인 진행 상황도 시각적으로 확인할 수 있다.

다음으로는 데이터 저장과 라벨 필터다. 한번 작업한 데이터는 저장소에 계속 저장할 수 있고, 속성별로 관리해 필요에 따라 지속적으로 활용할 수 있게 저장한다. AI를 개발하기 위해 반복 실험을 해야 하는데, 이때 데이터 속성에 기반해 필터링을 한다. 이로써 필요한 데이터를 즉각 활용할 수 있게 된다.

다음으로 이슈 트래킹은 AI 개발자, 프로젝트 관리자, 라벨러 등 작업을 수행하는 모든 사람들이 같은 데이터와 같은 화면을 보고 작업에 대한 의견을 교환할 수 있는 기능이다. 마지막으로 자동화는 ‘오토라벨링’ 기능이라고 말할 수 있다. 수작업으로 라벨링 하기 전에 AI가 라벨링 영역 등을 제안해 사람들의 작업 시간을 줄여준다. 이를 활용하면 최대 10배 효율로 데이터 라벨링 작업을 수행할 수 있다.

“회사설립 2년만에 손익분기점 넘겼다…플랫폼 고도화에 총력”
김현수 슈퍼브에이아이 대표

▲ 김현수 슈퍼브에이아이 대표

Q. 데이터 라벨링 비즈니스를 처음 시작하게 된 계기는.

A. 나를 포함한 이정권 CTO, 차문수 공동 창업자는 SKT-브레인에서 함께 리서치 엔지니어로 근무하면서 자율주행차, 게임 AI 등 연구 개발을 진행했었다. 연구를 진행하던 중 연구에 쓰는 시간보다 데이터를 구축하고 가공하는데, 오랜 시간 소요됐던 것을 깨달았다. 이로 인해 효율적인 연구가 어려웠다. 이런 문제를 해결해 보고자 다른 직장 동료였던 이현동 공동 창업자를 포함해 5명이 함께 전 세계 AI 연구자들이 효율적으로 연구할 수 있도록 데이터 구축, 가공 전문 회사를 창립했다.

Q. 플랫폼 기업으로의 전환에 걸림돌은.

A. 가장 큰 허들은 2가지였다. 당장의 매출을 포기해야 했던 것과 자동화 솔루션 개발의 어려움이었다. 기존의 데이터 라벨링 수요가 꾸준했기 때문에 전환하는 과도기에는 당장의 매출을 포기해야만 했다. 아무래도 직원들을 책임지는 CEO의 입장에서는 이 부분이 상당히 큰 부담으로 다가왔었다.

또 다른 허들은 솔루션의 개발 난이도가 매우 높았다는 점이다, 슈퍼브에이아이의 데이터 라벨링 솔루션은 국내에서 탄탄한 입지를 갖고 있었다. 솔루션 기능 중에 대규모의 데이터 용량을 여러 사용자가 동시에 접속해 작업해야하는 부분을 개발하는 것이 가장 힘들었다. 이 같은 다양한 기능을 자동화를 하려고 지금도 꾸준히 플랫폼 고도화에 집중하고 있다. 이렇게 플랫폼 기업으로 성공적으로 전환하면서, 첫해에 손익분기점을 넘어 기뻐하기도 했다.

Q. 정부의 ‘디지털 뉴딜’이 회사 성장에 도움을 줄 것으로 보이는데.

A. ‘디지털 뉴딜’ 정책과 관련해서 매출을 크게 올리려고 한다면 물론 가능하다. 하지만 지금 우리의 목표는 플랫폼 고도화다. ‘디지털 뉴딜’이라는 좋은 기회를 매출 성장에만 집중하게 된다면, 정책이 종료됐을 때 자생이 어려울 것이라고 생각한다. 이번 ‘디지털 뉴딜’이라는 기회를 토대로 생태계 전반에 활성화 바람을 불어넣고 육성에 집중한다면, 그 부분이 향후에는 슈퍼브에이아이의 비즈니스에 거름이 될 것이라고 확신한다.

Q. 플랫폼 사례에 대해 소개해달라.

A. 해외 사례 1개와 국내 사례 1개를 말한다면, 우선 해외의 경우 ‘민디 서포트’라는 우크라이나 회사를 소개할 수 있다. ‘민디 서포트’는 2,000명 이상의 라벨러를 보유한 대규모 데이터 라벨링 서비스 기업으로 규모 있는 회사다. 하지만 라벨링 도구가 없어 고객사에서 제공하는 라벨링 도구로 사업을 수행해왔었다. 데이터 가공 서비스를 제공하면서도, 가공 기업이라기 보다는 데이터 가공 인력 제공 기업에 가까웠다고 볼 수 있었다.

지난해 이 기업에 ‘슈퍼브에이아이 스위트’를 제공했다. 그 결과 ‘스위트’를 통해 자체 데이터 라벨링 용역 사업을 수행할 수 있게 됐고, 이를 통해 이윤 극대화가 가능해졌다. 현재 이 기업은 자율주행, 헬스케어, 스마트 농장, CCTV, 드론 등 분야의 데이터 라벨링에 기여하고 있다.

국내 사례로는 비프로일레븐을 들 수 있다. 이 회사는 AI를 활용해 축구 경기 영상과 분석 솔루션을 제공하고 있는 기업으로 한국인 창업자가 독일에 세운 AI 기업이다. 기존에 축구를 분석하던 분석가는 경기를 눈으로 보면서 일일이 주요 이벤트를 확인해야만 했다. 축구 경기를 보면 상당히 많은 이벤트가 발생한다. 누가 태클했는지와 파울인지, 혹은 선수교체, 프리킥, 골 등이 그 예시다.

여기에 ‘슈퍼브에이아이 스위트’를 제공했다. 비프로일레븐이 수집한 스포츠 분석 인공지능 모델의 성능을 높이기 위해서는 새로운 데이터를 학습시켜야 했기 때문이다. ‘스위트’를 통해 비프로일레븐은 업무 관련자간 투명하게 협업하고, 데이터 인사이트를 얻을 수 있다는 점을 도입의 이점으로 꼽았다. 특히, 데이터 관련한 업무에서 부담을 덜고, 자사의 AI 성능 향상이라는 본질에 집중할 수 있게 됐다.


 

 

필요한 라벨에 맞춘 데이터셋 구축이 강점

코난 테크놀로지는 검색 기업으로 출발했지만 AI 챗봇(Chabot) 기업으로 더 많이 알려진 기업이다. 코난 테크놀로지가 데이터 라벨링 반자동화 툴을 개발하게 된 계기는 바로 ‘비디오 튜링 테스트(VTT)’ 사업을 수행하기 위해서였다. 비디오 이해를 위해 데이터를 수집하고, 보정 자동화 기능을 개발해야 했기 때문이다.

공공 사업에 주력해온 코난 테크놀로지는 앞으로 반자동화 툴 비즈니스도 추진할 계획이다. 현재 대통령기록관에서 발주된 ‘얼굴인식 사업’을 수주해 프로젝트를 진행하고 있으며, 후속 사업도 준비 중에 있다. 군 프로젝트인 ‘객체인식’ 사업 우선협상대상자로 선정되기도 했다.

강현수 코난 테크놀로지 AI그룹장은 “무작정 툴이 있다고 비즈니스에 뛰어드는 것 보다 공공 레퍼런스를 확보하고, 투자를 받는 등 기본적인 절차를 거치는 게 중요하다”며, “이러한 경험을 기반으로 민간 데이터 라벨링 툴 비즈니스도 원활히 끌어갈 수 있을 것”이라고 설명했다.

코난 테크놀로지는 현재 동영상 데이터에 라벨링을 하고 있다. 코난 테크놀로지가 밝힌 tvN의 드라마 ‘또오해영’을 예시로 들면, 데이터를 수집하고, 이후 영상클립, 장면구간, 프레임 이미지를 추출한다. 이후 대표 이미지 데이터를 선정해 크라우드 소싱을 해 라벨링 작업을 수행할 것인지, 내부 작업자를 통해 수행할 것인지를 정한다.

이후 크라우드 소싱을 통해 작업할 경우 통계기반(SQIP) 자동 검수를 진행하고, 내부 작업자를 통해 진행할 경우 품질관리자(AQM) 검수를 진행한다. 이후 최종 검수를 진행한다.

이렇게 만들어진 AI 학습 데이터를 AI 모델에 투입, 전이학습을 진행한다. 이 단계에서 다시 라벨링 단계로 순환이 된다. 이 과정을 거쳐 가공된 데이터의 품질을 지속적으로 향상시킨다. 이를 통해 데이터 부족도 해결할 수 있다.

▲ 코난 테크놀로지의 웹 페이지 형태의 라벨링 툴 (출처: 코난 테크놀로지)

코난 테크놀로지가 사용하고 있는 라벨링 반자동화 툴은 웹 페이지 형태로 구현돼있다. 이에 대해 강현수 그룹장은 “시중의 라벨링 툴보다 콘텐츠와 데이터 관리가 편리하고, 결과 데이터를 JSON 형식으로 바로 다운로드 할 수 있는 장점이 있다”고 말했다. 그는 또한 “보편적인 데이터 셋이 아닌 필요한 라벨에 맞춘 커스텀 데이터셋을 구축할 수 있다는 것도 큰 장점”이라고 주장했다.

강 그룹장은 자체 라벨링 툴에 대한 장점으로 ▲시각정보 편집 ▲구간정보 편집 ▲묘사 및 Q&A 편집 ▲소리정보 편집 ▲자막정보 편집 ▲카탈로깅 ▲다운로드 7가지를 꼽았다.

▲ 코난 테크놀로지 툴의 이미지 데이터 라벨링 화면 (출처: 코난 테크놀로지)
저작권자 © 아이티데일리 무단전재 및 재배포 금지