AI 모델 훈련 위한 ‘데이터 라벨링’…생성형 AI에 가치를 더하다

스케일AI, 스노클AI, 튜링, 인비저블테크놀로지 등 스타트업들 도약 생성형 AI 응답 정밀도 비약적으로 향상, 도입 급증

2025-06-05     조민수 기자
스노클AI의 전문가 DaaS 개념도. 그림=스노클AI

[아이티데일리] 데이터 라벨링은 데이터를 분류하는 것으로, 데이터에 라벨을 붙여 정리하고 설명하는 작업이다. AI 모델을 훈련하기 위해서는 라벨이 달린 데이터가 필수이고, 원시 데이터에 라벨을 붙이는 작업은 사람이 수작업으로 수행해야 했다. AI 연구자들 사이에서 이는 고된 작업이자, 단순한 허드렛일로 여겨지기도 했다.

그러나 2022년 챗GPT가 등장해 전 세계를 놀라게 하면서 상황은 급변했다. 오픈AI나 앤트로픽 등 LLM(대규모언어모델)을 기반으로 하는 AI 기업들에게 라벨 데이터를 제공하는 스타트업들이 새로운 활기를 띠고 막대한 자금을 유치하게 된 것.

◆ 데이터 라벨링 분야의 진화

최근 데이터 라벨링 분야는 또 다른 변화의 국면에 접어들고 있다. LLM을 처음부터 훈련하는 기업은 줄어들고, 그 역할은 소수의 빅테크들에게 맡겨지고 있다. 대신, 많은 기업들이 모델의 파인튜닝(학습된 모델을 특정 과제나 데이터셋에 맞춰 조정하는 것)이나 소프트웨어 개발, 의료, 금융 등 분야의 애플리케이션 구축에 집중하고 있다. 이에 따라 전문적인 데이터에 대한 수요가 높아지고 있다.

이제 AI 챗봇은 단지 에세이 등을 작성하는 수준을 넘어, 의사의 진단 보조나 금융 기관의 대출 심사 같은 고위험 작업에도 사용되고 있다. 다만 그만큼 오류가 늘고 있다는 것은 문제다. 2019년에 설립된 인공지능(AI) 관련 스타트업 스노클AI(Snorkel AI)의 공동 창업자이자 CEO인 알렉스 라트너는 포브스지와의 인터뷰에서 "기업들이 AI를 신뢰하고 실제로 도입하려면 모델 성능 평가가 필수적이다. 여기에 새로운 수요가 발생하고 있다"고 말했다.

포브스지에 따르면 스노클AI는 특정 사용 사례에 맞춰 AI의 성능을 측정하고자 하는 수요에 대응하고 있다. 기업들이 AI 모델을 테스트하고 필요에 따라 조정할 수 있도록 평가하는 시스템과 데이터셋 제작 지원에 중점을 두고 있다. 기업 내 데이터 과학자나 전문가들이 스노클AI의 플랫폼을 이용해 수천 개의 프롬프트-응답 조합을 만들고, 이를 정답 예시로 활용한다. AI 모델은 해당 데이터셋을 바탕으로 평가되고, 품질 개선을 위한 훈련이 이뤄진다.

◆ 기업가치 상승은 “시장 전체 조정의 결과”

캘리포니아 레드우드에 본사를 둔 스노클AI는 최근 뉴욕 벤처캐피털 애디션이 주도한 펀딩에서 1억 달러를 조달했다. 평가된 기업가치는 13억 달러. 2021년 펀딩에서 평가된 10억 달러 대비 약 30% 증가한 것이다. WSJ, 포브스, 컴퓨터월드 등 다수의 외신이 회사 소식을 전하면서 솔루션을 소개했다.

회사는 홈페이지에서 구글 클라우드, 마이크로소프트 애저, 데이터브릭스, AWS 등 다수의 클라우드 서비스 공급자들과도 협력 관계를 맺고 있다고 전했다. 또 미국의 대형 통신사 고객지원팀이 자사의 도구를 사용해 챗봇 평가 및 파인튜닝을 진행했으며, 청구 관련 질문 대응이나 예약 스케줄링에 대응할 수 있도록 했다. 미국 한 은행의 대출 부서는 법인 고객 관련 질문에 답변하는 AI 시스템을 훈련하기 위해 스노클AI의 솔루션을 활용해 정밀도를 25%에서 93%로 끌어올렸다고 한다. 인력이 부족했던 AI 스타트업 록스는 영업팀용 AI 시스템 평가를 도와 정확도를 10~12% 향상시켰다.

◆ 경쟁 심화 및 시장 축소

스노클AI는 2019년 스탠퍼드대 AI 랩에서 분사했다. 대량의 이미지 및 텍스트 분류 도구로 주목받았으나, 챗GPT 등장 이후 데이터 라벨링 분야에 다수의 기업이 몰리면서 대형 경쟁사들에 가려지게 되었다.

경쟁사인 스케일AI는 현재 250억 달러의 기업가치로 도약했으며, 이는 1년 전 138억 달러의 거의 두 배에 달한다. 2021년 기업가치 평가액을 22억 달러로 끌어올린 튜링, 외부 자금 조달 없이 2024년 1억 3400만 달러의 매출을 올린 인비저블 테크놀로지 등이 대표적이다.

게다가 챗GPT 같은 범용 AI 모델 성능이 향상되면서 무료로 대규모 라벨링이 가능해졌고, 상대적으로 상용 시장 규모는 축소됐다. 이로 인해 스노클AI의 성장도 일시 둔화됐다. 다만 2023년 이후 다시 성장의 길로 전환했다.

◆ 코드 기반의 라벨링 자동화

스노클AI의 차별화 요소는 전문가들이 참여하는 방식인 '프로그래머틱 라벨링'에 있다. 사전 설정한 키워드나 라벨링 규칙(조건)을 짧은 코드 형식으로 작성함으로써 대규모 데이터를 자동으로 라벨링한다. 이 방식은 의사나 변호사 등 전문가들이 수작업 없이 빠르고 저렴하게 라벨링할 수 있도록 지원한다.

AI 모델 평가에서 전문적인 질문이나 지시에 정확히 반응하는지 검증하려면 고품질 문제지 및 모범 답안에 해당하는 '평가용 데이터셋' 생성이 필수다. 스노클AI는 STEM 분야 교수, 변호사, 공인회계사, 소설가 등 수만 명 규모의 숙련된 계약 전문가들을 고용, 오픈AI, 구글, 앤트로픽, 메타 등 기업 및 기관에 전문 데이터셋을 제공하고 있다.

기업 및 연구 기관들은 이 데이터를 기반으로 챗봇에 새로운 기능을 추가하거나 복잡한 질문을 세분화하여 추론하고, 특정 주제에 대한 상세 조사도 가능하게 된다.

◆평가 시스템에서도 격화되는 경쟁

이처럼 전문적 영역에서의 평가 시스템 구축에서도 경쟁은 치열하다. 다수의 AI 선두 기업들이 자사 모델 평가용 데이터셋과 오픈소스 데이터를 분리 독립해 공개하고 있다.

블룸버그에 따르면 LM아레나라는 랭킹 플랫폼은 최근 독립 기업으로 분사해 최근 6억 달러의 기업가치로 1억 달러를 조달했다. LM아레나는 평가 데이터셋과 기준을 공개, 다양한 AI 모델을 공정하게 비교할 수 있도록 하고 있다. 이 외에도 스케일AI, 튜링, 인비저블 테크놀로지 등도 평가 서비스를 제공하고 있다. 스노클AI 역시 이들 경쟁 대열에 들어가 있다.

AI 업계가 ‘포스트 트레이닝’(특정 목적에 맞춰 모델 성능을 조정하는 단계)으로 무게중심을 옮기면서 스노클AI의 ‘전문가 제작 데이터셋 서비스’는 성장 가도를 달리고 있다. AI가 이미 인터넷에 존재하는 대부분의 데이터를 흡수한 상황에서, 전문가가 맞춤형으로 만든 데이터셋은 더 큰 가치를 갖는다. 이러한 시장의 흐름은 스노클AI에 유리하게 작용하고 있다는 평가다.