단순 라벨링 작업 비중 감소, 고품질 데이터 수요는 늘어날 듯
[아이티데일리] 거대언어모델(Large Language Model, LLM)이 국내외 IT 시장을 선도하는 기술로 자리매김하며 데이터 라벨링 시장도 새로운 국면을 맞이했다. LLM이 가공되지 않은 대규모 데이터를 학습하면서 관련 데이터의 수요 형태가 변하고 있기 때문이다. 이 같은 변화 속에서 업체들은 그동안 다져 온 고품질 데이터 구축 역량을 기반으로 기존 사업을 강화함과 동시에 새로운 사업 모델을 발굴해 나가고 있다. LLM 등장 후 달라진 데이터 라벨링 업계의 모습을 들여다봤다.
딥러닝 모델에 필요한 ‘데이터 라벨링’
데이터 라벨링(Data Labeling)은 딥러닝(Deep Learning) 모델과 함께 성장했다. 딥러닝 기술이 여러 분야에서 활용되며, 이에 필요한 데이터 라벨링의 수요도 증가해 왔다. 데이터 라벨링과 딥러닝의 관계를 알기 위해서는 우선 딥러닝이 어떤 기술인지 이해해야 한다.
딥러닝은 예시 데이터를 기반으로 한 인공 신경망(Artificial Neural Network, ANN) 형태의 학습 과정을 통해 복잡한 문제를 해결하는 인공지능(AI) 기술이다. 구체적으로 살펴보면, 딥러닝 모델은 먼저 예시 데이터를 학습하는 훈련 작업을 거친다. 그 이후 훈련된 인공 신경망을 활용해 특정 데이터를 평가하고 이 결과를 보고한다. 개발자는 입력 데이터와 예상 결과를 두고 가중치를 조정하거나 이에 적절한 데이터를 점진적으로 더하며, AI는 데이터를 평가하는 과정을 수백 또는 수천 번 반복한다. 이를 토대로 AI는 의사결정이나 예측을 수행할 수 있는 중요한 패턴 및 규칙을 학습하게 된다.
학습에 투입되는 데이터를 가공하는 작업이 바로 ‘데이터 라벨링’이다. 이미지, 영상, 텍스트 등의 데이터를 AI가 학습할 수 있도록 사람이 가공 도구를 활용해 목적에 맞게 입력하는 것이다.
테스트웍스 김수덕 본부장은 “단순 원시 데이터의 경우, AI 모델에서 어떠한 성격을 가지고 있는 것인지 식별할 수 없다. 가공 작업을 통해 정보를 인식할 수 있도록 데이터에 태그를 붙이는 역할이 데이터 라벨링이다”라고 설명했다.
데이터 라벨링을 설명하는 대표적인 예시는 고양이 사진이다. 사람이 고양이 사진을 보고, 사진 속 대상을 ‘고양이’라고 인식하는 일은 상당히 직관적이다. 거의 모든 사람은 별다른 설명이 없더라도 사진 속 동물이 고양이라는 사실을 알 수 있다. 하지만 AI는 그렇지 않다. 아무런 학습을 거치지 않았다면, 사진 안에 담긴 동물이 고양이인지 알아보지 못한다.
여기서 딥러닝 모델에 적절한 학습을 제공하기 위해 사진에 고양이와 관련된 정보를 입력하는 것이 데이터 라벨링의 역할이다. 셀렉트스타 황민영 부대표는 “AI 모델은 많은 데이터를 학습함으로써 사진 속 ‘고양이’를 이해하는 패턴과 규칙을 얻게 된다. 이 과정에서 컴퓨터가 사물을 구분할 수 있도록 사진에 일일이 정보를 입력하는 과정이 필요한데, 이것이 데이터 라벨링이다. 가공된 데이터로 훈련을 거친 AI는 사용자가 올린 고양이 사진을 보고 내용을 이해할 수 있게 된다”고 말했다.
예시로 든 고양이 사진의 경우뿐만 아니라 텍스트, 이미지, 음성 등 다양한 정형·비정형 데이터를 AI에 딥러닝 방식으로 학습시킬 수 있다. 이렇게 만들어진 AI 모델은 컴퓨터 비전, 음성 인식, 자연어 처리, 자율 주행 등 많은 분야에서 혁신적인 기술을 가능하게 만들었다. 그리고 많은 기업들이 이러한 혁신적인 기술을 도입하면서 산업 분야와 관계없이 데이터 라벨링에 대한 수요는 증가해 왔다.
‘디지털 뉴딜’과 함께 성장한 시장
정부도 이 같은 데이터 라벨링의 가치를 알아보고 전폭적인 지원에 나섰다. 2016년 딥러닝으로 개발된 알파고(AlphaGO)가 큰 파장을 일으킨 후, 정부는 한국지능정보사회진흥원(NIA)을 통해 2017년부터 AI 학습용 데이터 구축·확산 사업을 진행했다. 구축된 데이터는 우리나라 국민이라면 누구나 활용해 기술을 개발할 수 있도록 ‘AI 허브(AI-Hub)’를 통해 공개됐다.
특히 2020년 발표된 디지털 뉴딜의 핵심 과제 중 하나로 ‘데이터 댐(Data Dam)’ 구축을 선정, 대규모 데이터 라벨링 사업을 추진했다. 이를 위해 2021년 2,925억 원, 2022년 5,382억 원, 2023년 2,188억 원 등 막대한 예산을 투입했다. 그 결과 과학기술정보통신부와 NIA는 지난해까지 AI 허브에 총 691종, 약 26억 건의 데이터를 개방했다.
해외 시장에서도 데이터 라벨링 시장은 크게 성장했다. 그랜드 뷰 리서치는 2020년 보고서를 통해, 글로벌 데이터 라벨링 툴 시장 규모가 2019년 전 세계 기준 4,700억 원에 달하고 수익 규모는 8,500억 원에 이른다고 발표했다. 또한 2020년부터 2027년까지 연평균 26.9% 증가해 2027년에는 약 3조 원 규모로 확대될 것으로 예측했다.
LLM 등장으로 바뀌기 시작한 판도
2022년 11월, 오픈AI는 자체 개발한 LLM 모델 GPT-3.5로 만든 ‘챗GPT(ChatGPT)’를 출시했다. 챗GPT는 일상에서 사용하는 자연어를 프롬프트로 입력하면 마치 사람이 만든 듯한 결과물을 생성하며 전 세계를 놀라게 했다. 이후 할루시네이션(Hallucination, 환각 현상) 등의 문제가 발견됐지만, 많은 이들이 원하는 명령을 입력하는 것만으로 새로운 결과물을 얻을 수 있다는 점에 매료됐다. 국내외 IT 기업은 자체 개발한 LLM을 속속 출시했고, 다른 업계에서도 AI를 도입해 업무 효율성을 향상할 방안을 마련하기 시작했다.
그 여파는 데이터 라벨링 시장에도 전달됐다. 시장은 LLM에 적합한 데이터를 요구했다. 그런데 LLM이 요구하는 방향은 이전까지의 데이터 라벨링과 조금 달랐다. LLM을 만들기 위해서는 그동안 라벨링 작업으로는 수용할 수 없는 방대한, 가늠할 수 없을 정도로 거대한 양의 데이터가 필요했다. 챗GPT의 근간이 된 GPT-3는 1,750억 개라는 천문학적인 규모의 매개변수(파라미터)를 보유했으며, 이후 등장한 소형 거대언어모델(sLLM)도 10억 개 내외의 매개변수를 갖췄다.
기본이 되는 인공 신경망도 트랜스포머(Transformer) 모델로 바뀌었다. LLM을 개발하기 위해서는 트랜스포머 모델에 인간 언어를 LLM이 처리할 수 있도록 개별 단어나 구(Phrase) 규모로 잘게 쪼갠 ‘토큰(Token)’을 넣어야 한다. 트랜스포머 모델은 토큰을 통해 문장 속 단어와 같은 데이터 안의 순차적 관계를 추적함으로써 맥락, 의미를 학습한다. AI가 수많은 요소 사이의 패턴을 찾아내는 방식이기 때문에 데이터에 여러 정보를 담는 라벨링 작업은 비중이 전보다 낮아지게 됐다.
이러한 변화는 정부 사업에서도 감지됐다. 정부는 지난해 LLM이 확대되는 시장 상황을 근거로 전체 데이터셋 구축 사업에서 라벨링 작업을 거친 데이터의 비중을 줄이기로 결정했다. 또한 올해 데이터 구축 사업의 예산 역시 지난해보다 감소한 400억 원 규모로 책정했다.
여전히 핵심은 고품질 데이터
데이터 라벨링의 ‘양’이 줄어들었다고 해서 그 ‘중요도’가 낮아진 것은 아니다. 명확한 목적이 정해지지 않은, LLM의 기본 형태인 ‘파운데이션 모델(Foundation Model)’만으로는 실제 업무 활용에 어려움이 있기 때문이다. 이를 해결하기 위해 미세조정(파인튜닝)과 RAG(검색 증강 생성) 등의 보완이 필요하며, 이 과정에서 여전히 라벨링 작업을 거친 고품질 데이터가 요구된다.
크라우드웍스 김혜수 전략기획실장은 이러한 LLM의 특징을 대학생과 대학원생을 예시로 들어 설명했다. 김혜수 실장은 “파운데이션 모델은 대학생을 생각하면 이해하기 쉽다. 대학생은 학부 과정을 거치며 특정 전공을 비롯해 여러 교양 과목을 배우며 다양한 지식을 습득한다. 하지만 대학원 과정을 통해 습득하는 고도의 전문 지식은 잘 알지 못할 수밖에 없다”고 말했다.
이어 김 실장은 “파운데이션 모델은 다양한 분야에서 창의력을 드러낼 수 있지만, 특정 업계에서 쓰이는 전문 용어 등에 대해서까지 그러한 능력을 발휘하지는 못한다. 따라서 업무에 LLM을 도입하려면 특화된 데이터셋을 통한 미세조정 작업이 먼저 이뤄져야 한다. 크라우드웍스는 이러한 문제를 해결할 수 있는 전문화된 데이터셋 구축을 제공하고 있다”고 덧붙였다.
미세조정을 위해 특정 영역에 전문화된 데이터셋을 확보해야 하는 만큼, 작업자에게 요구하는 역량도 높아졌다. 업체들은 의료, 법률 등의 전문 지식을 소화할 수 있는 자격을 갖춘 인력을 모집해 데이터셋의 품질을 향상하는 데 주력하고 있다.
사람이 직접 관여하는 강화학습 방법도 쓰인다. 이를 ‘인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)’이라 일컫는다. 셀렉트스타 황민영 부대표는 “RLHF는 사람이 직접 AI의 답변 중 가장 좋은 것을 선택해 피드백하는 작업이다. 이 과정을 거치면 보다 자연스러운 결과물을 끌어낼 수 있는데, 크게 보면 사람의 주관이 개입된다는 점에서 데이터 라벨링과 유사하다. 셀렉트스타는 자체 인력을 활용해 이와 같은 강화학습도 진행할 수 있다”고 설명했다.
Q. LLM 시장에서 크라우드웍스의 차별점은.
“고품질 데이터가 우리의 강점이다. LLM이 업계 핵심 기술로 자리매김했지만, 데이터의 중요도는 달라지지 않았다. 여러 모델이 각축을 벌이며 기술은 상향 평준화가 이뤄졌다. 이제는 어떤 영역에서 사용하고, 어떤 방식으로 모델을 다룰지가 경쟁력을 결정하는 요소다. 그런 측면에서 크라우드웍스는 LLM을 기존 데이터 사업의 연장선으로 보고 있다. 그래서 데이터 플랫폼을 보완하고 어떻게 활용할 수 있을지에 집중해 왔다.”
“데이터뿐만 아니라 컨설팅 작업도 중요하다. 잘 구축한 데이터를 적재적소에 활용함으로써 도입 모델이 가진 성능을 최대한으로 끌어내도록 노력하고 있다. LLM 도입 시 크라우드웍스는 데이터 업체로 참여해 기업과 긴밀히 협력하며 적절한 구축 방안을 마련하는 역할을 맡는다.”
“작은 부분부터 단계별로 도입해 점차 회사 전체에 안정적으로 자리 잡을 수 있도록 세심하게 컨설팅 작업을 진행하고 있다. 아직 LLM 도입 및 활용은 초기 단계이기에 레퍼런스 확보에 집중하고 있으며, 다양한 분야의 기업과 기술 검증(PoC)을 진행하는 등 시장 변화에 대응 중이다.”
Q. 크라우드웍스의 향후 사업 계획은.
“해외 시장에 주목하고 있다. 우선, 가까운 일본 시장 진출을 고려 중이다. 최근 일본 정부는 AI 시장에 공격적인 투자를 이어가고 있으며, 그 결과 오픈AI가 아시아의 첫 번째 지사를 도쿄에 개설한다고 발표하기도 했다. 크라우드웍스는 2019년 일본 현지 법인을 설립한 바 있으며, LLM으로 재편된 시장에 맞게 새로이 전략을 수립하고 진출 계획을 세우는 단계에 있다. 그 밖에 유럽, 미국으로 시장을 확대하는 계획도 준비 중이다.”
“회사가 주목하는 또 다른 분야는 교육이다. 고품질 데이터를 만들기 위해서는 데이터 및 관련 기술에 대한 이해도를 갖춘 작업자가 필요하다. 크라우드웍스는 2020년 온라인 교육 플랫폼 ’크라우드 아카데미‘를 오픈, 입문자부터 관리자까지 아우르는 프로그램을 통해 데이터 전문가 육성에 힘써 왔다. 앞으로는 이러한 교육 사업도 더욱 확대해 나갈 계획이다.”
Q. 데이터 라벨링 시장의 미래를 전망한다면.
“생성형 AI가 점차 일상 곳곳으로 퍼져 가며, 하드웨어에 탑재할 수 있는 sLLM이 늘어날 것이다. 이렇게 되면, 더 적은 컴퓨팅 파워로도 최적의 성능을 끌어내기 위해 맞춤형 데이터가 더욱 필요해질 것이다. 각기 다른 환경에 최적화된 데이터를 구성하고, 어떻게 LLM 관련 역량을 향상할 수 있을지가 기업의 경쟁력을 가늠하는 잣대가 되지 않을까 전망한다.”
“또한 맞춤형 데이터 수요가 증가함에 따라 도메인 전문 영역으로 시장이 옮겨가고 있다. 이에 따라 데이터 작업자에게 전문지식, 어학 능력 등 더욱 높은 수준을 요구하게 됐고, 그만큼 인력 확보는 이전보다 까다로워졌다. 크라우드웍스는 2017년부터 데이터 라벨링 사업을 이어오며 약 60만 명에 이르는 라벨러들과 협력했다. 이렇게 만들어진 우리의 인력 풀이 있어 전문화된 작업도 충분히 대응할 수 있는 역량을 갖췄다.”
LLM 도입을 위한 데이터 컨설팅 지원
환각 현상 역시 LLM 도입에 있어 해결해야 할 과제 중 하나다. LLM은 단어(토큰) 간 관계를 분석하고 맥락을 파악해, 확률적으로 가장 그럴듯한 답변을 생성한다. 정확한 의미를 알고 답을 만들어내는 것은 아니라는 이야기다. 따라서 사람처럼 자연스러운 글은 쓸 수 있지만, 특정한 사실이나 정보를 제공하는 데는 약점이 있을 수밖에 없다.
RAG는 이러한 문제를 보완하고자 도입된 기술이다. 간단히 설명하면, RAG는 LLM이 사용자의 질문에 답변을 생성하기 전에 내부 데이터베이스(DB)를 확인, 이를 종합해 정확한 정보를 제공할 수 있도록 지원한다. LLM에 학습되지 않은 도메인 특화 데이터나 기업 내부 데이터를 더해 정확도를 높이는 방식이다.
하지만 회사가 보유한 DB를 모두 넣을 수는 없다. 때문에 LLM을 가장 효율적으로 사용할 수 있도록 데이터 구조화가 요구된다. 데이터 라벨링 업체들은 이러한 문제를 해결하는 컨설팅 작업을 지원한다.
셀렉트스타 황민영 부대표는 “미세조정에도, RAG에도 기업이 갖고 있는 모든 데이터를 다 적용할 수는 없다. LLM의 성능을 가장 극대화하는 방안을 고민해야 한다. 셀렉트스타는 수많은 라벨링 작업을 거치며 쌓은 경험으로 최적의 데이터 구조를 만드는 역량을 확보했다”고 밝혔다.
크라우드웍스 김혜수 실장은 “금융권의 경우 상품 소개서, 약관 등 표, 차트, 그래프 등 다양한 요소가 담겨 있는데, AI가 이를 제대로 읽어내지 못하는 경우가 많다. 이러한 데이터를 RAG에 활용하기 위해서는 파싱(Parsing) 작업이 필요하다. 크라우드웍스는 비정형 데이터를 LLM이 이해하는 형태로 변환하고, 더 나아가 벡터 DB로 구현해 LLM을 최적의 상태로 사용할 수 있도록 지원한다”고 말했다.
언어모델 개발, 벤치마크 데이터 등 사업 다변화
크라우드웍스는 네이버와 파트너십을 통해 ‘하이퍼클로바X(HyperCLOVA X)’ 구축 사업에 참여하고 있다. LLM 도입 과정에서 컨설팅 역할을 맡는다. 크라우드웍스 김혜수 실장은 “LLM을 도입한다고 바로 좋은 결과를 얻을 수 있는 게 아니다. 작은 비즈니스부터 단계별로 확장해야 한다. 그 과정에서 RAG, 프롬프트 엔지니어링, 미세조정 등을 적용하는 최적의 방안을 우리의 데이터 역량을 바탕으로 기업과 같이 모색하고 있다”고 말했다.
자체적인 모델도 마련했다. 크라우드웍스는 최근 비즈니스 환경에 특화된 소형언어모델(SLM) ‘웍스원(WorksOne)’을 발표했다. 해당 모델을 개발하기 위해 금융, 유통, 공공기관 등 기업별 데이터 특징을 분석해 비즈니스 특화 용어, 문체 등을 고려한 맞춤형 데이터셋을 구축했다. 특히 폭넓은 데이터 작업자 풀을 기반으로 고급 데이터 작업자를 투입해 완성도를 높였다.
셀렉트스타도 AI 종합 솔루션 기업으로 도약하고 있다. 최근 LLM 도입 사업에 데이터 컨설팅을 담당하는 파트너사로 참여해 레퍼런스를 확보하고 있다. 또한 데이터 편향성을 진단할 수 있는 솔루션을 개발해 내부적으로 활용했으며, 이를 제품화하기 위한 준비도 진행 중이다.
셀렉트스타가 특히 주목하는 분야는 ‘신뢰성’이다. AI가 많은 분야로 확대되는 만큼 이에 따른 부작용을 우려하는 목소리도 커지고 있다. 이에 셀렉트스타는 지난해 NIA의 AI 학습용 데이터 구축 사업에 참여해 네이버, 카이스트(KAIST) 등과 함께 한국형 LLM 평가 데이터셋 ‘코낫(KorNAT)’를 구축했다.
셀렉트스타 황민영 부대표는 “해외 데이터셋을 번역한 벤치마크는 성능이나 윤리성 등을 평가할 수 있지만, 한국 사회만의 고유한 요소는 충분히 반영키 어렵다. ‘코낫’은 한국의 사회적 가치관, 기본 지식과 얼마나 일치하는가를 평가하는 데 초점을 맞췄다”고 설명했다. 셀렉트스타는 올해 하반기를 목표로 ‘코낫’을 기반으로 온라인 평가가 가능한 공개 리더보드를 NIA와 함께 준비 중이다.
데이터 구축은 더욱 전문화된 방향으로
한편, 테스트웍스는 R&D 투자를 꾸준히 이어오며 데이터셋 구축 및 검증에 대한 다양한 기술을 자체 확보해 왔다. 이미지 생성형 AI 모델인 ‘적대적 생성 신경망(Generative Adversarial Networks, GAN)’을 비롯해 비전 기반의 데이터 합성, 증강 기술을 바탕으로 고객의 AI 개발을 지원하고 있다.
2021년부터 2022년까지 진행한 울산항만공사의 자율 항만 프로젝트의 경우, 도선사 업무 자동화를 위해 고해상도 이미지를 세밀하게 라벨링하는 역량이 요구됐다. 이를 위해 자사 솔루션 ‘블랙올리브(blackolive)’에 검수 자동화 기능 등을 추가 개발해 프로젝트를 완수했다.
또한 과기정통부 주관 사업을 통해 전국 고속도로, 국도 및 광역시 주요 도로를 대상으로 총 45만km 데이터 수집 구간에 대한 도로안전시설물, 교통관리시설물 등 총 35종의 데이터셋을 구축했다. 해당 데이터셋은 AI 허브를 통해 공개될 예정이다.
테스트웍스 김수덕 본부장은 “빠르게 성장하는 AI 시장에서 편향된 데이터는 사회에 부정적인 영향을 미칠 우려가 있다. 이를 예방하기 위해 정확한 데이터셋의 중요도는 더욱 높아질 것”이라며 “데이터 수집, 가공, 검증의 원스톱 서비스를 고도화해 고품질의 데이터 가공을 제공하고자 노력하겠다”고 밝혔다.
인피닉은 데이터 라벨링을 활용해 자율주행 분야에서 성과를 거뒀다. 국내 주요 자율주행 관련 연구기업과 파트너사로서 협력했으며, 특히 2022년에는 현대기아차그룹과 데이터 납품 계약을 체결한 바 있다.
최근에는 자율주행뿐 아니라 방산 분야 등으로 사업을 넒혀가고 있다. 인피닉 관계자는 “지난해 방산혁신기업 100에 선정되며 해당 분야의 AI 연구과제를 맡게 됐다. 이를 통해 공공부문에 대한 접근을 강화함으로써 매출의 다양성 강화 및 장기적 성장의 토대를 마련할 수 있을 것으로 기대한다”고 밝혔다.
Q. 최근 발표한 신뢰성 벤치마크 ‘코낫’의 강점은.
“ARC, MMLU, 헬라스웩(HellaSwag) 등 LLM을 평가하는 여러 지표가 시장에서 널리 쓰이고 있다. 많은 사람이 활용하는 검증된 지표인 건 맞지만, 해외에서 개발된 만큼 한국의 문화를 충분히 반영했다고 보기 어렵다. 셀렉트스타가 네이버, 카이스트, SKT 등과 함께 만든 ‘코낫’은 한국인의 사회적 가치관, 기본 지식에 LLM이 얼마나 부합하는지를 평가할 수 있다. 개발 과정에서 1만 개의 데이터를 구축했으며, 설문조사 형태로 여러 차례 사람이 직접 검토함으로써 품질과 신뢰성을 개선했다. 이를 NIA와 함께 리더보드로 온라인에 공개해 다양한 LLM이 국내에서 안전하게 쓰일 수 있도록 지원해 나갈 계획이다.”
Q. 셀렉트스타의 향후 사업 계획은.
“기업 내 AI 도입이 빠르게 늘고 있다. 여기서 중요한 부분은 데이터라 할 수 있다. 셀렉트스타는 데이터를 잘 구조화할 수 있는 핵심 파트너가 되고자 노력하고 있다. 신뢰성 또한 중요한 문제다. LLM이 잘못된 답변을 제공하거나 사회적으로 부적절한 표현을 사용하면 비즈니스에 심대한 타격을 입을 수 있다. 셀렉트스타는 ‘코낫’ 같은 벤치마크 데이터셋뿐만 아니라 AI의 취약점을 발견하고, 윤리성, 신뢰성을 높이도록 돕는 ‘레드팀’의 서비스화를 준비하고 있다.”
“지난해 말부터는 분야별 저작권 협의를 마친 데이터를 공급하는 총판 사업을 시작했다. 그간 AI 개발 과정에서 웹 크롤링(Web Crawling)으로 다량의 공개 데이터를 모으는 경우가 많았는데, 이에 대한 저작권 문제를 우려하는 목소리가 조금씩 나오고 있다. 셀렉트스타는 이 같은 문제를 해소하기 위해 원저작권자와 계약을 체결해 안전한 데이터 공급을 지원한다. 이와 관련된 매출도 나오기 시작했다. 이 밖에도 AI 영상통화와 같은 B2C 시장으로 확장을 준비하는 등 내년 기업공개(IPO)를 목표로 사업 다각화를 지속하고 있다.”
Q. 데이터 라벨링 시장의 미래를 전망한다면.
“단순한 의미의 ‘데이터 라벨링’은 이전보다 줄어들 가능성이 크다. 가령 특정 문장에서 주어·서술어나 지칭 대명사 등을 구분하는 텍스트 데이터 라벨링은 LLM이 등장한 이후로 수요가 위축됐다. 이 밖에도 반자동화 라벨링 기술도 이전보다 고도화돼 인적 집약으로 데이터 라벨링 작업을 수행하는 일은 점차 감소할 것으로 전망한다.”
“하지만 AI의 정확도를 높이고 성능을 개선하는 데 필요한 전문화된 데이터의 수요는 더욱 증가할 것이다. 한동안 매개변수를 얼마나 많이 가져가는지가 화두에 올랐으나, 사실 데이터의 양 못지않게 중요한 부분이 고품질 데이터의 비중이다. 논문, 전문서적, 뉴스 기사와 같은 정보량이 풍부한 데이터를 충분히 학습시켜야 만족할 만한 성능을 확보할 수 있기 때문이다. 또한 기업이 활용하려는 분야에 전문 지식을 투입해 미세조정을 거쳐야 실제 업무에 도입할 수 있다. 따라서 전문인력이 만든 고품질 데이터 수요는 앞으로 더 늘어날 것으로 전망한다.”


