엔비디아가 그레텔을 산 이유 “생성형 AI 학습 합성 데이터에 집중”…과연 적중할까?

LLM 데이터 한계, 합성 데이터가 해결할지는 여전히 논쟁 중 “무한 데이터 공급원” vs “데이터 품질 나빠질 것” 주장 팽팽

2025-03-21     조민수 기자
합성 데이터 생성 이미지. 그림=과학기술정보통신부

[아이티데일리] AI 분야에서 엔비디아(Nvidia)의 움직임은 초미의 관심사다. 엔비디아가 무엇을 하는가에 따라 업계가 요동친다. 그런 엔비디아가 합성 데이터 전문 기업인 그레텔(Gretel)을 인수한 것도 세간의 주목을 받고 있다. 기업가치 평가액 3억 2000만 달러보다 무려 3배에 달하는 9억 달러 규모로 알려졌다. 이 소식은 CNBC를 비롯해 다수의 언론을 통해 전해졌다.

개발자를 비롯해 80명의 직원을 거느리고 있는 그레텔은 합병이 마무리되는 대로 엔비디아에 합류한다. 그레텔의 기술은 엔비디아의 개발자를 위한 클라우드 기반 생성형 AI 서비스 제품군에 통합될 예정이라고. 엔비디아는 이제 AI 칩과 GPU를 중심으로 한 비즈니스 모델에서 소프트웨어와 솔루션을 망라한 토틀 AI 기업으로 변신하고 있다.

그렇다면 엔비디아가 대규모로 투자하는 합성 데이터는 어떤 가치를 지닌 것일까.

과학기술정보통신부에서는 합성 데이터를 생성형 AI 교육에 사용되는 데이터의 고갈을 방지할 새로운 데이터라고 정의한다. 테슬라의 일론 머스크나 오픈AI의 샘 알트먼 등은 생성형 AI의 근본인 대규모언어모델(LLM)을 학습시킬 데이터가 짧게는 2028년경 고갈될 것이라고 진단한다. 생성형 AI 업계 전문가들이 모두 우려하는 대목이다. 생성형 AI 업계의 성장성이 한계에 도달할 것이기 때문이다.

과기정통부는 이런 데이터 부족 문제를 해결하기 위한 새로운 데이터의 개념이 ‘합성 데이터’라고 지적하고, “현실 세계의 데이터를 기반으로 기술을 활용해 인공적으로 생성한 데이터”라고 설명했다. 사람이 직접 만든 데이터와 달리 시뮬레이션과 생성 모델을 통해 만들어져서 다양한 방식으로 만들어진다는 것이다. 이 데이터는 실제 데이터와 유사한 통계적 및 구조적 특징을 갖고 있기 때문에 AI 모델 학습에 효과적으로 활용되며, 기존 데이터의 한계를 극박할 수 있는 대안으로 지목했다.

물론 합성 데이터의 오류 가능성에 대한 경고도 있다. 사람이 만든 1차 데이터에 오류 또는 가짜 정보가 많아 기존의 생성형 AI가 만들어 낸 콘텐츠의 정확성이 문제가 되는데, 다시 가공하는 데이터를 어떻게 신뢰할 수 있느냐는 지적이다. 데이터 품질이 더욱 저하할 수 있다는 문제 제기다. 당연히 짚고 넘어가야 할 당면 과제인 것은 분명하다. 업계도 이를 인정하고 해결 방안을 모색하고 있다.

품질에 대한 걱정은 세계적인 차원이다. 와이어드에 따르면 스위스 로잔 연방공과대학교 연구원인 아나-마리아 크레투는 그러나 LLM 분야에서 합성 데이터가 "단순히 더 많은 데이터를 확보하는 방법" 으로 사용되는 경향이 있다고 지적한다. 이론적으로 합성 데이터는 데이터 부족에 대한 한 가지 해결책이 될 수 있지만, 지난해 7월에 발표된 네이처 논문에서는 AI 언어 모델이 다른 모델이 생성한 데이터를 반복적으로 사용하여 미세 조정되면 붕괴(collapse) 현상이 발생할 수 있다고 경고했다. 즉, AI 모델의 품질이 심각하게 저하될 위험이 있다 는 것이다.

그럼에도 불구하고 AI 업계의 합성 데이터에 대한 욕구는 맹렬하다. 그레텔의 인수는 엔비디아가 이번에 합성 데이터 생성 도구를 출시하는 와중에 성사됐다. 개발자들은 자체 AI 모델을 훈련하고 특정 애플리케이션에 맞게 데이터와 기술을 조정할 수 있다. 이론적으로, 합성 데이터는 AI 훈련 데이터의 무한한 공급을 가능하게 한다.

그레텔 홈페이지에 따르면 그레텔은 지난 2019년 알렉스 왓슨(Alex Watson), 존 마이어스(John Myers), 현재 CEO를 맡고 있는 알리 골샨(Ali Golshan)이 설립했다. 불과 6년이 경과한 트사트업이다. 그런데 2022년 말 오픈AI가 생성형 AI 모델인 챗GPT를 발표하고 전 세계에 AI 붐을 일으키면서 급성장했다. 그레텔은 합성 데이터 플랫폼과 API를 제공하여, 충분한 훈련 데이터를 확보하지 못했거나 개인정보 보호 문제로 실제 데이터를 사용할 수 없는 개발자들을 지원한다.

엔비디아는 여러 국내외 매체에서 보도한 대로 이미 수년간 개발자를 위한 합성 데이터 도구를 제공해 왔다. 2022년에는 옴니버스 리플리케이터(Omniverse Replicator)를 출시, 개발자들이 신경망 훈련을 위한 맞춤형, 물리적으로 정확한 3D 합성 데이터를 생성할 수 있도록 했다. 지난해 6월에는 개발자들이 LLM을 구축하거나 미세 조정할 수 있도록 합성 훈련 데이터를 생성하는 개방형 AI 모델 제품군 네모트론-4 340B(Nemotron-4 340B)를 공개했다. 이들은 의료, 금융, 제조, 소매업 등 다양한 산업에서 LLM을 위한 합성 데이터를 생성하는 데 활용됐다.

엔비디아 CEO 젠슨 황은 홈페이지에 게재된 이번주 연례 개발자 컨퍼런스 기조연설 영상에서 AI 확장을 비용 효율적으로 달성하기 위해 업계가 해결할 과제에 대해 세 가지를 언급했다. 첫째, 데이터 문제를 어떻게 해결할 것인가, AI 훈련에 필요한 데이터를 어디에서, 어떻게 생성할 것인가, 둘째, 모델 아키텍처는 무엇인가, 셋째, 확장 법칙은 무엇인가 등이다. 이를 해결하는 열쇠는 합성 데이터에 있음을 밝힌 것으로, 엔비디아가 이 분야에 주력할 것임을 선언한 것이기도 하다.

엔비디아의 움직임은 합성 데이터가 AI의 핵심 인프라로 자리 잡고 있음을 보여주는 신호로 받아들여진다. 그러나 합성 데이터가 AI 모델을 훈련하는 효과적인 해결책이 될지, 혹은 장기적으로 모델의 성능을 저하시킬지에 대한 논쟁은 지속될 것으로 보인다.

한편, 각종 우려에도 불구하고 AI 업계는 합성 데이터 활용을 점차 확대하고 있다. 메타(Meta) 는 최신 대형 언어 모델 라마3(Llama3)을 훈련하는 과정에서 이전 모델(라마2)가 생성한 합성 데이터를 사용했다고 발표했다. 아마존(Amazon) 은 베드록(Bedrock) 플랫폼에서 개발자들이 앤트로픽의 클로드(Claude)를 사용해 합성 데이터를 생성할 수 있도록 지원했다. 마이크로소프트는 Phi-3 소형언어모델을 훈련하는 데 합성 데이터를 일부 활용했다.

다만 마이크로소프트는 "사전 훈련된 LLM이 생성한 합성 데이터는 정확도를 떨어뜨리고 편향을 증가시킬 수도 있다"고 경고했으며, 구글 딥마인드(Google DeepMind)도 합성 데이터를 사용하고 있지만, 진정으로 안전하고 비공개성을 유지하는 합성 데이터를 생성하는 것은 복잡한 과정이라고 강조했다.