생성형 AI, 데이터 업계 변화의 ‘신호탄’을 쏘다, ‘데이터 시대’에서 ‘모델의 시대’로

[아이티데일리] 혁신성을 앞세운 생성형 인공지능(Generative AI)이 산업 전반으로 빠르게 확대되고 있다. 생성형 AI는 데이터 분석에도 스며들었다. 바로 데이터 분석 전(全) 주기 중 데이터 활용·분석 단계에서 생성형 AI가 고정적으로 쓰이는 것이다. 뿐만 아니라 앞단인 데이터의 수집·유통·저장 과정에도 변화를 야기하고 있다. 이미 수많은 데이터를 학습한 AI 모델이 유통되기에 일반 기업이 데이터를 대거 수집할 필요가 없어졌기 때문이다. 이제 데이터를 대규모로 확보하고 유통하는 데 집중했던 ‘데이터 시대’가 저물고, 수많은 데이터를 학습한 AI 모델이 유통되는 ‘모델의 시대’가 도래하고 있다. 데이터 시대에서 모델의 시대로 바뀌면서 변화하는 사항들을 조명해 본다.


생성형 AI 이용 기업, 데이터 유통 필요성 약화

거대언어모델(LLM) 기반 생성형 인공지능(AI)은 작게는 특정 부서나 공공기관의 업무에 사용되거나, 크게는 기업의 비즈니스 그 자체로 적극 확대되고 있다. 부서나 공공기관에서는 축적된 데이터를 특정 산업에 맞게 이미 여러 차례 데이터가 학습된 생성형 AI에 입력해 비서와 같이 활용하고 있기도 하고, 국내에서 소프트웨어(SW) 비즈니스를 영위하는 기업은 보유한 제품에 공개된 생성형 AI 모델이나 자체 개발·패키징한 AI 모델을 접목해 비즈니스 인텔리전스(BI) 기능을 고도화하며 비즈니스의 활로를 모색하고 있다.

이러한 행태는 기존의 수집·생성, 저장, 통합·관리, 분석, 활용 등 데이터 분석 전(全) 주기 가운데 데이터 분석·활용 단에 생성형 AI 모델이 고정됐다는 의미로도 해석된다. 기존에는 기업들이 데이터를 직접 수집하고 ETL(추출·변환·적재) 도구를 활용하는 등의 과정을 거쳐 정제한 후, 분석 목적에 맞게 데이터 웨어하우스(DW)나 데이터 마트(DM)를 구성하고 데이터 분석 툴을 사용해 인사이트를 뽑아냈다. 하지만 최근에는 데이터 수집 과정 없이 이미 학습이 잘 돼있는 AI 모델을 가져와 정제된 데이터를 입력하고 즉각적으로 인사이트를 추출하고 있다.

 정부가 운영하는 공공데이터포털 화면
정부가 운영하는 공공데이터포털 화면

이처럼 데이터 수집 과정이 간소화되기 시작했다는 것은 기존의 데이터 수집, 즉 유통 과정의 중요도가 낮아진다는 방증이기도 하다. 일반적으로 기업들은 자체적으로 보유한 데이터 외에도 데이터 분석 인사이트의 품질을 향상하기 위해 외부의 데이터도 수집했다. 이렇게 수집한 수많은 데이터를 데이터레이크(DL)에 모아 필요한 데이터를 뽑아 분석했다. 고품질의 결과를 얻기 위해서는 자체적으로 보유한 데이터 외에도 추가로 데이터를 수집할 수밖에 없었다.

사실 지금까지의 데이터 유통 과정은 공개된 데이터를 합법적으로 구매할 수 있는 마켓플레이스를 통해 확보하거나, 암암리에 데이터 브로커(Data Broker)를 통해 구매하는 방식으로 이뤄졌다. 우리 정부의 AI 허브를 비롯해 합법적으로 데이터를 구매할 수 있는 방식도 있다. 공개 데이터 역시 데이터 품질은 좋지만, 의료 산업군과 같이 특정 산업군의 경우 공개된 데이터가 목적에 맞지 않아 활용되기 어렵다.

데이터 유통 업계 한 관계자는 “타국 기업을 통해 데이터를 유료로 구매해서 사용하곤 한다. 실제로 AI 모델의 성능을 향상하는 과정에서 필요한 데이터 영역이 존재한다. 하지만 공개 데이터로는 특성화된 AI 모델의 수요에 충족할 수 없는 경우가 있다”면서 “일례로 의료데이터의 경우 일반 병원이 보유한 X레이 데이터는 해상도가 낮고 프로토콜에 차이가 있어 사용할 수 없다. 하지만 높은 해상도의 X레이 데이터를 보유한 대학병원의 경우 개인정보보호법으로 인해 활용하기 어렵다. 그렇기에 데이터 브로커를 통해 외국의 데이터를 받아오곤 한다. 이를 통해 X레이 데이터를 학습시켜 새로운 병증 유형에 대응할 수 있는 의료 AI 모델을 확보할 수 있게 된다”고 설명했다.

아울러 이러한 데이터 브로커를 활용하는 또 다른 이유로 한 관계자는 “우리나라는 데이터 거래소들에서 체계적으로 데이터들이 유통되고 있다. 데이터의 종류에 따라 다르지만, 비정형 데이터의 경우 품질 차원에서 문제도 있다. 가령 텍스트로 이뤄진 비정형 데이터의 경우 특정 종류의 대화 말뭉치가 있는 정도일 뿐이지, 말뭉치 자체를 평가하는 방법이나 점수 등이 없다. 또한 AI 학습이 쉽도록 RAG와 같이 포매팅이 잘 된 문서가 아닌 DB에서 쿼리를 날려 받을 수 있는 구조다. 이러한 패턴의 변화도 필요하다”고 말하며 비정형 데이터 관련 데이터 거래소의 부족한 점을 지적했다.

데이터 유통 과정의 간소화로 인해 더 이상 기업들은 데이터 수집·유통에 공수를 쏟지 않아도 된다는 것이다. 이는 곧 데이터 확보를 위한 노력을 비즈니스에 더욱 집중할 수 있는 기회이기도 하다. 크게 보면 유통, 조달 체계의 변화로 ‘데이터의 시대’가 아닌 ‘AI 모델의 시대’로 진화하고 있음을 시사한다.

한국교통대학교 곽정환 교수는 “기업들이 자체적으로 수많은 데이터를 유통하고 조달할 필요 없이, 이미 수많은 데이터를 토대로 학습한 모델을 일반 기업들이 활용하고 있다. 기존의 데이터 분석 과정에서는 적게는 수십억 원, 많게는 수천억 원이 들어가는 투자가 필요했지만, 대규모 투자 없이 모델 이용료로 같은 가치를 얻을 수 있기 때문”이라면서 “이는 데이터 유통이 아닌 이제 AI 모델 유통이 강화하고 있음을 시사한다. 가령 생성형 AI 모델을 유통하는 기업은 스마트팩토리(SmartFactory)나 스마트팜(SmartFarm) 등 특정 산업군에 적합하게 패키징하고 유통하기 시작할 것이다. 이는 데이터의 시대는 저물고 모델의 시대가 떠오를 것이라는 점을 방증한다”고 설명했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지