[취재.txt] 빅데이터 전철 밟을라…생성형 AI ‘데이터 관리’가 먼저다

데이터 통합 및 관리, 거버넌스 체계 구현 위한 예산 확보 힘써야

2024-11-30     박재현 기자

[아이티데일리] 생성형 인공지능(AI)이 계속해서 국내는 물론 전 세계를 강타하고 있다. 그러나 생성형 AI 열풍 속에서 생성형 AI에 대한 우려의 목소리도 함께 나오고 있다. 과거 엄청난 관심을 받으며 나타났던 빅데이터가 기대한 만큼 효과를 거두지 못하고 사그라졌던 것처럼 생성형 AI도 그렇게 될 수 있다는 우려다. 생성형 AI 분야에서도 ‘빅데이터 분석을 위한 데이터 환경 조성 미흡’과 같은 국내 빅데이터 활성화를 가로막았던 현상이 나타날 수 있다는 것이다.

우리나라에서 빅데이터는 2010년대 초반부터 많은 관심을 끌었다. 2016년부터 빅데이터 관련 시스템을 구축하고 비즈니스에 활용하려는 움직임이 나타났다. 그렇게 관심을 받았던 빅데이터는 10여 년이 지난 지금 기대만큼의 성과를 거두지 못한 것으로 평가받고 있다.

여기에는 여러 이유가 있겠지만 ‘빅데이터를 분석하고 활성화하기 위한 환경이 미흡했다는 점’이 가장 큰 이유로 꼽힌다. 여기서 말하는 환경에는 예산 부족이 가장 큰 자리를 차지하고 있다. 부족한 예산 때문에 빅데이터 분석을 위한 데이터 수집 및 통합, 관리 및 거버넌스 작업, 품질 관리 등이 미흡할 수밖에 없다는 것이다.

물론 성공적으로 빅데이터 분석을 구현한 기업도 있지만 우리나라에선 빅데이터 분석은 일반적으로 성공한 기술로 평가받지 못하고 있다. 2016년 빅데이터 도입률이 고작 4.3%에 불과했다는 점이 단적인 예다.

최근 생성형 AI 도입 기업들 사이에서 빅데이터와 비슷한 양상이 포착된다. 기업들이 생성형 AI 기술을 구성하는 LLM이나 RAG와 같은 기술에만 집중한 나머지, 그 기반이 되는 데이터 관리의 중요성을 간과하고 있는 것이다. 실제로 생성형 AI 관련 프로젝트를 추진하는 기업을 보면, 생성형 AI의 재료가 되는 데이터를 소홀히 하는 경향이 있다. 생성형 AI가 만들어 내는 창작물의 출처가 데이터임에도 그와 관련된 예산이 책정돼 있지 않는 경우도 있다.

SI 기업의 관계자들의 말을 종합하면 생성형 AI 프로젝트를 준비하는 기업들이 데이터 통합 및 관리, 거버넌스 작업을 하지 않고 생성형 AI 서비스만 얹으려고 하는 경우가 많다. 이 경우 생성형 AI를 구동하는 GPU 인프라 사용량은 기하급수적으로 늘지만, 데이터가 정비되지 않아 만족할 만한 답변과 성능을 얻지 못하게 된다.

기업의 프로젝트 담당자들은 “데이터의 중요성을 알고 있음에도 데이터는 생성형 AI와 달리 결과물이 눈에 보이지 않아 예산 편성에 어려움이 있다”고 토로한다. 데이터에 대한 정비 없이 결과물만 요구하는 기업 임원의 지시에 따라 생성형 AI만 도입할 수밖에 없는 처지로 내몰리고 있다는 얘기다.

데이터 통합, 관리, 거버넌스에 대한 투자 없이 AI 프로젝트는 성공할 수 없다. AI 기술 자체도 중요하지만 데이터 아키텍처 설계, 데이터 품질 관리, 데이터 거버넌스 체계 수립 등 우선적으로 기본에 충실해야 한다. 어떤 프로젝트도 기본에 충실하지 않고는 성공할 수 없다.

생성형 AI도 마찬가지다. 생성형 AI는 지금껏 등장했던 신기술 중에서도 가장 혁신적인 기술이다. 그래서 더 기본에 충실해야 한다. 생성형 AI의 진정한 가치는 양질의 데이터를 기반으로 구동될 때 비로소 발현된다. 기초적인 데이터 작업의 중요성을 다시 한 번 더 인지해야 하는 시점이다.