[2025 데이터 컨퍼런스 ⑨] “자연어 검색을 위한 CDC와 실시간 벡터 임베드”
데이타벅스 송정욱 이사
[아이티데일리] 생성형 인공지능(Generative AI)은 이제 유행을 넘어 비즈니스의 중심으로 자리매김하고 있다. 오픈AI의 ‘챗GPT(ChatGPT)’가 촉발한 변화는 자율적 업무 수행이 가능한 ‘AI 에이전트’로까지 이어졌다. 이제 화두는 AI를 얼마나 잘 활용할 수 있는가다.
생성형 AI가 이룩한 혁신, 그 중심에는 데이터가 자리하고 있다. 수집, 저장, 통합, 관리 등 데이터 활용 전 과정이 뒷받침돼야 뛰어난 성능을 갖춘 AI 모델을 개발할 수 있다. AI 기술 발전과 함께 데이터의 중요성이 높아지고 있는 이유다.
이러한 변화 속에서 본지(컴퓨터월드/IT DAILY)는 지난달 21일 서울 서초구 양재동 엘타워에서 “AI를 이용한 데이터 활용 방안”을 주제로 ‘2025 데이터 컨퍼런스’를 개최했다. 행사는 AI로 고도화된 환경에 걸맞은 데이터 운영 전략과 생성형 AI와 관련한 주요 이슈에 대한 인사이트를 찾고, 관련 솔루션의 시연까지 경험해 볼 수 있는 자리로 마련됐다.
데이타벅스 송정욱 이사는 ‘자연어 검색을 위한 CDC와 실시간 벡터 임베드(Vector Embed)’라는 주제로 발표에 나섰다. 송정욱 이사는 먼저 자연어 검색에 실시간 데이터를 취합할 필요성이 있음을 강조했다.
송정욱 이사는 “기업들은 자사 데이터를 기반으로 LLM을 구축하고 이를 고객에게 자연어 검색이 가능하도록 제공하기를 원하고 있다. 그러나 모델을 구축한 후 사용 기간이 늘어날수록 실시간으로 생성되는 데이터와 내부 데이터 간의 격차가 커진다. 곧 기업은 시의성을 놓치게 된다”고 설명했다.
송정욱 이사는 이를 해결할 방안으로 실시간 벡터 임베드를 소개했다. 송 이사는 “지금까지는 실시간 데이터를 반영하기 위해 벡터 데이터 베이스(DB)를 기술자가 업데이트하는 방식을 활용해 왔다. 하지만 이 방식은 시의성을 놓치는 것은 물론 매번 업데이트를 기업이 신경 써야 하는 번거로움이 있다. 실시간 벡터 임베드 기술을 활용하면 이 문제를 해결할 수 있으며, 기업들은 실시간 인사이트를 통해 의사결정에 도움을 받을 수 있다”고 강조했다.
송정욱 이사가 제시한 해결책은 스트림(Striim)의 ‘변경 데이터 캡처(Change Data Capture; CDC)’다. CDC는 실시간으로 다양한 소스에서 데이터를 수집하고 가공해 타깃 DB로 옮길 수 있도록 지원하는 기술이다.
스트림은 CDC와 함께 기업이 보유한 데이터 소스 중 민감한 데이터가 있는지 확인하는 ‘셜록 AI(Sherlock AI)’와 실시간으로 흐르는 데이터에서 민감한 데이터를 처리하고 보호하는 ‘센티넬 AI(Sentinel AI)’ 등도 탑재해 보안성도 제공한다.
마지막으로 송정욱 이사는 초기적재 모델과 실시간 벡터 임베드를 시연했다. 초기적재 모델에 비해 CDC로 실시간 데이터를 수집하는 모델이 자연어 검색에서 가지는 강점을 선보였다. 송 이사는 “결국 자연어 검색을 통해 일관성 있고 정확한 답변을 제공하기 위해서는 하이브리드 서치가 필수”라고 강조했다.