스트래티지, SAP 등 시맨틱 레이어 기술 내재화 ‘총력’

데이터 가상화 관련 이미지 (생성: 제미나이)
데이터 가상화 관련 이미지 (생성: 제미나이)

[아이티데일리] 생성형 인공지능(AI)이 촉발한 AI 시대에 데이터는 ‘움직이지 않고’, ‘원하는 순간에 분석되고’, ‘AI에 현행화돼 연동’돼야 한다. 데이터베이스(DB) 아키텍트가 아닌 이상 비전문가는 데이터 소스에 접근하기 어렵다. 하지만 AI가 확대되면서 비전문가들의 데이터 접근 수요는 늘고 있는 상황이다. 이러한 가운데 대안으로 부상한 기술이 있다. 바로 데이터를 복제·이동하지 않고 실시간으로 통합·활용할 수 있는 ‘데이터 가상화(Data Virtualization)’ 기술이다.

데이터 가상화는 다양한 형식과 위치에 흩어진 데이터를 물리적으로 이동하거나 복제하지 않고, 실시간으로 연결해 단일 가상 뷰로 제공하는 기술이다. 이 과정에서 논리 계층(Logical Layer)을 통해 데이터 쿼리 및 통합이 가능해 사용자는 실질적으로 분산된 데이터를 하나의 시스템처럼 활용할 수 있게 된다.

데이터 가상화는 생성형 AI 분석 수요 증가와 다양한 인프라 환경, 데이터 거버넌스 강화 등이 가능하다는 이유에서 많은 관심을 받고 있다. 먼저 생성형 AI 분석 수요가 증가하고 있다는 점이다. 생성형 AI 모델이 신뢰할 수 있는 답변을 제공하기 위해선 정형·비정형 데이터를 학습시켜야 한다. 하지만 이를 위해서는 기업 내부의 다양한 데이터 소스에 실시간으로 접근이 가능해야 한다. 데이터 가상화는 AI 모델에 필요한 대규모 데이터셋을 연동하는 기반 기술로 적합하다. 데이터 무결성과 실시간성, 자동화 연계 등이 가능해지면서 AI 기반 의사결정의 속도와 정확성도 크게 향상할 수 있다.

이와 관련해 스트래티지코리아 정경후 지사장은 “최근의 AI 모델은 수십 테라바이트 이상의 고품질 데이터를 요구한다. 이때 데이터 가상화는 물리적 한계를 뛰어넘어, AI/ML 학습과 추론을 위한 ‘실시간 접속형 데이터 허브’로서 작동한다. 통합 속도와 접근 효율성, 보안 및 정합성 관리 등 모든 측면에서 데이터 가상화가 해답이 될 수 있다”고 강조한 바 있다.

IT 인프라 환경이 다양해지고 있다는 이유도 존재한다. 최근에는 하이브리드·멀티 클라우드, 컨테이너 기반 쿠버네티스 등 인프라 환경이 복잡다단해지고 있다. 각기 다른 인프라 환경에 흩어진 데이터를 하나의 분석 체계로 통합하기 위해서는 물리적 통합 방식에 한계가 있다. 데이터 가상화는 다양한 환경 간의 연결성을 확보하면서도 물리 자원을 절감할 수 있기에 대안으로 떠오르고 있다.

마지막은 데이터 거버넌스를 강화할 수 있다는 점이다. 데이터 가상화는 데이터 ETL(추출·변환·적재)과 같은 전통적 데이터 통합 작업의 복잡성을 제거할 수 있다. 특히 메타데이터 관리와 데이터 마스킹, 접근권한 제어 등 이는 데이터를 중앙에서 관리할 수 있기에 데이터 거버넌스 측면에서 강점이 있다.

실제로 국내·외 기업들 역시 데이터 가상화 기술 내재화 및 사업화에 집중하고 있다. 스트래티지, SAP, 디노도를 비롯한 글로벌 기업부터 엔코아, 데이터스트림즈 등 국내 대표 데이터 기업들은 자사 플랫폼에 논리적 데이터 계층과 데이터 가상화를 적극 내재화하며 관련 기술력을 고도화하고 있다.

우선 SAP는 ‘비즈니스 데이터 클라우드(BDC)’를 통해 데이터 가상화를 기반으로 하는 데이터 패브릭 아키텍처를 확보했다. SAP BDC는 모든 소스의 데이터를 복제 없이 연결하는 제로-카피 데이터 셰어링(Zero-Copy Data Sharing)과 논리적 통합을 지원하는 시맨틱 레이어, AI/ML 및 SAP 생성형 AI인 ‘쥴(Joule)’과의 연계가 가능하다.

디노도는 논리적 데이터 관리 플랫폼을 바탕으로, 다양한 데이터 소스를 실시간 가상화하고 고성능 쿼리 엔진으로 처리하고 있으며, 오라클은 클라우드 및 온프레미스 전반에 걸친 포괄적인 가상화 솔루션을 제공하고 있다. MS 역시 애저 데이터 팩토리(Azure Data Factory)를 기반으로 멀티 클라우드 데이터 통합을 강화하고 있다.

전통적인 BI 대표기업 스트래티지 역시 데이터 가상화 기능을 ‘스트래티지 원’ 플랫폼에 내재화했다. 시맨틱 레이어 기반의 셀프서비스 BI 기능인 ‘모자이크’를 ‘스트래티지 원’ 플랫폼을 통해 제공하고 있다. AI 기반 자연어 분석과 다양한 데이터 소스를 통합한 분석 경험을 제공한다.

국내 기업들도 움직임이 활발하다. 엔코아(ENCOAR)는 ‘DV#’, ‘데이터웨어’ 등에서 논리 계층 기반의 데이터 허브 전략을 가속화하고 있으며, 생성형 AI 플랫폼 연계도 추진 중이다. 데이터스트림즈는 ‘테라원(TeraONE)’을 통해 실시간 가상화, 에지 쿼리 처리, 메타데이터 기반 논리 레이어를 구현하고 있다.

데이터 가상화는 데이터를 복제하거나 처리하는 과정 없이 데이터 분석을 가능하게 하는 제로 ETL부터 도메인별 데이터 제품을 연결하고 활용하는 아키텍처인 ‘데이터 메시’, 특화 AI 모델 학습이나 LLM 최적화를 위한 도메인 데이터 접근성 향상이 필요한 ‘도메인 특화 LLM’ 등 기술들의 기반으로 자리매김할 것으로 예상된다.

데이터스트림즈 관계자는 “AI 시대 데이터는 움직이지 않고, 원하는 순간에 분석되고, AI에 연동돼야 한다. 이를 가능케 하는 핵심 인프라가 바로 데이터 가상화다. 앞으로의 AI 경쟁력은 데이터 가상화를 얼마나 빠르고 정확하게 도입하느냐에 달려 있다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지