박민지 클루커스 데이터분석 그룹 컨설턴트

[아이티데일리] 본지(컴퓨터월드/IT DAILY)가 지난달 25일 양재동 엘타워에서 ‘제18회 2021 데이터 컨퍼런스’를 개최했다. 이날 행사는 ‘성공적인 하이브리드 데이터 플랫폼을 위한 A to Z’라는 주제로, 각계 전문가와 기업들이 다양한 데이터 관련 솔루션들과 사례들을 공유하며 성공을 위한 인사이트를 공유했다.

클라우드의 영향력이 증가하면서 기업들의 IT 인프라가 온프레미스와 클라우드를 아우르는 하이브리드 환경으로 옮겨가고 있다. 하이브리드 환경에서는 데이터가 생성 및 활용되는 포인트가 증가해 관리해야 할 범위가 늘어나면서 전 세계 기업들이 자사의 데이터 관리 역량을 재차 점검하게 만든다. 아무리 정확한 데이터 분석 시스템을 갖추고 있다고 하더라도 원하는 데이터를 적시에 찾고 활용할 수 없다면 무용지물이기 때문이다.

이번 ‘2021 데이터 컨퍼런스’는 복잡한 하이브리드 IT 환경에서 데이터를 손쉽게 찾고 활용할 수 있는 전략을 제시하기 위해 마련됐다. 또한 마이데이터와 메타버스, 그래프DBMS 등 최신 IT 기술과 트렌드를 데이터 관점에서 살펴보는 시간도 준비됐다.

트랙1의 첫 번째 세션은 박민지 클루커스 데이터분석 그룹 컨설턴트가 ‘클라우드 데이터, 제대로 활용할 수 있는 3가지 원칙’에 대해 발표했다.

데이터 분석이 비즈니스 혁신을 위한 필수 요건으로 자리잡으면서 데이터 아키텍처를 새롭게 설계·구축하려는 수요가 많아지고 있다. 특히 머신러닝과 AI 기술을 활용할 수 있는 분석 시스템 마련, 실시간 데이터 분석을 위한 스트리밍 데이터 파이프라인 구축 등 고도화된 기술 수준을 필요로 하는 요구사항도 늘어나고 있다.

박민지 컨설턴트는 “데이터 분석에 대한 고객들의 요구사항이 다양해지고 있으며, 프로젝트 현장에서는 고객들의 요구를 반영해 다양한 아키텍처를 제안하고 있다. 이는 워크로드에 따라 데이터 웨어하우스(DW), 데이터 레이크, 데이터 레이크하우스 등 3가지 아키텍처로 분류할 수 있다”고 설명했다.

박민지 클루커스 데이터분석 그룹 컨설턴트
박민지 클루커스 데이터분석 그룹 컨설턴트

DW는 전통적이면서 가장 일반적인 형태다. 데이터 소스 중에서 정형 데이터를 통합해 설계한다. 스테이지 구성을 통해 데이터 마트와 BI까지 일괄적으로 구축하는 경우가 많다. 온프레미스로 구축하는 경우도 많지만, 클라우드로 구축할 경우 CSP들이 제공하는 DW 엔진과 서비스들을 활용할 수 있다. AWS의 ‘레드시프트(Redshift)’, MS의 애저 시냅스(Azure Synapse Analytics)’, 구글의 ‘빅쿼리(BigQuery)’ 등이 대표적이다.

박민지 컨설턴트는 제조 분야의 K사가 클라우드로 DW를 구축한 사례를 소개했다. K사의 핵심 요구사항은 ▲BI 대시보드 구축 ▲복수의 IDC에 분산된 DBMS를 대상으로 하는 통합 DW 구축 등이었다. 실시간 분석이 필요하지는 않아서 스트리밍 파이프라인을 구축할 필요는 없었기에 ETL 기반의 배치 처리가 가능하도록 설계했다. 기존에 온프레미스 환경에서 사용하고 있었던 DW 엔진이 있었지만, 장기적인 클라우드 전환을 위해 구글의 빅쿼리로 전환하는 프로젝트를 진행 중이다.

DW는 관련 기술이 풍부하고 비교적 저렴한 비용으로 효율적인 시스템 구축이 가능하기는 하지만, 비정형 데이터나 실시간 분석 등에 제약이 있다는 한계를 갖는다. 이 경우 DW 대신 데이터레이크 구축을 고려하는 게 좋다. 데이터레이크는 정형·비정형·반정형 등 데이터의 종류를 가리지 않고 HDFS 중심의 레이크 스토리지에 데이터를 적재한다. 여기에 AI와 머신러닝 기술을 적용하거나 실시간 데이터 분석이 가능하도록 스파크(Spark)나 카프카(kafka) 등 하둡 생태계 기술들을 활용한다.

그러나 데이터레이크 역시 완벽하지는 않다. 트랜잭션에 ACID(Atomicity, Consistency, Isolation, Durablility)를 보장하지 않고, DW보다 훨씬 복잡한 아키텍처를 필요로 한다. 만약 데이터레이크의 장점을 유지하면서 ACID를 보장받고 싶다면 데이터레이크하우스를 고려할 수 있다. 박민지 컨설턴트에 이어 발표에 나선 임상배 데이터브릭스코리아 솔루션 아키텍트는 데이터레이크 트랜잭션에 ACID를 보장하고 성능을 최적화한 ‘델타레이크(Deltalake)’를 소개했다. ‘델타레이크’를 통해 데이터레이크의 한계를 보완할 수 있을 뿐만 아니라, 스트리밍과 배치 처리를 통합해 보다 편리한 사용성을 보장한다.

박민지 컨설턴트는 “빅데이터 아키텍처를 구현하고 싶은 조직은 결국 DW, 데이터레이크, 레이크하우스 등 3가지 아키텍처에서 크게 벗어나지 않을 것”이라며, “각각의 장점과 단점을 이해하고 가공하려는 데이터 요건을 정리해 최적의 아키텍처를 구성해야 한다”고 조언했다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지