‘클라우드 기반 데이터 플랫폼’으로 쉽고 빠르게 데이터 분석

[아이티데일리] 데이터 활용 없이 기업의 경쟁력 향상은 불가능하다. 이는 곧 기업의 성장은 상당부분 데이터 활용에 달려있다는 것을 의미한다. 기업들이 데이터 분석 환경을 갖추기 위해 IT자원에 투자를 아끼지 않는 것도 데이터 활용을 통한 경쟁력 향상을 위해서다.

최근 들어 기업 경쟁력과 직결되는 데이터 분석 플랫폼의 인프라가 바뀌고 있다. 그동안 직접 서버를 구매해 데이터 분석 환경을 구축하던 형태에서 벗어나 클라우드 인프라 상에서 데이터 분석할 수 있는 플랫폼을 구현하기 시작한 것이다. 이러한 수요에 대응하고자 클라우드 서비스 제공사(CSP)와 클라우데라와 같은 플랫폼 기업들은 클라우드 기반으로 데이터 플랫폼을 제공하거나, 각 서비스들을 모아 데이터 분석 프로세스를 만들어주는데 집중하고 있다. 1부에서는 AWS, 2부에서는 네이버클라우드, 3부에서는 구글 클라우드와 MS, 클라우데라, 클루커스의 전략 및 솔루션을 게재한다.

[클라우드 데이터 플랫폼①] 데이터 관리 역량 부족 및 소비 패턴 변화
[클라우드 데이터 플랫폼②] 4가지 분석 과정…다양한 인프라 환경 연동
[클라우드 데이터 플랫폼③] 구글 클라우드, MS, 클라우데라, 클루커스 전략 및 솔루션

 

클라우드 데이터 플랫폼 제공사별 솔루션 특장점

엔드-투-엔드로 고객 맞춤형 플랫폼 제공

마이크로소프트(MS)는 넓게 퍼져있는 데이터센터를 기반으로 다양한 클라우드 서비스를 제공하고 있다. MS의 클라우드 서비스 ‘애저(Azure)’는 서비스형 인프라(IaaS), 서비스형 플랫폼(PaaS), 서비스형 소프트웨어(SaaS)까지 유형별로 다양한 서비스를 포함하고 있다.

MS에서 제시하는 데이터 플랫폼 파이프라인 (출처: MS)
MS에서 제시하는 데이터 플랫폼 파이프라인 (출처: MS)

MS는 클라우드 데이터 플랫폼이 엔드-투-엔드 데이터 분석 솔루션으로 이뤄졌다는 점을 강조하고 있다. MS가 제안하고 있는 데이터 플랫폼 서비스로는 가장 빠르게 인사이트를 얻을 수 있는 분석 서비스인 ‘애저 시냅스 애널리틱스(Azure Synapse Analytics)’, 빠르고 쉽게 협업이 가능한 완전 관리형 ‘아파치 스파크’ 기반 분석 플랫폼 ‘애저 데이터브릭스(Azure Databricks)’, 기업용 완전 관리형 클라우드 하둡 및 스파크 서비스 ‘HD인사이트(Insight)’, 데이터 이동 및 변환을 자동화하는 데이터 통합 서비스 ‘애저 데이터 팩토리(Azure Data Factory)‘, IoT 디바이스에서 실시간으로 데이터 스트림할 수 있는 ’애저 스트림 애널리틱스(Azure Stream Analytics)‘, 애저의 기본 데이터 레이크 서비스 ’애저 데이터 레이크(Azure Data Lake)‘ 등이 있다.

데이터 분석을 위한 4단계로 구분하면, 수집 단계에서는 ‘이벤트 허브’, ‘애저 데이터 팩토리’ 등이 적용되고, 저장 단계에서는 ‘애저 데이터 레이크’, ‘애저 시냅스 애널리틱스’ 등이 활용된다. 통합&분석 단계에서는 ‘애저 스트림 애널리틱스’, ‘애저 코그니티브 서비스’, ‘애저 머신러닝’, ‘애저 데이터브릭스’를 이용할 수 있다. 활용과 시각화를 위한 서비스로는 ‘파워 BI’, ‘애저 코스모스 DB’ 등을 들 수 있다. MS는 이처럼 수십 가지의 서비스를 고객 비즈니스 현황, 환경 등을 고려한 후 컨설팅을 통해 제공한다.

아울러 MS는 최근 각광받고 있는 수많은 오픈소스 프로젝트를 ‘애저’ 위에서 실행할 수 있다는 점도 강조한다. 가령, SQL 서버나 리눅스 서버, 컨테이너화된 솔루션에 관리용 오픈소스 기반 플랫폼인 ‘아파치 카산드라’ 및 ‘몽고DB’, ‘인스턴스 전용 애저 코스모스 DB’ 등을 연결해 타 유형의 DB나 스토지리를 적용할 수도 있다.

MS 애저의 데이터 관련 서비스 (출처: MS)
MS 애저의 데이터 관련 서비스 (출처: MS)

이에 대해 MS 관계자는 “실제로 데이터 플랫폼을 구축하는 과정에서 MS 애저의 서비스만을 고집하지는 않는다. 고객이 애저에서 지원하는 오픈소스를 원할 경우 이를 플랫폼에 적용하고 있다”면서, “개발자의 작업 속도를 높이기 위한 개발 도구와 클라우드 호스팅 옵션, 데이터 과학자, 엔지니어, 분석가들이 생산성을 높일 수 있는 다양한 분석 및 머신 러닝 도구와 같은 서비스도 연계해 제공하고 있다”고 설명했다.

 

데이터 분석에 최적화…다양한 인프라 환경도 지원

구글 클라우드는 데이터 분석 플랫폼이 단일 CSP에 종속되지 않고 여러 클라우드 환경에서 활용될 수 있도록 하는데 집중하고 있다. 김정훈 구글 클라우드 코리아 데이터 애널리틱스 스페셜리스트는 “‘구글’이라는 포털에서 수집되는 수많은 데이터들을 분석할 수 있는 서비스들을 클라우드 서비스로 개발해 사용자들에게 제공하고 있다”며, “이는 그만큼 데이터 분석에 특화된 CSP가 구글 클라우드라는 증거”라고 설명했다.

구글 클라우드의 데이터 플랫폼 프로세스 (출처: 구글 클라우드)
구글 클라우드의 데이터 플랫폼 프로세스 (출처: 구글 클라우드)

구글 클라우드는 데이터 플랫폼을 수집, 프로세스, 저장, 분석, 활용 등 5단계로 나눠 해당 단계에 맞는 서비스들을 조합해 제공하고 있다. 수집 단계 서비스로는 스트리밍 분석 파이프라인의 이벤트 수집 및 전송을 위한 서비스인 ‘클라우드 펍섭(Cloud Pub/Sub)’이 있다. 이 서비스는 규모에 맞는 고가용성과 일관된 성능을 기반으로 내구성 있는 메시지 스토리지 및 실시간 메시지 전송을 제공해준다. 이는 OSS의 ‘아파치 카프카’와 같은 기능을 하는 서비스다.

프로세스 단계에 적용될 서비스로 ‘데이터플로우(DataFlow)’와 ‘데이터프록(Dataproc)’, ‘데이터프렙(Dataprep)’ 등 3가지가 있다. ‘데이터플로우’는 대규모 데이터 세트에서 데이터 처리 패턴을 개발하고, 간소화된 스트림 및 배치 데이터 처리를 수행하는 서비스다. ‘데이터프록’은 데이터 일괄 처리, 쿼리, 스트리밍, 머신러닝에 오픈소스 데이터 도구를 활용할 수 있는 관리형 ‘스파크’ 및 ‘하둡’ 서비스로, 자동화를 통해 신속하게 클러스터를 만들고 손쉽게 관리하며 불필요한 클러스터는 사용 중지해 비용을 절감할 수 있다는 장점이 있다.

‘데이터프렙’은 분석 및 머신러닝에 사용할 데이터를 시각적으로 탐색, 정리, 준비하는 지능형 클라우드 데이터 서비스다. 이 서비스는 서버리스 방식으로 구동되며, 규모에 상관없이 작동하기 때문에 별도로 배포하거나 관리해야 할 인프라가 없다. UI 입력마다 가장 이상적인 데이터 변환을 제안하고 예측하기 때문에, 코드를 작성하지 않아도 된다는 장점이 있다.

구글 클라우드는 저장 단계 서비스로 ‘클라우드 스토리지(Cloud Storage)’와 ‘빅쿼리(BigQuery)’를 내세우고 있다. ‘클라우드 스토리지’는 스토리지 서비스로 데이터 양에 상관없이 데이터를 저장할 수 있다. 다음은 ‘빅쿼리’다. ‘빅쿼리’는 구글 클라우드의 대표적인 서비스로 서버리스 기반의 멀티 클라우드 데이터 웨어하우스 서비스다. 표준 SQL을 사용해 타 CSP의 클라우드에서 데이터를 수집해 분석할 수 있다. 이로써 유연한 분석 환경을 구성해 데이터 분석가 또는 데이터 과학자에게게 원활한 데이터 분석 환경을 제공한다. 또 ‘빅쿼리 ML’ 기능을 활용하면 구조화 또는 반구조화된 데이터를 기반으로 하는 머신러닝 모델을 빠르게 빌드 및 운용할 수 있다.

마지막으로 활용 단계에서는 ‘버텍스 AI(Vertex AI)’와 ‘루커(Looker)’를 제안하고 있다. ‘버텍스 AI’는 머신러닝 모델을 개발할 수 있는 AI/ML 통합 플랫폼이다. ‘오토ML’ 및 커스텀 코드 학습으로 모델을 쉽게 학습하고 비교할 수 있으며, 중앙 모델 저장소에 별도로 저장된다. ‘루커’는 데이터가 어느 곳에 저장되더라도 기업의 최신 버전 데이터에 접근할 수 있게 지원하는 서비스다.

삼성전자는 음성 인식 플랫폼 ‘빅스비(Bixby)’에 구글 클라우드의 ‘빅쿼리’, ‘클라우드 스패너’, ‘데이터플로우’ 등 서비스를 적용해 수집되는 데이터를 분석하고 있다. 여기에 구글 클라우드의 ‘클라우드 TPU(Tensor Processing Unit)’을 결합해 빅스비 AI 모델의 음성인식 학습을 고도화했다. 그 결과 AI 모델 학습 속도가 18배 향상됐다. 이 외에 홈플러스도 구글 클라우드의 ‘클라우드 스토리지’와 ‘빅쿼리’를 도입해 고객 인사이트를 발굴해 비즈니스 운영 효율을 개선했다.

[인터뷰] “GCP의 데이터 플랫폼으로 확장성, 유연성, 경제성 향상”
김정훈 구글 클라우드 코리아 데이터 애널리틱스 스페셜리스트
김정훈 구글 클라우드 코리아 데이터 애널리틱스 스페셜리스트

Q. 구글 클라우드의 데이터 플랫폼의 특장점은.
A. 우리 데이터 분석 플랫폼의 강점은 확장이 쉽고, 유연하며 구조화된 데이터 저장과 처리, 분석 작업을 경제적으로 수행할 수 있다는 점이다. 기업들의 데이터는 기하급수적으로 늘어나고 있다. 이러한 상황에서 스토리지와 처리 리소스를 필요한 만큼 사용해야 하고, 데이터에서 인사이트를 만들어내야 한다. 유연성이 반드시 담보돼야 하는 상황이라는 얘기다. 구글 클라우드에서는 스토리지와 데이터 처리 소스를 무제한에 가깝게, 저렴하게 제공하고 있다. 이에 따라 비용이 늘어날 것으로 예상할 수 있지만, 절대 그렇지 않다. 오히려 유연한 환경에서 빅데이터 분석과 머신러닝 모델을 개발, 학습한다면 불필요하게 들어가는 비용을 줄일 수 있다.

Q. 데이터 플랫폼에 대한 고객들의 반응은.
A. 우리 고객들은 클라우드 기반 데이터 플랫폼에 만족하고 있다. 수만 개의 기업이 DB부터 비즈니스 의사결정을 위한 분석, 미래를 예측하고 자동화하는 AI 및 머신러닝에 이르기까지 데이터의 모든 역량을 활용하는 데이터 클라우드를 구축할 수 있도록 모든 단계를 철저하게 지원한다. 특히, 업체에 종속되지 않도록 오픈소스 도구, 트랜잭션, 프로세싱 및 분석용 엔진도 선택해 사용할 수 있도록 돕고 있다. 고객의 만족도를 알 수 있는 척도가 기업 고객의 수인데, 삼성전자, 홈플러스, 기아자동차 등 국내 수많은 기업들이 현재 구글 클라우드와 협업하고 있다.

Q. 클라우드 기반 데이터 플랫폼이 주는 가치는 무엇인지.
A. 클라우드 기반 데이터 플랫폼의 가치는 데이터를 활용할 수 있는 수많은 서비스를 적용할 수 있다는 점이다. 이를 통해 새로운 인사이트를 보다 다양한 시각에서 얻을 수 있다. 오늘날 기업들은 분석이 끝난 데이터를 쉽게 활용할 수 있도록 다양한 오픈소스를 활용하고 있다. 하지만 이 오픈소스들은 지속적으로 업데이트를 해야 하고, 검증해야 하는 등 번거로운 작업을 수행해야만 한다. 이를 클라우드 서비스로 손쉽게 빠르게, 다양한 오픈소스들을 적용할 수 있도록 지원할 수 있다. 이러한 점이 클라우드 데이터 플랫폼이 주는 가장 핵심적인 가치라고 생각한다.


 

오픈 클라우드 데이터 플랫폼 ‘CDP’로 전 조직 의사결정 지원

클라우데라는 오픈소스 기반 대규모 데이터 분석 처리 SW인 ‘하둡’을 활용해 데이터 분석 방법을 제공한다. 에지부터 AI 등에서 수집되는 수많은 데이터를 인프라에 대한 제약 없이 분석할 수 있도록 지원하고 있다. 클라우데라는 ‘클라우데라 데이터 플랫폼(Cloudera Data Platform)’으로 데이터 플랫폼을 구축하고 있다. 데이터 분석에 필요한 클러스터 인프라와 SW를 AWS, MS, GCP에서 제공하고 있다.

조성현 클라우데라 솔루션 엔지니어링 매니저는 “‘CDP’는 구축, 관리, 사용이 용이한 통합 데이터 플랫폼”이라며, “IT 직원들이 요구하는 세분화된 보안과 거버넌스 정책을 통해 하이브리드와 멀티 클라우드 환경 전반에 걸쳐 쉽고 간편한 셀프 서비스 분석 기능을 제공한다”고 설명했다.

이어 그는 “CDP를 이용하는 방법은 매우 쉽다. 인프라를 준비할 필요도 없고, SW 설치와 설정 그리고 운영도 신경 쓸 것이 없다. 사용자가 할 일은 클라우데라 컨트롤 플레인에 접속해 원하는 워크로드를 실행하는 것뿐”이라며, “사용자는 워크로드의 특성을 고려해 가상머신(VM)이나 컨테이너에 배포할 수 있으며, ‘클라우데라 데이터 허브’에서 필요한 클러스터 템플릿을 선택할 수 있어 워크로드 실행 환경 구성도 빠르게 할 수 있다. 또한, 어디에 배포하건 오토스케일링 기능으로 클라우드 비용도 최적화할 수 있다”고 덧붙였다.

클라우데라의 ‘CDP’ (출처: 클라우데라)
클라우데라의 ‘CDP’ (출처: 클라우데라)

클라우데라의 ‘CDP’는 호튼웍스와 클라우데라 자체 기술을 결합해 데이터 플랫폼을 제공한다. 모든 클라우드 환경에서 비즈니스 서비스형 분석 기능을 제공한다. 실제로 AWS, MS 애저, 구글 클라우드 플랫폼 등 퍼블릭 클라우드와 유사한 환경을 토대로 오픈소스 데이터 관리 및 다양한 분석 기능을 제공하고 있다.

보안성도 높다. ‘CDP’는 ‘SDX(Shared Data Experience)’라는 서비스로 데이터들을 한 곳에 모았기 때문에 어떠한 클라우드 환경에서도 개인 정보보호 및 규정 준수, 사이버 보안 위협을 막을 수 있다. ‘CDP’는 100% 오픈소스로 구성돼 벤더 종속을 방지할 수 있다. 벤더 종속을 방지한다는 것은 데이터의 사일로화에서 벗어나 다양한 업무를 연결할 수 있고, 다양한 데이터들을 하나의 데이터 관리 플랫폼에서 관리하고 애플리케이션을 개발할 수 있다는 것이다.

‘CDP’의 핵심 서비스로는 ‘클라우데라 데이터 웨어하우스’와 ‘클라우데라 머신러닝’, ‘클라우데라 데이터 허브’ 등을 들 수 있다. ‘클라우데라 데이터 웨어하우스’는 구조화, 비정형 및 에지 소스 등에서 대규모 데이터를 수집하는 분석 서비스다. 대규모 데이터를 안전하게 수집할 수 있어, 비즈니스 분석가 팀이 데이터 웨어하우스를 빠르고 쉽게 구축할 수 있다. 특히, 온프레미스와 클라우드 간에 워크로드를 원활하게 이동해 하이브리드 및 멀티 클라우드 인프라 모델을 지원한다.

다음으로는 ‘클라우데라 머신러닝’ 서비스다. 이 서비스는 엔터프라이즈 데이터 과학자 팀이 협업 머신 러닝 작업 공간을 빠르고 쉽게 구축할 수 있다. ‘클라우데라 머신러닝’을 통해 기업은 몇 번의 클릭으로 팀을 위한 머신러닝 작업 환경 및 가상 머신러닝 환경을 구축할 수 있다. 또한, 엔드-투-엔드 머신러닝 워크플로우에 필요한 공유 데이터 및 도구에 셀프 서비스도 연동할 수 있다. ‘클라우데라 데이터 허브(CDH)’는 개발자가 엔터프라이즈 데이터를 안전하게 분석한 후 이를 다양하게 적용할 수 있도록 지원하는 분석 서비스다. 비즈니스 사례별로 애플리케이션을 빠르고 쉽게 구축할 수 있도록 지원한다.

클라우데라 ‘CDP’를 사용하는 고객으로 국내에선 LG유플러스, 삼성화재, KB국민은행 등이 있다. LG유플러스는 ‘CDP’를 통해 페타바이트에 이르는 방대한 데이터에서 인사이트를 도출하고, 고객층의 특징을 고려한 통신 서비스를 제공하고 있다. 삼성화재는 업무 효율성과 고객 만족도를 동시에 개선했다.

KB국민은행은 고객 경험을 이해하고 이를 활용해 최적의 금융 상품과 서비스를 제공하는 것이 미래 금융산업의 핵심 경쟁력이라는 판단을 갖고 CDP를 도입했다. 내?외부 데이터, 기존·신규 데이터, 정형·비정형 데이터에 대한 데이터 수집, 정제, 분석, 활용 등에 대한 데이터 전략을 수립했다.

 

고객이 직면한 문제, ‘클루커스 DAaaS’로 해결한다

클루커스는 클라우드 관리 서비스 기업(MSP)으로, MS 애저의 서비스를 컨설팅, 구축, 관리해주는 기업이다. 클루커스는 고객들의 문제해결에 초점을 맞춘 데이터 플랫폼 구축 서비스인 ‘클루커스 DAaaS’를 공급하고 있다. 많은 기업들이 데이터 플랫폼을 구축하기 위해 수집, 저장, 통합, 분석 등의 각 단계에서 별도의 오픈소스를 활용하고 있다. 클루커스는 오픈소스를 별도로 사용하기보다 클라우드 기반의 플랫폼 형태로 제안하고 있다.

클루커스의 ‘DAaaS’ 개요 (출처: 클루커스)
클루커스의 ‘DAaaS’ 개요 (출처: 클루커스)

김신영 클루커스 데이터 애널리틱스 그룹 컨설턴트는 단일한 클라우드 데이터 플랫폼을 적용하는 것이 아닌 CSP 별로 강점을 갖는 데이터 분석 서비스를 연동해야 한다는 점을 강조한다. 김신영 컨설턴트는 “일반적인 웹서비스나 게임 등의 서비스는 클라우드에 한번 종속되면 다른 클라우드로 이관하는데 상당한 어려움이 따른다. 하지만 데이터 분석의 경우 서비스에 영향을 주지 않기 때문에 클라우드 이관에 크게 어려움이 없다”면서, “그럼에도 멀티 클라우드 환경을 고려한 데이터 플랫폼을 구성해야 하는 이유는 바로 CSP별로 특화 솔루션을 보유하고 있기 때문”이라고 설명했다.

특히, 클루커스는 전체 데이터 플랫폼을 구성하는 각 단계 중에서도 분석 앞단인 수집 단계와 저장 단계, 전처리 단계에 집중하고 있다. 이 각각의 단계에선 특정한 CSP에 종속되지 않도록 다양한 솔루션들과 오픈소스 연구 개발 등을 병행하며 플랫폼을 완성해나가고 있다. 이와 관련, 김신영 리더는 “물론 어느 한 클라우드 벤더의 리소스를 선택해 플랫폼에 적용하다보면 종속될 수 있다. 하지만 이 경우 다른 CSP 벤더에도 해당 리소스는 API 형태로 호출해서 적용할 수 있기 때문에 이 같은 점도 신경써야 한다”고 말했다.

이어 그는 “고객이 사용 중인 A클라우드에서는 지원하지 않지만 B클라우드에서 강력한 기능을 제공한다고 판단되면 B클라우드에서 제공하는 기능을 활용하기 위해 일부 데이터를 옮겨서 분석하는 것도 충분히 가능하다”면서, “고객이 원하는 기능과 상황에 따라 알맞은 클라우드를 선택해 멀티 클라우드 환경을 구성하는 것이 가장 이상적인 클라우드 활용 방안이다. 이를 돕기위해 클루커스에서는 클라우드 벤더별 다양한 분석 기능 및 AI 솔루션들을 다양한 데이터로 테스트하고 있고, 각각의 클라우드의 장단점을 수집하고 있다”고 설명했다.

클루커스는 클라우드 기반의 데이터 플랫폼을 구축해주는 ‘클루커스 DAaaS(Data Analytics as a Service)’라는 서비스를 제공하고 있다. 이 서비스는 클라우드 벤더사와 상관없이 데이터를 분석할 수 있는 환경을 제공하며, 데이터 수집, 저장, 처리, 분석, 인사이트까지 데이터 분석 플랫폼의 전 과정을 제공한다. 클루커스의 ‘DAaaS’로 사용할 수 있는 DB는 ‘카산드라’, ‘MySQL’, ‘포스트그레SQL’, ‘MS SQL 서버’, ‘오라클 DB’, ‘레디스’, ‘몽고DB’ 등이다. 현재 AWS와 MS, 구글 클라우드, 네이버클라우드 등의 데이터 분석 서비스를 고객의 환경에 맞게 제공하기 위해 업무협약을 맺은 상태다. 아울러, 데이터브릭스, 스파크비욘드 등과 같은 서드파티 솔루션과도 협력을 맺고 있다.

클루커스는 이 같은 클라우드 기반 데이터 플랫폼을 구축하기 위해 데이터 분석 그룹을 운영하고 있다. 클루커스의 데이터 분석 그룹은 데이터 엔지니어(DE) 그룹과 데이터 플랫폼(DP) 그룹, 데이터 사이언티스트(DS) 그룹으로 나눠졌다. 각각의 분야에 맞는 전문 컨설턴트를 보유하고 있다.

[인터뷰] “클라우드로 데이터 플랫폼 구축은 필수”
김신영 클루커스 데이터 애널리틱스 그룹 컨설턴트
김신영 클루커스 데이터 애널리틱스 그룹 컨설턴트

Q. 클라우드 기반 데이터 플랫폼과 구축형 데이터 플랫폼의 핵심 차이는.
A. 크게 3가지다. 클라우드 기반 데이터 플랫폼은 ‘자동 확장’을 할 수 있다. 이 기능을 활용해 사용하지 않을 때 과금되지 않게 할 수 있고, 트래픽이 몰리거나 대규모 분석 작업을 할 때는 병렬로 여러 컴퓨팅 노드를 확장해 분산저장 후 분석할 수 있다. 그리고 ‘오토ML’ 기능을 통해 모델을 직접 코드로 개발하지 않고, GUI로 손쉽게 환경만 구성해 자동으로 모델을 개발하고 배포할 수도 있다. 마지막으로 NW 및 HW, SW 설치 등 환경 구성을 시스템 엔지니어 등을 거치지 않고 손쉽게 할 수 있다. 플랫폼이나 라이브러리에 대한 버전 관리를 자동으로 제공하기에 데이터 과학자, 분석가들의 업무 부담이 크게 줄어든다.

Q. 데이터 분석 결과 값에 대한 품질 차이는 없는지.
A. 클라우드와 온프레미스로 데이터 플랫폼을 구성, 분석한 결과 값의 품질차이는 대동소이하다. 활용하는 알고리즘이나 분석에 사용되는 도구는 비슷하기 때문이다. 다만, 확장성 부분이나 더 빠르게 분석하고 예측하는 측면에서는 클라우드 환경의 데이터 플랫폼이 압도적이라고 할 수 있다.

Q. 저장되는 데이터양에 따라 비용도 바뀌는지.
A. 데이터양이 늘어나면 비용도 증가한다. 하지만 이는 온프레미스에서도 마찬가지다. 그렇기 때문에 온프레미스 기반 데이터 플랫폼의 경우 데이터가 어느 정도 쌓이면 테이프를 활용해 데이터를 백업한다. 클라우드에도 테이프 백업과 유사하게 수동 혹은 자동 설정으로 ‘아카이브 스토리지’로 데이터를 보내거나, 저렴한 스토리지 서비스로 데이터를 보낼 수 있다.

비용을 절감할 수 있는 또 다른 방법으로는 전처리를 확실하게 하면 된다. 음성, 영상, 사진, 텍스트 등 수많은 종류의 데이터가 쌓일 경우 분석에 불필요한 데이터도 그 안에는 존재할 것이다. 전처리 작업을 통해 데이터 분석에 필요한 데이터만 남기게 되면, 데이터양도 줄고 비용도 절감된다.

Q. 멀티·하이브리드 환경을 강조했는데, 실제로 그렇게 구축하려는 고객이 있는지.
A. 보험사와 멀티 클라우드 기반의 데이터 플랫폼을 구성하는 작업을 진행 중이다. 고객의 데이터 레이크는 온프레미스에 두고, 데이터 분석만 MS 애저 서비스를 활용하려는 경우다. 보험사에서 취급하는 데이터는 주로 보안에 민감한 데이터라서 네트워크 암호화, 마스킹 등이 돼야 한다. 데이터 분석을 위해 개인정보가 담긴 데이터를 써야하는 경우도 있다. 하지만 이는 식별할 수 없도록 사전에 데이터를 처리하고, 클라우드로 옮긴다.

현재 금융권에서 이 같은 하이브리드 환경으로 데이터 플랫폼을 구축하기 위해 고민하고 있다. 금융권의 경우 개인정보보호법과 관련된 규정이 많아서 데이터 활용이 원활하지 않다. 최근 어떤 곳은 클라우드 데이터 플랫폼을 쓰기 위해 온프레미스 환경을 구축한 경우도 있다. 또한 금융 및 공공 등 규제 산업군의 경우 법 테두리 안에서 데이터를 최대한 분석하고 활용하고 있다.

Q. 전문성이 꽤 필요할 것으로 보이는데, 관련 팀에 대해 소개해달라.
A. 클루커스는 데이터 애널리틱스 그룹을 보유하고 있다. DA그룹은 데이터 엔지니어 그룹(DE)과 데이터 플랫폼 그룹(DP), 데이터 사이언티스트 그룹(DS)으로 구성돼 있다. 먼저 DE 그룹의 경우 MSSQL, 오라클, MySQL과 같은 RDBMS부터 몽고DB, 카산드라와 같은 NoSQL 등 DB 솔루션을 제공하고 있다. DP 그룹의 경우 모든 클라우드 데이터 플랫폼의 아키텍처를 설계하고 구축하는 서비스를 제공한다. 클라우드 데이터 플랫폼에는 주로 MS의 데이터 팩토리, 이벤트 허브, ADLS, 시냅스, DW 등을 적용하고 있다.

마지막으로 DS 그룹의 경우 AI 기반으로 고객 맞춤형 데이터 분석 및 모델 개발, 시각화 등의 서비스를 제공하고 있다. 데이터 분석의 경우 스파크비욘드, 데이터브릭스, 애저ML, 시냅스 등의 서비스를 제공하며, 데이터 시각화 측면에서는 파워BI, 데이터브릭스 대시보드, 인사이트 리포트 등이 있다. 우리는 아키텍처 설계와 데이터 분석 결과를 시각화하기까지 데이터 플랫폼의 전 단계를 지원하고 있다.

Q. 고객들의 만족도는 어떠한지.
A. 우리는 고객들이 만족할 때까지 서비스를 지원하기 때문에 고객 만족도가 높다고 할 수 있다. 최근 한 사례로 데이터 엔지니어가 없던 고객이 있었다. 그때 우리는 솔루션을 제안하기보다 플랫폼을 제안했다. 플랫폼을 어떻게 배포하는지, 데이터는 어디에 저장하는지, 분석은 어떻게 하는지에 대해 알려줬다. 클라우드 데이터 플랫폼은 사실 반드시 수작업으로 해줘야 하는 부분이 있다. 하지만 이 고객은 엔지니어가 없었다. 이에 우리가 실제로 엔지니어처럼 작업을 수행해주기도 했었다.

마지막으로, 우리는 고객들이 직면한 문제를 ‘데이터’를 통해 해결하고자 한다. ‘클루커스 DAaaS’로 데이터 분석 플랫폼을 구축하고,데이터를 더하기만 하면 고객은 비즈니스에 인사이트를 얻을 수 있을 것이다. 

저작권자 © 아이티데일리 무단전재 및 재배포 금지