모든 데이터 통합과 깊이 있는 분석자료 제공 계획

CDM은 디아지오의 정보전략의 하나로써 자체 개발된 데이터 웨어하우스의 구조 및 구축 방법에 대한 통합 솔루션이며, 비즈니스 데이터를 표준화하고, 통합하고, 검증된 정보로 만들어 준다.

주류 시장도 근래 들어 소비 패턴이 다양해지고 있고 사람마다 선호하는 브랜드도 여러 유형으로 나뉘어지고 있어 소비 성향을 신속 정확하게 파악하는 것이 중요한 이슈가 되고 있다.

디아지오코리아는 한때 국내 위스키 시장의 80%를 점유했었지만 지금은 주류회사들의 경쟁이 치열해져 근소한 차이로 1위를 지키고 있다(현재 약 35%). 주류 시장도 근래 들어 소비 패턴이 다양해지고 있고 사람마다 선호하는 브랜드도 여러 유형으로 나뉘어지고 있어 소비 성향을 신속 정확하게 파악하는 것이 중요한 이슈가 되고 있다.

IS의 업무 여건 변화
기존 환경에서는 IS가 직접적으로 현업을 지원하여 비즈니스 전략과 목표를 달성하는데 적극적이었지만, 기초 정보(Back Data) 취합이 잘 안되고, 데이터의 정확성이 낮아 정보로서의 데이터를 필요로 하는 현업의 요구를 수용하는데 어려움이 있었다. 또한 각 시스템과 현업의 업무에서 발생하는 데이터를 분석하고 분석된 정보를 공유할 수 있는 기술적인 솔루션이 없었다. 이에 따라 다양한 리소스 채널을 통합하고, 데이터의 정확성을 확보하기 위한 추가적인 작업을 추진할 필요성이 생겼다.

Global적인 데이터 통합의 필요
디아지오코리아의 자체 경쟁에 대한 대비책뿐만 아니라, 글로벌 기업으로서 각국의 판매량에 대한 체계적이고도 일관된 정보의 통합이 필요하게 되었고, 이를 뒷받침하기 위한 방안이 Common Data Model(CDM) 이라는 데이터 웨어하우스 구축이다.
CDM은 단순히 DB의 스키마나 테이블 구조만 가지고 있는 것이 아니라, 데이터 웨어하우스를 구축하는 방법 자체이며 전략이라고 하겠다.

CDM
CDM은 디아지오의 정보전략의 하나로써 자체 개발된 데이터 웨어하우스의 구조 및 구축 방법에 대한 통합 솔루션이며, 비즈니스 데이터를 표준화하고, 통합하고, 검증된 정보로 만들어 준다.
또한 정보를 관리하고 정보의 전달(Delivery)과 개척(Exploitation)을 통하여 비즈니스 리더십을 제공해 준다. 앞으로 CDM이라고 표현하는 것은 CDM Black-Box라고 표현된 부분 즉, 설계와 모델링, 구축 등에 관계된 부분만을 말한다고 보면 될 것이다.

- CDM은 프로세스 중립적
소스 데이터는 각각의 시스템과 애플리케이션에 맞춰진 데이터이며, 그러한 시스템, 애플리케이션 프로세스에서 생성된 데이터는 비즈니스 프로세스에 필요한 데이터로는 적합하지 않다. 비즈니스 프로세스에 필요한 데이터로의 변환을 위하여, CDM은 프로세스 중립적인 구조를 가지게 된다.

애플리케이션 프로세스 지향적이던 트랜잭션 데이터는 정규화를 거쳐서 메타 데이터(Meta Data)와 데이터(Data Points)로 구분되어지는 일반적인 오브젝트로 CDM 트랜잭션 리포지토리에 저장되어 지고, CDM 트랜잭션 리포지토리에서 추출되어진 데이터는 디멘젼에 연관된 비정규화 된 데이터로 저장되어서 비즈니스 정보를 공급하기 위한 데이터 마트의 생성에 이용된다.

- 다섯 단계로 구분되어 지는 CDM
CDM은 PO, SI, CDM, SO, PB 등의 다섯 단계로 구분 되어지며 실제로 SI와 CDM 단계가 가장 중요한 역할을 한다. 이 두 단계를 Common Design Area라 하며, 글로벌 아키텍처에 따라 설계되었고 로컬에서 바꿀 수 없는 구조를 하고 있다.

1. PO 단계는 원천 소스로부터 자료를 DW로 올리는 첫 단계이며, 이때 과거 자료와의 비교를 통하여 추가(Insert)할 데이터인지 수정(Update)할 데이터인지를 판단하게 된다. 대개의 PO 단계의 테이블들은 소스 데이터와 1:1 매핑이 가능하며, 단순한 Storage 개념으로 적용된다.

2. SI 단계는 PO 단계로부터 변경된 데이터만 추출하여 CDM 구조에 맞는 형태로 가공되어진 데이터를 가지고 있는 단계이다. CDM에 들어가기 전의 임시 버퍼 역할을 하게 되며, 모든 단계가 끝난 후 SI 단계에 있는 데이터는 지워진다.

3. CDM 단계는 SI 단계로부터 들어오는 모든 데이터를 저장하는 곳이며, 전체 Data Warehouse의 핵심적인 부분으로 모든 테이블들이 서로 외래키(FK)를 가지고 있는, 꽤 복잡한 구조이다. 일부의 마스터성 데이터와 모든 트랜잭션 데이터가 누적되어 들어가 있다. 또한, 전세계 모든 디아지오 회사들이 동일한 아키텍처를 가지고 있다.

위의 <그림4>에서 보여지는 것은 CDM의 프로세스 중립적인 구조로 들어온 소스 데이터가 어떻게 메타 데이터와 데이터 포인트 부분으로 나뉘어 지는지를 보여 주고 있다. SI 단계와 CDM 단계의 테이블들이 이러한 구조를 가지고 있게 된다. 일반적인 데이터는 메인 테이블이 되며, 그 데이터와 속성과 연결 구조 등이 각각 프로퍼티(Properties)와 링크(Links)라는 데이터 포인트 부분이 된다. 프로퍼티와 링크는 또한 그것이 의미하는 바를 메타 데이터 부분의 타입(Type)과 하이라키(Hierarchy) 속에 가지게 된다.
예를 들어, 고객 정보라는 것을 PARTY 라는 CDM의 메인 테이블 속에 저장한다면, 그러한 고객의 속성들(주소, 전화번호 등과 같이 시계열 적인 부분)은 프로퍼티에 저장되어 지며, 고객들과의 관계와 연결 구조(자회사, 모회사, 담당 영업 사원)등은 링크에 저장되게 된다. 그리고, 주소, 전화번호, 담당영업사원 등을 나타내는 코드들은 타입과 하이라키에 저장되게 된다.

4. SO 단계는 CDM으로부터 데이터를 추출하여 모든 디멘젼(Dimension)과 팩트(Fact) 테이블을 생성하는 임시 버퍼 역할을 하는데 단지 현재 시점의 변경된 데이터만 가지게 되며, SI와 동일하게 모든 단계가 끝난 후 저장된 데이터는 지워진다.

5. PB 단계는 완전하게 비즈니스 디멘젼과 관계된 팩트로 데이터가 저장되어 지며, 전체적으로 모든 히스토리 데이터를 가지게 된다. PowerPlay로 사용자들이 보고자 하는 형태에 맞게 가공되는 단계이다.

시스템 개요
ETL(Extraction Transformation Loading)
우리 회사는 JDEdward ERP 시스템을 근간으로 하고 있으며, 여기서 생성된 자료와 각 개인들이 액셀을 이용하여 가지고 있는 많은 수의 다양한 소스 파일들이 존재하고 있는데, 이들 소스와 CDM내 단계별로 데이터를 추출하는 것은 Sagent라는 ETL 툴로 200여본이 넘는 Plan(Sagent 프로그램 단위)을 개발하여 사용하고 있다. 실제적인 작업은 배치 작업(Sagent Automation 활용)으로 묶어서 모든 사용자들이 접근하지 않는 시간대인 새벽에 실행하여 데이터를 가져오고 있다. 아직까지는 시간대가 적절하지만, 점차 CDM의 영역을 넓혀 나가거나(영업 정보외에 재무나 마케팅 정보 등)하면, 시간대의 안배가 중요하게 작용할 수 도 있다.

OLAP
OLAP은 Cognos사의 PowerPlay를 사용하여 현업에게 정보를 제공하고 있다. 회사 내의 영업 조직은 전국적으로 분포되어 있기 때문에, 모든 사용자들의 PC에 C/S 버전의 PowerPlay를 설치하고 관리하기가 쉽지 않아서 Web 버전인 Cognos Upfront를 이용했고, 본사내에 있는 사용자들은 선별하여 C/S 버전을 설치했다.

Data Quality 이슈
어디서나 마찬 가지로 데이터 웨어하우스를 구축하다 보면 가장 중요한 이슈가 되는 것이 바로 데이터의 품질 문제이다. 우리 회사도 예외는 아니어서 중복과 누락된 데이터가 생기고, 또한 도메인(데이터 컬럼의 정의)에 맞지 않는 데이터도 있었다. 특히 CDM의 특징에 따라 소스 시스템(JDE)에서는 필요 없었던 데이터(소스 시스템에서는 그 레코드를 형성하는데 아무런 지장이 없던)가 CDM에서는 꼭 필요한 경우가 있었다.
JDE에 있는 각 모듈들의 데이터 중에서도 ODBC를 통해서도 한글 변환이 되지 않는 경우가 있어(JDE 내에서 캐릭터 타입이 한국어가 아닌 경우로 셋팅된 경우), JDE 내에서 한글로 변환하여 그 데이터를 추출하였다.
소스 데이터가 액셀과 같은 일반 Flat File일 경우에 있어서는 CDM과의 구조적인 차이로 인한 문제가 발생하였는데, 액셀 자료가 당월의 데이터만 가지고 있어서, 현업에서 지난달의 자료를 고쳐서 업데이트 하면 CDM에서는 중복 에러로 처리되는 경우가 있었다.
정보를 제공하는 과정에 있어서 전체적인 문제는 사용자가 얼마나 시스템의 특성을 이해하느냐는 것이다. 현재 PowerPlay로 나타낼 수 있는 자료는 수치들로 구성된 분석형 자료들인데 사용자는 단순한 보고서의 리스트성 자료를 요청하기도 했었다.
이와 같은 Data Quality의 문제는 IS가 해결해야 할 과제가 아니라 바로 비즈니스적인 과제였으므로 이를 해결하기 위하여 비즈니스 파트(현업)와의 협의가 상당히 중요한 과제로 떠 올랐고, 현업에 대한 사용자 교육과 요구 사항의 수렴에 있어서 처음부터 이러한 문제들에 정확한 의견 교환을 통하여 많은 부분을 해결하였다.

파이낸스 프로젝트 진행
현재 CDM은 JDE 상에서의 영업 정보(Sales Information)를 가지고 와서 보여 주고 있는데, 여기서 나오는 정보(당월 매출 현황 및 전년 대비 증감율 등)가 주로 활용되고 있으며, 여기에 액셀 자료인 시장점유 정보도 포함 시켜 분석하고 있다.

한편 파이낸스 관련 정보(재무, 회계) 등을 포함하는 프로젝트를 내년까지 진행하여 JDE가 가지고 있는 대부분의 자료를 활용할 계획이다. 뿐만 아니라 CRM 시스템을 통해서 들어오는 각종 2차 거래처의 정보까지 포함하여, 회사 내의 모든 데이터의 통합과 깊이 있는 분석 자료를 제공할 계획이다. 이렇게 하면 글로벌 BI 전략(Global BI Strategy)의 1차적인 목표를 어느 정도 충족했다고 볼 수 있을 것이다.

디아지오코리아는 과거 두산 시절부터 동종 업계의 정보화를 주도해온 데 이어 최근에는 유일하게 데이터 웨어하우스와 BI, CRM을 갖춘 회사가 됐다. 물론 글로벌적인 관점에서는 아직도 해야 할 일이 상당히 많이 남아있고, 전문가가 보기엔 BI 시스템을 제대로 구축했다기 보다는 이제부터 시작하는 입장이라고 표현해야 할 것이다. 하지만 점차 심화되는 경쟁 상황에서 보다 분석적이고 비즈니스 결정에 도움이 되는 BI 시스템을 갖추지 못한 업체들이 아직도 많이 있다고 보면 그리 늦은 단계가 아니라 적절하다는 판단도 든다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지