IT환경 변화 따른 데이터 통합·분석 분야 새로운 화두

[컴퓨터월드] 데이터통합(DI)이란 상이한 데이터소스 간의 연결 및 통합을 통해 데이터의 연관성을 단일하게 관리함으로써 데이터를 재사용 가능하도록 만드는 일련의 작업을 뜻한다. 데이터의 정확성과 신뢰성 및 분석업무의 효율성을 높일 수 있다는 점에서 데이터통합은 비즈니스 인텔리전스(BI) 구현을 위한 핵심요소로 자리해왔다.

전 세계적으로 클라우드가 대세로 자리함에 따라, 데이터통합 관련 소프트웨어(SW) 시장에도 변화가 일고 있다. 클라우드를 포함한 다양한 환경에서의 데이터통합이 여러 기업 및 기관들에게 당면과제로 주어지면서 ‘클라우드 데이터통합’이라는 새로운 영역을 향한 경쟁이 시작된 것이다. BI분야에 불어오기 시작한 봄바람에 대해 간단히 살펴본다.

 

과거 데이터 통합(Data Integration)이란 말은 흔히 기업 내 산재된 데이터를 DW(데이터웨어하우스) 등 하나의 통합된 저장소에 모아두고 분석하기 위한 일련의 과정을 가리켰다. 2010년대 들어 기업들은 기존 DB(데이터베이스)에 보유한 정형데이터뿐 아니라 외부의 비정형데이터까지 다양한 데이터를 활용하는데 관심을 갖기 시작했고, 하둡(Hadoop)의 부상으로 본격화된 이러한 움직임은 앞으로도 IoT(사물인터넷)를 통해 더욱 가속화될 전망이다. 이처럼 빅데이터 시대를 맞아 데이터의 양과 종류가 급증하고 그 흐름도 복잡해지면서, 데이터 통합 또한 데이터 거버넌스(Data Governance) 전반을 포함하는 개념으로 확장되고 있다.

임정혜 한국인포매티카 부장은 “데이터 통합은 데이터를 한곳에 모아두는 것이 아니라 시스템 간 인터페이스로 봐야 한다”며, “기업의 다양한 시스템과 애플리케이션들은 서로 데이터를 계속 주고받을 수밖에 없으므로, 일정 규모 이상의 IT환경에서 데이터 통합은 선택이 아니라 필수”라고 말했다.


데이터통합 위한 솔루션, ETL 및 CDC

그동안 온프레미스(On-premise) 환경에서 사용돼온 데이터 통합 솔루션으로는 ETL(추출·변환·적재)과 CDC(변경데이터캡처)를 꼽을 수 있다. ETL은 데이터 소스에서 필요한 부분을 추출하고 활용하기 용이한 형태로 변환해 DW 등 대상 시스템에 적재해주는 솔루션이고, CDC는 DBMS(DB관리시스템)의 트랜잭션 로그로부터 변경된 데이터만 포착해 바로 옮겨주는 솔루션이다. ETL은 대용량 배치(batch) 연동을, CDC는 DB만을 대상으로 한 실시간 연동을 목적으로 한다.

ETL 분야에서 ‘인포매티카 파워센터(PowerCenter)’는 DB 로드 방식으로 데이터 흐름 중심의 안정성과 고가용성을, 데이터스트림즈 ‘테라스트림(TeraStream)’은 파일 로드 방식으로 단계별로 처리해 속도와 가벼움을, ‘오라클 데이터 인티그레이터(ODI)’는 ELT 아키텍처를 택해 자사 DBMS 성능을 활용한 효율을 추구하는 등 각 벤더별로 차별화됐으나, 현재는 서로 장점을 흡수하면서 점차 닮아가는 양상을 띠고 있다. 또한 이들은 ETL뿐 아니라 CDC, DQ(데이터 품질 관리), 메타데이터 관리 등도 함께 지원하는 포괄적인 데이터 통합 플랫폼에 중점을 두는 모습으로, ‘IBM 인포메이션서버(Information Server)’도 이에 해당된다.

▲ ETL 아키텍처와 ELT 아키텍처 비교 (제공: 한국오라클)

최근에는 ETL 솔루션이 하둡 연결 지원을 넘어 그 기반을 EDW(엔터프라이즈DW)가 아니라 하둡으로 삼아, 고가인 EDW의 워크로드를 줄임과 동시에 하둡의 분산병렬처리 기능을 활용하는 방향으로 최적화되는 추세다. 또한 파일시스템인 HDFS(하둡분산파일시스템)의 특성상 DBMS와 달리 데이터 수정이 제한되므로, 하둡에 데이터를 보다 효율적으로 옮기기 위해 CDC 솔루션도 함께 활용되고 있다.

윤명호 클라우데라코리아 이사는 “온프레미스 환경에서는 하둡이 데이터 통합에 따른 통합 데이터 플랫폼의 표준으로 자리하고 있어, 데이터 통합 솔루션 벤더들 역시 하둡과의 연결성에 많은 투자를 하고 있다”며, “머신러닝(기계학습)이 다시금 주목받게 된 배경에도 오픈소스 기반 빅데이터 기술이 있다. 이전과 달리 대용량 데이터에 대한 분산병렬처리가 비용효율적으로 가능해졌기 때문”이라고 설명했다.


데이터통합도 클라우드 시대

확장성, 유연성, 민첩성, 효율성 등의 장점을 지닌 클라우드는 전 세계적으로 IT환경의 변화를 일으키고 있고, AI(인공지능), IoT 등 새로운 IT트렌드의 기반이 되고 있다. 이에 최근 데이터 통합 관련 업계에서는 빅데이터에 이어 클라우드를 주목, 새로운 IT트렌드에 따라 분석을 위한 ‘클라우드 데이터 통합’ 시장이 성장을 거듭하고 있다. 클라우드를 도입한 기업들이 이를 제대로 활용하기 위해서는 기 투자된 IT환경과 새로운 클라우드 환경 간의 데이터 통합이 필수적이기 때문이다.

예를 들어 기존 온프레미스 환경에서 제공하던 서비스 자체가 클라우드 환경으로 이관되는 경우 데이터 통합 작업 전반을 단발성으로 마칠 수도 있지만, 온프레미스의 서비스가 지속되면서 데이터 분석 및 2차 서비스가 클라우드에서 이뤄지는 경우에는 새롭게 생성되거나 변경되는 데이터에 대한 통합 니즈가 지속적으로 발생하게 된다. 이는 클라우드 본연의 특징을 살려 언제 어디서든 데이터를 보고 쓰기 위해서도 요구되는 과정이라 할 수 있다.

이와 관련해 오라클이 IOUG(독립오라클사용자그룹)의 클라우드 사용자들을 대상으로 조사한 결과에 따르면, 응답자의 40%는 클라우드와 온프레미스 간에 데이터를 연계하고 있고, 특히 37%는 실시간 데이터 연동이 필요하다고 답했다. 클라우드 환경과의 데이터 연계를 시도했으나 실패한 경험이 있다는 응답자는 절반이 넘었다. 클라우드의 단편적인 사용에서 벗어나 시너지를 확대하기 위해서는 클라우드와 온프레미스 또는 클라우드 간의 데이터 통합이 필요하다는 인식이 확대되고 있는 것이다.

이형욱 한국오라클 상무는 “클라우드는 이제 전 세계적인 대세고, 클라우드를 포함한 다양한 환경의 데이터 통합 역시 필연적으로 뒤따르게 된다. 스마트폰으로 데이터를 주고받는 것에 익숙해진 것처럼, 앞으로 클라우드 전환과 데이터 통합은 기업에게 자연스러운 일이 될 것”이라며, “클라우드 환경의 통합에 있어서는 클라우드 솔루션 자체와 통합을 제공하는 기술의 양 측면에서 서로 개발되고 있다. 만약 통합이 어려운 클라우드 환경을 고집한다면 결국은 시장에서 도태되는 결과를 초래할 것”이라고 전망했다.


클라우드 데이터통합도 ETL과 CDC로

기존 온프레미스 환경에서처럼 클라우드 환경과의 데이터 통합이 이뤄지기 위해서는 데이터를 통합할 수 있는 표준 기술들과 이를 연계해주는 기능이 제공돼야 한다. 따라서 클라우드 데이터 통합에도 기존과 마찬가지로 ETL과 CDC가 핵심적인 역할을 담당하게 된다. 대부분의 경우 전반적인 처리를 위해 준실시간 형태의 ETL이, DB접근이 가능한 환경에서 실시간 변경분만을 연동한다면 CDC가 쓰인다. 인포매티카의 경우 세일즈포스닷컴에 CDC 기능을 지원하고 있다.

신용환 한국오라클 부장은 “앞서 클라우드를 도입한 고객들이 상이한 환경의 데이터 통합을 시도했으나 잘 안 됐다는 이야기를 종종 접한다. 많은 기업들도 동일한 고민을 안게 될 것이므로 이제 해결책을 고민해볼 때”라며, “분석을 위해서는 다양한 데이터의 통합이 요구되며, 적잖은 비용과 구축기간을 필요로 한다. 이에 오라클은 이 자체를 클라우드 서비스화한 ‘오라클 빅데이터 프리퍼레이션 클라우드 서비스(BDPCS)’도 제공하고 있다”고 덧붙였다.

아울러 각종 SaaS(서비스형SW) 애플리케이션 및 클라우드 기반 서비스의 도입이 늘어남에 따라, ETL을 통해 온프레미스 애플리케이션에서 데이터를 가져와 클라우드 애플리케이션에서 실시간으로 사용할 수 있게 하는 애플리케이션 데이터 통합에 대한 니즈도 증가하고 있다. 또 클라우드 MDM(마스터데이터관리) 등 클라우드 환경에서의 데이터 관리 전반에 대한 수요도 지속적으로 늘어나고 있다.

▲ 가트너 2016 iPaaS 부문 매직쿼드런트

이와 관련해 최근 가트너도 PaaS(서비스형 플랫폼) 가운데 따로 ‘iPaaS(Integration PaaS)’ 분야에 대한 보고서를 새롭게 내놓고 있다. iPaaS는 애플리케이션, 데이터 및 프로세스의 통합 프로젝트를 위한 플랫폼을 제공하는 클라우드 서비스로 정의되며, ESB(Enterprise Service Buses), 데이터 통합 도구, B2B 게이트웨이, 매니지드 파일 전송 제품, API 관리 플랫폼 등의 기능들을 조합해 제공한다. ‘델 부미(Dell Boomi), ‘인포매티카 클라우드’, ‘오라클 인티그레이션 클라우드 서비스(ICS)’, ‘IBM 웹스피어 캐스트 아이언 라이브(WebSphere Cast Iron Live)’, ‘SAP HANA 클라우드 인티그레이션(HCI)’ 등이 이에 해당된다.


클라우드 데이터통합의 분류

클라우드 데이터 통합은 클라우드 내 통합과, 온프레미스 환경이나 타 클라우드 서비스와 같은 클라우드 외부와의 통합 등 크게 두 가지로 나눌 수 있다. 클라우드 내 데이터 통합의 경우 기존 온프레미스에서의 데이터 통합과 큰 차이가 없으며, 순수 클라우드 사용자를 위해 보다 편리한 환경이 제공된다. 복잡한 설치나 전문가들에 의한 소스 데이터 연결, 통합을 위한 고도의 ETL 개발, 디자인, 프로세스 정의 등이 없이도 데이터 통합이 가능하다. 이에 일정 기간만 필요한 통합이나 부서 혹은 개인의 업무를 지원하기 위한 통합에도 활용될 수 있다.

이현호 한국IBM 부장은 “클라우드 내 데이터 통합으로는 IoT 데이터 분석을 위한 분석DB로의 통합, 비정형데이터 분석을 위한 클라우드 하둡으로의 통합, 클라우드 내 트랜잭션 데이터 분석을 위한 클라우드 DW로의 통합 등을 들 수 있다”며, “최근 애리조나주립대는 대학스포츠경기에서 적극적인 응원을 펼치는 관중구역에 선물을 증정하는 이벤트를 마련, 경기장 곳곳의 소리 센서에서 수집된 소음 정보를 IBM 클라우드에서 저장·분석하기 위한 실시간 통합을 구현했다. 관중의 흥분도는 물론 경기장의 안전과 보안 등을 분석해 관중들에게 가치 있는 서비스를 제공함으로써 성공적인 비즈니스로 이어졌다”고 예를 들었다.

▲ 클라우드-온프레미스 데이터통합 도식 (제공: 데이터스트림즈)

데이터 통합 관련 업계에서 특히 주목하는 분야는 클라우드와 온프레미스 간 통합, 서로 다른 클라우드 서비스 간 통합 등 클라우드 외부와의 데이터 통합이다. 데이터센터(IDC)의 위치와 같은 물리적인 차이로 인해 인터넷을 통한 데이터 전송을 필요로 하며, 프라이빗 클라우드와 퍼블릭 클라우드를 결합한 하이브리드 클라우드나 또는 같은 클라우드 서비스라도 각 데이터가 존재하는 곳이 떨어져있을 경우에도 이에 해당된다.

기존 온프레미스 데이터 통합에서 네트워크 및 보안 관련 문제까지 추가적으로 고려해야 하는 셈으로, 이는 클라우드 데이터 통합의 성공적인 구현을 위한 핵심요소 중 하나로 꼽히고 있다. 이에 관련업계에서는 클라우드 데이터 통합 과정에서의 데이터 유출이나 데이터 유실 등 문제를 해결하기 위해 SSL과 같은 보안 인증과 데이터 암호화 및 고속 데이터 이동 기술 등을 적용하면서 노력을 지속하고 있다.

천승태 데이터스트림즈 연구소장은 “클라우드 데이터 통합은 이를 준비하는 업계도 이제 첫걸음을 시작하는 단계고, 시장도 아직은 기술적인 성숙을 기다리는 상황이다. 특히 네트워크 환경의 차이가 관건으로, 이는 보안은 물론 데이터 품질과도 직결된다”며, “현재 업계에서는 이러한 문제를 완벽히 해결해 시장을 선점하기 위해 경쟁하는 상황이다. 이밖에 클라우드 플랫폼들이 클라우드상 데이터 송수신에 별도 비용을 산정하고 있는 점도 고려해볼 문제”라고 짚었다.

▲ '인포매티카 클라우드' 시큐어 에이전트 아키텍처 (제공: 한국인포매티카)

국내 클라우드 데이터통합 시장의 당면과제

국내 클라우드 데이터 통합 관련 시장의 경우에는 다른 분야의 클라우드 관련 시장에도 해당되는 근본적인 문제가 남아있는데, 이른바 ‘클라우드 발전법’이 발효된 지 반년여가 흘렀음에도 글로벌 시장과 달리 클라우드 확산이 더디게 진행되고 있다는 점이다. 클라우드 도입 시 프라이빗 클라우드가 선호되면서 클라우드 구축 시장은 조금씩 성장하고 있으나 클라우드 서비스 및 관련 솔루션 시장에서는 별반 달라진 점을 찾기 어려운 실정이다. 이는 각 산업별 규제가 클라우드 시스템의 확장을 막는 경우가 많고, ‘클라우드 발전법’과 대치되는 법령도 상당수 남아있기 때문이다.

특히 당초 클라우드 확산을 이끌 것으로 기대됐던 공공부문에서 지지부진한 모습을 보여 문제로 지적되고 있다. 공공기관의 클라우드 서비스 구축에 도입되는 솔루션에는 그 획득에 적잖은 비용과 시간이 소요되는 CC인증이 요구되고, 공공기관에 의무화된 망분리로 인해 인터넷 이용이 필요한 퍼블릭 클라우드는 도입 자체가 제한적이며, 보유 데이터도 중요도가 아닌 기관별로 분류돼 중앙행정기관의 경우 정부통합전산센터의 ‘G-클라우드’만 택할 수 있는 등의 까다로운 규제들에 의해 발목을 잡힌 것이 그 원인이다.

따라서 국내 클라우드 확산을 위해서는 이러한 제도적인 문제에 대한 본격적인 논의와 해결이 조속히 이뤄질 필요가 있으며, 정부에서도 관련 규제 개선에 나서는 모습을 보이고 있다. 지난달 열린 K-SW포럼에서 서석진 미래부 SW정책관(국장)은 “본격적인 클라우드 확산을 위해, 이전에는 규제라고 여겨지지 않았던 타 부처의 기존 법령들까지도 검토 중”이라고 밝혔다.


BI분야에 부는 봄바람

국내 데이터 통합 관련 업계에서도 클라우드 데이터 통합을 새로운 먹거리로 삼아 미래를 향한 다양한 행보를 보이고 있다. 국내 시장에서 당장 많은 수요를 기대하기는 어려울지도 모르지만, 클라우드로의 전환도, 또 이를 위한 데이터 통합도 결국 필연적인 흐름이라는 것이 관련업계의 중론이다.

마도현 한국오라클 상무는 “기존 CDC인 오라클 골든게이트(GoldenGate)와 유사한 콘셉트로, 오라클 온프레미스와 타 클라우드 서비스 간의 데이터 통합을 이뤄주는 신제품을 상반기 내 공개할 예정”이라며, “클라우드 데이터 통합은 기존의 단순한 소스와 타깃에서 벗어나 환경 자체가 물리적으로도 확대되고 실제로 데이터 특성도 달라지므로 오라클도 이에 발 빠르게 대응하고 있다. 특히 이번 신제품이 관련 시장에 기폭제가 될 것으로 기대한다”고 말했다.

이현호 한국IBM 부장은 “클라우드 데이터 통합 서비스는 비즈니스 업무 사용자가 어떤 유형의 데이터라도 원하는 데이터를 쉽게 찾고, 적시에 정확하고 신뢰성 있는 데이터로 만들어 비즈니스 의사결정을 빠르게 할 수 있도록 돕는다”며, “데이터 통합 관련해 IBM은 올해 이후 아파치 하이브(Hive), IBM 왓슨 애널리틱스(Watson Analytics) 등 좀 더 많은 데이터소스를 지원하고, 데이터 변경, 데이터 마스킹, 데이터 표준화, 컬럼 배열 변경, 빠른 속도를 위한 IBM 아스페라(Aspera) 지원, 스파크 스트리밍(Spark Streaming) 강화 등을 통해 복잡한 통합 요구사항을 지원할 수 있도록 할 계획”이라고 설명했다.

임정혜 한국인포매티카 부장은 “글로벌 시장에서 각광받고 있는 인포매티카 클라우드를 국내 시장에는 늦게 소개하게 된 이유에는 국내 클라우드 확산이 다소 더디게 진행되고 있다는 점도 있었다. 국내 시장에서 고객들의 니즈가 점차 늘어남에 따라 이제 한국인포매티카도 클라우드 데이터 통합 시장 공략에 시동을 걸었다”며, “데이터 통합 전문기업 입장에서는 한 번의 작업으로 끝나는 온프레미스와 달리 구독형으로 꾸준히 수익을 낼 수 있고 업셀(up-sell)에도 용이하다는 측면이 클라우드의 장점”이라고 짚었다.

천승태 데이터스트림즈 연구소장은 “인터넷을 통하게 돼 불안정할 수 있는 환경에서 이를 극복하고 데이터 통합이 이뤄질 수 있도록 기술적인 대안을 제시하는 것을 올해 최우선과제로 놓고 있다. 자사 ETL 테라스트림 및 CDC 델타스트림(DeltaStream)의 기술은 물론, 데이터 전송보장, 데이터 암호화, 데이터 압축 등의 기술도 적용할 방침”이라며, “해당 솔루션의 개발은 완료 단계로, 올 하반기에는 클라우드 시장이 활성화된 일본 시장부터 공략을 시작한다는 전략이다. 선제적인 대응으로 관련 시장의 선점을 꾀할 것”이라고 밝혔다.

윤명호 클라우데라코리아 이사는 “특정 클라우드 서비스 벤더에 종속되지 않기를 원하는 고객을 위해, 빅데이터 벤더로서 어떤 클라우드 환경에서도 빅데이터 플랫폼을 동일한 경험으로 손쉽게 설치·활용 가능하도록 제공하는 것이 자사 클라우드 데이터 통합 관련 목표”라며, “이것이 곧 클라우드상 하둡 배치(deploy) 자동화 도구인 클라우데라 디렉터(Director)를 선보인 이유로, 아마존웹서비스(AWS) 및 구글 클라우드 플랫폼(GCP)과는 이미 통합을 마쳤고 MS 애저(Azure)와의 통합도 곧 완료 예정이다. 또 SQL온하둡(SQL on Hadoop)인 임팔라(Impala)의 경우 AWS S3와 같은 오브젝트 스토리지에도 적용 가능하도록 할 계획”이라고 덧붙였다.

이제는 클라우드 시대로 접어들었음이 완연하게 느껴지는 현 시점에서, 지능정보 분야를 미래 먹거리로 삼고자 하는 우리에게 있어 ‘클라우드 데이터 통합’은 그 기반을 닦는 일이 될 것이다. 클라우드의 확산과 함께 국내 BI 분야에도 새로운 봄바람이 불어오기를 기다린다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지