데이터 주도적인 운영을 위한 최적의 데이터 전략

[아이티데일리] 데이터를 효과적으로 수집·저장·활용하는 것은 모든 기업들이 마주하고 있는 최우선 과제다. 데이터는 기업이 단기적인 비즈니스 결정을 내릴 수 있도록 지원할 뿐만 아니라, 때로는 미래를 예측하고 전사적인 혁신을 일으키기 위한 근거가 되고 있다. 이에 따라 전 세계 기업들은 보다 많은 데이터를 효과적으로 수집하고 분석하기 위해 다양한 데이터 전략을 수립하고 있다.

전 세계 기업들이 데이터를 효과적으로 활용할 수 있도록 돕는 국내외 벤더사들을 통해, 이들이 제시하는 최적의 데이터 전략에 대해 들어봤다.

① 전사 데이터 아우르는 ‘싱글 뷰’ 갖춰야
② 데이터 레이크, 활용 어렵지만 쓰임새 높아
③ 국내외 데이터 플랫폼 기업별 최적의 전략

 

 

 

 

AWS는 기업들의 부서별로 산재된 DB들을 통합 관리하고 보안 및 거버넌스 관리를 개선하기 위해 ‘아마존 S3(Amazon Simple Storage Service, Amazon S3)’ 기반의 데이터 레이크 전략을 도입해야 한다고 설명했다.

‘아마존 S3’는 데이터의 종류나 형태에 제한 없이 안전하게 저장할 수 있는 오브젝트 스토리지다. 특히 스토리지에 대한 접근 권한을 상세히 설정할 수 있어, 기업 내 모든 데이터를 저장하고 모든 사원들이 접근하게 되더라도 안전하게 데이터를 저장 및 관리할 수 있다. 사용자뿐만 아니라 ‘아마존 S3’에 연결돼야 하는 애플리케이션에 대한 접근권한 설정이 가능해 유연한 서비스 운영이 가능하다. 이러한 접근권한 관리는 이미 별도의 서비스로 개발돼 있기 때문에, 도입 기업에서 생각하는 거버넌스 전략이 있다면 컨설팅을 통해 최적의 형태로 개발할 수 있다.

특히 ‘아마존 S3’ 기반의 데이터 레이크 구축을 고민하는 기업들을 위해, 페타바이트 단위의 데이터들을 손쉽게 ‘아마존 S3’로 옮길 수 있는 다양한 서비스들이 있다고 설명했다. ▲온프레미스 환경의 SW 어플라이언스를 클라우드 상의 ‘아마존 S3’로 손쉽게 이전할 수 있는 ‘AWS 스토리지 게이트웨이(AWS Storage Gateway)’ ▲전용 네트워크를 통해 보다 보안성이 높고 개인화된 연결을 지원하는 ‘AWS 다이렉트 커넥트(Direct Connect)’ ▲페타바이트 단위의 대용량 데이터 이동을 지원하는 데이터 전송 서비스 ‘AWS 스노우볼(AWS Snowball)’·‘AWS 스노우볼 엣지(AWS Snowball Edge)’ 등이다.

“데이터레이크 on AWS”로 최적의 데이터 전략 수립
김일호 AWS코리아 솔루션즈 아키텍트 매니저


Q. AWS가 제안하는 최선의 데이터 전략은?
A. AWS는 데이터 레이크라는 흐름으로 고객들이 데이터 저장 전략에 대해 품고 있는 모든 의문에 대해 답할 수 있다고 생각한다. 데이터 레이크는 다양한 데이터들을 원천 데이터 그대로 모두 저장할 수 있을 뿐만 아니라 폭발적으로 증가하는 데이터들을 실시간으로 수집·저장할 수 있다.

한 걸음 더 나아가, AWS는 기업들을 위한 최적의 데이터 전략을 ‘데이터레이크 on AWS’를 제안한다. 이미 AWS의 클라우드 서비스 상에는 데이터 레이크를 구성하기 위한 모든 서비스들이 마련돼 있다. 데이터의 저장·관리·보안 등을 위한 개별 서비스들은 물론, 온프레미스 인프라에 축적된 데이터를 AWS 클라우드로 이전하기 위한 다양한 방법들을 제공한다.
 

Q. 데이터 레이크 도입을 고려하는 기업들에게 조언한다면?
A. 도입에 앞서 무엇보다 데이터 레이크의 장점을 이해해야 한다. 전통적인 기업들의 데이터 저장 전략이 가지고 있는 사일로 구조, 그로 인해 발생하는 비용과 문제가 될 수 있는 부분을 숙지하고 자사의 상황 역시 정확히 분석해야 한다. 경우에 따라서는 AWS 혹은 기타 파트너사들을 통해 컨설팅과 교육을 요청할 필요도 있다.

또한 데이터 전략 전환을 준비하기 위해서는 C레벨의 강한 리더십이 필요하다. 작은 DB 하나를 교체하는 것이 아니라 기업 전체의 전략을 바꾸는 것이기 때문이다. 고객사의 강한 의지와 노력만 뒷받침된다면, AWS와 함께 데이터 레이크를 기반으로 한 최적의 데이터 전략을 수립할 수 있을 것이다.

한편 AWS는 자사의 클라우드 서비스 상에서 특정 상용DB에 종속되지 않고 다양한 오픈소스 기반 DB를 선택해 사용할 수 있는 DB 프리덤(Database Freedom) 전략에 대해 소개했다. 일반적으로 상용DB 제품은 도입 및 유지·관리에 많은 비용이 소요될뿐더러 특정 벤더의 제품에 종속될 위험도 있다. 반면 AWS는 클라우드 서비스 상에서 ‘마이SQL(MySQL)’이나 ‘마리아DB(MariaDB)’와 같은 오픈소스DB는 물론, ‘아마존 오로라(Amazon Aurora)’와 같이 상용DB의 성능과 가용성을 보유한 핵심적인 DB 제품도 지원하고 있다. 이외에도 ‘다이나모DB(Amazon DynamoDB)’나 ‘도큐먼트DB(Amazon DocumentDB)’ 등 NoSQL DB들도 사용 가능하다. 따라서 고객은 보다 낮은 비용으로 다양한 DB들을 선택해 최적의 데이터 전략을 수립할 수 있다.
 

다양한 데이터 저장소에 위치한 데이터를 효과적으로 파악하고, 어떤 데이터가 어디에서 어떻게 관리되고 있으며 유사한 데이터는 무엇인지를 인식하기 위해서는 데이터 거버넌스 전략이 매우 중요하다. 또한 데이터 거버넌스를 통해 데이터를 효과적으로 파악할 수 있다 하더라도 사용자가 필요한 데이터를 요청하고 활용하는 과정이 복잡하다면 업무 효율성이 크게 떨어진다. 오라클은 이러한 문제를 해결하기 위해 데이터 가상화(Data Virtualization)가 필요하다고 강조한다.

데이터 가상화는 사용자가 데이터의 실제 위치를 파악할 필요없이 하나의 인터페이스로 모든 데이터를 접근하고 처리하는 체계를 의미한다. 이를 위해 오라클은 ‘클라우드 SQL(Cloud SQL)’ 서비스를 제공하고 있다. ‘클라우드 SQL’ 서비스는 다양한 오브젝트 스토리지, 오라클 DB, 하둡(Hadoop), 카프카(Kafka) 등을 오라클 SQL로 손쉽게 조회하고 접근할 수 있다. 사용자는 데이터가 어디에 위치하고 있는지 고민하지 않고, ‘클라우드 SQL’이라는 단일 접점에서 범용적인 SQL을 통해 사내의 모든 데이터에 접근할 수 있다.

오라클은 그동안 온프레미스 환경에서 축적한 엔터프라이즈 DBMS 역량을 바탕으로 IaaS, PaaS, SaaS를 아우르는 통합 클라우드 플랫폼을 구축하고 있다. 자율 관리(self-driving), 자율 보안(self-securing), 자율 복구(self-securing) 기능을 탑재한 ‘자율운영(Autonomous)’ 기술을 핵심 서비스로 제공하고 있으며, 이를 기반으로 보다 확장된 개념의 ‘자율운영 클라우드(Autonomous Cloud)’를 지원한다. 특히 지난해에는 국내에 ‘자율운영 클라우드’ 기술을 기반으로 한 2세대 데이터센터를 오픈, 클라우드 엔터프라이즈 서비스를 강화하고 있다.

▲ 오라클의 자율운영 DB 특징

특히 자율운영 기술을 가장 효과적으로 활용할 수 있도록 ‘융합형 DB(Converged Database)’를 제공한다. ‘융합형 DB’는 데이터의 종류나 특징을 가리지 않고 단일한 아키텍처에서 관리·운영할 수 있는 DB다. 이는 기존의 단일 목적형(Single-purpose) DB들이 데이터 종류와 업무 형태에 따라 별개의 DB를 구축해야 했던 것과 달리, 하나의 데이터 플랫폼 상에서 다양한 데이터들을 효율적으로 관리할 수 있도록 돕는다.

단일한 접점에서 모든 데이터를 통합 관리할 수 있게 되면서 데이터 분석 속도 역시 향상된다. 데이터에 대한 접근성이 높아질 뿐만 아니라, 복수의 처리·분석 워크로드를 수행할 수 있도록 최적화된 분석 도구와 애플리케이션을 제공해 시스템 부하를 최소화했기 때문이다.

HMM, 오라클 클라우드로 효율적인 서비스 제공·운항 안정성 향상

HMM은 오라클과 함께 클라우드 기반 차세대 IT시스템 구축, HMM의 컨테이너 및 벌크사업을 지원하기 위한 클라우드 환경을 마련하고, 향후 전사자원관리(ERP), 인사시스템 등 모든 애플리케이션과 데이터를 오라클 클라우드로 단계적 이전한다고 발표했다. 이를 통해 전 세계 화주 및 내부 시스템 사용자들에게 보다 빠르고 안정적인 IT서비스를 제공할 수 있게 됐다.

HMM선은 클라우드 기반의 차세대 IT시스템 전환에 발맞춰 블록체인, 사물인터넷(IoT), 빅데이터, AI 등 4차 산업혁명 관련 주요 신기술을 해운산업에 적용할 계획이다. 이번 오라클 클라우드로의 단계적 이전을 통해 고객들에게 효율적인 서비스를 제공하고 운항 안정성을 더욱 향상시킬 수 있을 것으로 전망했다.

 

클라우데라는 지난해 ‘CDP(Cloudera Data Platform)’ 출시와 함께 통합 데이터 플랫폼 기업으로의 변화를 선언했다. 대표적인 ‘하둡(Hadoop)’ 배포판 벤더이자 빅데이터 전문기업에서 벗어나, 고객의 전사적인 데이터 전략을 모두 지원할 수 있는 ‘CDP’를 중심으로 새롭게 출발하겠다는 것이다.

‘하둡’은 오픈소스 기반 대규모 데이터 분석 처리 서비스다. 클라우데라는 ‘하둡’의 아버지인 더그 커팅(Doug Cutting)이 수석 아키텍트를 맡고 있으며, 그동안 ‘하둡’ 배포판인 ‘클라우데라 엔터프라이즈(Cloudera Enterprise)’ 시리즈를 통해 고객들이 대량의 데이터를 분석하고 새로운 가치와 인사이트를 창출할 수 있도록 지원해왔다. 특히 지난해에는 ‘하둡’ 기반의 빅데이터 전문기업인 호튼웍스를 합병하면서 보다 고도화된 기술력을 보유하게 됐다.

‘CDP’는 클라우데라와 호튼웍스의 역량을 결합해 완성됐다. 고객이 보유한 모든 데이터의 수명주기(data lifecycle)를 관리할 수 있는 클라우드 네이티브 서비스를 제공하며, 사용자가 복잡한 데이터를 명확하고 실행 가능한 통찰력으로 전환할 수 있도록 지원한다. SDX(Shared Data Experience) 기술을 통해 수 시간 이내에 자동으로 데이터 레이크가 생성되며, 개별 사용자들은 동일한 데이터 레이크를 공유하면서도 개별화된 포인트 솔루션을 사용하는 것 같은 환경을 제공한다. 이를 통해 직원들의 업무 역량과 효율성을 유지하면서도 전체 데이터 플랫폼을 일관되게 통제할 수 있다.

▲ 클라우데라의 엔터프라이즈 통합 데이터 플랫폼 ‘CDP’

특히 ‘CDP’에는 클라우데라와 호튼웍스가 제공하던 다양한 서비스들이 결합돼 있다. 예를 들어 머신러닝 라이프사이클 전체를 통합 관리하는 ‘CDSW(Cloudera Data Science Workbench)’는 본래 별개의 서비스로 제공되던 기능이다. ‘CDSW’는 ‘도커(Docker)’를 활용해 사용자들이 격리된 공간에서 ‘스파크(Spark)’·‘임팔라(Impala)’와 같은 ‘하둡’ 컴포넌트로 머신러닝 프로젝트를 수행할 수 있도록 돕는다. 관리자는 머신러닝을 활용하는 전체 사용자 수와 프로젝트 운영 현황을 실시간으로 모니터링하고, 머신러닝 엔진 프로필 생성이나 인증 설정 등을 수행할 수 있다.

또한 ‘클라우데라 매니저(Cloudera Manager)’ 기능을 활용하면 테이블 메타데이터나 세분화된 접근 권한 관리, 계보관리(Lineage), 인증(SSO) 등 다양한 보안, 개인 정보보호와 규정 준수 기능을 손쉽게 이용할 수 있다. 특히 데이터에 대한 접근성을 향상시키면서도 보안성을 함께 갖추기 위해 보안 프로세스의 대부분을 자동화했다. 이는 보안 체계가 복잡하고 준수하기 어렵다면 사용자들이 이를 우회하는 방법을 찾으리라는 판단에서다. 클라우데라는 ‘CDP’ 상에서 대부분의 보안 기능을 자동화함으로써 사용자가 데이터에 접근할 때 귀찮은 보안 절차를 경험하지 않도록 하고, 관리자에게는 치밀하고 세밀한 보안 기능들을 제공함으로써 데이터를 안전하게 관리할 수 있도록 돕는다.
 

티맥스는 국내외 데이터 분석 트렌드가 OLAP/리포팅 중심에서 현업 비즈니스 조직이 스스로 데이터를 분석해 인사이트를 발굴하는 셀프 서비스 BI로 발전해왔다고 설명했다. 특히 최근에는 머신러닝 및 AI 분석을 활용한 데이터 사이언스 BI로 발전하고 있다. 이에 따라 글로벌 벤더들은 인수합병을 통해 데이터 수집·저장·분석·예측·시각화까지 다양한 영역을 아우르는 특화된 개별 솔루션들을 제공한다. 하지만 고객은 실질적인 데이터의 분석 및 활용보다 다양한 솔루션을 동시 활용함으로써 생기는 인터페이스 이슈와 높은 도입 비용에 따른 부담을 느끼고 있다.

티맥스는 이러한 데이터 활용의 기본적인 특성을 이해하고, 고객이 가진 데이터에 대한 부담을 해결하기 위해 데이터 수집·저장·예측·분석 등 모든 과정을 하나의 플랫폼 환경에서 통합적 수행할 수 있는 AI 기반 통합 데이터 플랫폼 ‘하이퍼데이터(HyperData)’를 제공한다. ‘하이퍼데이터’는 단일 플랫폼 상에서 다양한 유형의 데이터를 수집 및 저장할 수 있는 데이터 가상화 플랫폼이다. 이기종 시스템 간의 데이터 인터페이스 및 연동을 지원하며, 대용량 데이터 분석 시에도 정합성 유지가 가능해 높은 수준의 데이터 품질 관리를 보장한다.

또한 가상화된 데이터에 대해 카탈로그 기반의 데이터 표준화를 수행한다. 이를 통해 메타데이터를 구성 및 관리함으로써 사용자가 활용할 수 있는 논리적 DW(Logical DW)를 구성할 수 있다. 이외에도 클라우드 상에서 데이터 분석을 위한 개발 환경을 지원하며, 사용자가 플로우(Flow) 기반의 데이터 처리와 다양한 시각화 및 탐색 기능을 통해 손쉽게 데이터를 활용할 수 있도록 돕는다.

아울러 탐색적 데이터 분석(Exploratory Data Analysis, EDA)을 지원해 데이터의 구조와 변수 등을 확인할 수 있다. EDA는 데이터의 크기나 변수, 타입 등을 분석하고 통계와 시각화를 활용해 데이터 그 자체를 직관적으로 파악할 수 있도록 돕는 과정이다. 원천 데이터에 포함돼 있는 결측값, 이상치(Outlier), 익명화된 변수 등 다양한 노이즈를 제거 혹은 변환함으로써 보다 좋은 데이터를 생성한다. 이렇게 만들어진 데이터는 다양한 AI나 머신러닝 모델에 효과적으로 활용될 수 있다.

▲ 기존 DW 기반의 데이터 전략과 ‘하이퍼데이터’ 기반의 데이터 전략 비교

한편 티맥스는 규모가 작은 스타트업이나 중소기업들이 비즈니스 규모 변화에 민첩하게 대응하기 위해 유동적인 인프라를 갖춰야 한다고 조언했다. 이를 위해서는 인프라 규모를 가변적으로 운영할 수 있도록 클라우드 상에 데이터 저장소를 구축해야 한다. 클라우드의 유동적인 인프라는 스타트업의 가파른 성장에도 대응하면서 보다 비용 효율적으로 운영할 수 있다.

이러한 클라우드 데이터 저장 수요에 대응하기 위해, 티맥스는 올해 한에 클라우드 기반 DBMS ‘티베로8(Tibero8)’을 출시할 계획이다. ‘티베로’는 티맥스데이터의 대표 DBMS 제품으로, 독자 기술로 개발한 액티브 클러스터링 기술인 TAC(Tibero Active Cluster)를 탑재하고 있다. 올해 출시하는 ‘티베로8’에는 TAC 기술을 보다 발전시켜 클라우드 상에서의 무한대 확장을 지원한다는 계획이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지