데이터 주도적인 운영을 위한 최적의 데이터 전략

[아이티데일리] 데이터를 효과적으로 수집·저장·활용하는 것은 모든 기업들이 마주하고 있는 최우선 과제다. 데이터는 기업이 단기적인 비즈니스 결정을 내릴 수 있도록 지원할 뿐만 아니라, 때로는 미래를 예측하고 전사적인 혁신을 일으키기 위한 근거가 되고 있다. 이에 따라 전 세계 기업들은 보다 많은 데이터를 효과적으로 수집하고 분석하기 위해 다양한 데이터 전략을 수립하고 있다.

전 세계 기업들이 데이터를 효과적으로 활용할 수 있도록 돕는 국내외 벤더사들을 통해, 이들이 제시하는 최적의 데이터 전략에 대해 들어봤다.

① 전사 데이터 아우르는 ‘싱글 뷰’ 갖춰야
② 데이터 레이크, 활용 어렵지만 쓰임새 높아
③ 국내외 데이터 플랫폼 기업별 최적의 전략

 

데이터 레이크, 활용 어렵지만 쓰임새 높아
반면 산재돼 있는 데이터를 모두 하나의 저장소에 모아놓음으로써 데이터의 결합·통합 문제를 해결하는 것도 가능하다. 각 부서별로 독자적인 데이터 저장소를 운영하는 대신, 기업 내 모든 데이터를 담을 수 있는 거대한 데이터 레이크(Lake)를 구축하는 방식이다. 이는 데이터 플랫폼이 관리와 거버넌스 측면에서 접근하는 것과는 달리, 저장소 그 자체를 통합한다는 점에서 보다 근본적인 인프라 전략에 가깝다.

일반적인 DB나 DW는 수집된 데이터를 목적에 맞게 가공해서 정형화된 형태로 저장한다. 이때 데이터를 가공하는 기준을 스키마(schema)라고 하며, 각 DB와 DW의 구조와 성격을 정의하는 요소다. 데이터 레이크의 가장 큰 특징은 이러한 스키마 없이(schemaless) 모든 데이터를 원천 데이터(raw data) 그대로 저장한다는 점이다. 따라서 데이터를 저장할 때 고려해야 할 요소가 적어 어떠한 데이터도 담을 수 있다.

데이터 레이크에서 스키마는 데이터가 저장될 때가 아닌, 사용자가 데이터를 활용하고자 할 때 부여된다. 같은 데이터라고 하더라도 사용자가 어떤 스키마를 부여하느냐에 따라 완전히 다른 의미를 가지게 될 수 있다. 기존의 DB나 DW에 비하면 훨씬 높은 자유도를 가지고 있는 셈이다.

물론 스키마가 없다는 것이 장점만 가지고 있는 것은 아니다. 스키마가 없는 데이터 레이크는 사용자가 데이터를 보다 자유롭게 분석할 수 있게 되는 대신, 보다 높은 수준의 역량을 갖출 것을 요구한다. 올바른 스키마를 정의하는 것부터 모두 사용자의 역량에 달려있기 때문이다. 만약 사용자가 원천 데이터를 다룰 수 있을 정도의 역량을 보유하지 못했다면, 혹은 원천 데이터를 분석이 가능하도록 가공하는 데에 너무 많은 시간이 소요된다면 데이터 레이크는 잘못된 선택일 수 있다. 이럴 경우 데이터 레이크는 그저 까다로운 데이터들을 모아놓았을 뿐인 쓰레기장, 데이터 늪(swamp)으로 불리기도 한다.

▲ 데이터 레이크를 통해 보다 효과적인 데이터 활용이 가능하다.

기존의 DB와 DW는 사전에 정의된 스키마에 따라 가장 분석에 용이한 형태로 가공돼있는 상태다. 식품으로 치자면 이미 공장에서 한 번 가공을 거친 레토르트 식품에 가깝다. 포장지를 벗기고 정해진 조리법에 따라 굽거나 데우기만 하면 간편하게 요리를 완성할 수 있다. 대신 요리사의 의도가 개입될 여지가 적고, 가공 과정에서 필요없다고 생각된 부위가 잘려나갈(데이터가 삭제될) 수도 있다.

반면 데이터 레이크에 담긴 데이터들은 스키마가 없는 원천 데이터이며, 이는 밭에서 수확한 날것 그대로의 식자재라는 의미다. 당연히 훨씬 다양한 조리법을 적용할 수 있지만 그만큼 요리사의 수고가 많이 필요하다. 잘려나가는 것 없이 모든 부위를 온전히 활용할 수 있지만, 요리사의 역량이 부족하다면 실패한 요리, 다시 말해 전혀 쓸모없는 분석 결과가 만들어질 가능성도 있다.

최근 서비스되고 있는 데이터 레이크 제품들은 이러한 문제를 해결하기 위해 다양한 데이터 포맷과 타입을 사전에 정의해놓을 수 있도록 한다. 데이터를 저장할 때는 날것 그대로 하되, 데이터의 성격을 설명하는 태그를 붙이거나 향후 검색에 활용할 수 있는 패턴을 입력하는 등이다. 필요에 따라서는 다른 사용자들이 이용할 수 있도록 데이터 포맷이나 스키마를 미리 만들어놓는 경우도 있다. 즉 데이터 저장의 용이성과 원천 데이터 그 자체를 활용할 수 있다는 장점은 그대로 유지하되, 사용자가 필요로 할 요소들을 사전에 예측하고 가공하는 과정을 간소화·자동화함으로써 효율적으로 데이터 분석을 수행할 수 있도록 돕는다.


접근성 높이려면 거버넌스&보안 전략 갖춰야
거버넌스 측면에서 데이터 플랫폼 레이어를 추가하든, 모든 데이터 저장소를 통합한 데이터 레이크를 구축하든, 결과적으로 기업 내 모든 사용자가 모든 데이터에 접근할 수 있는 체계를 만드는 것이 중요하다. 이는 데이터를 다루는 주체가 극소수의 데이터 과학자(Data Scientist)에서 전사 직원으로 확장됨에 따라 중요성이 더욱 강화되고 있다.

과거에는 전문적인 역량을 갖춘 데이터 전담 조직만이 기업 내 데이터에 접근할 수 있었다. 생산, 마케팅, 영업 등 현업 비즈니스 조직들은 데이터가 필요할 경우 전담 조직에게 요청하고 답변을 기다려야 했다. 하지만 오늘날 데이터를 적극적으로 활용하는 기업들은 모든 비즈니스 영역을 데이터와 결합해 부가 가치를 창출하고 있으며, 데이터의 활용도가 높아진 만큼 데이터 전담 조직의 업무량이 크게 늘어났다. 이에 따라 간단한 데이터 검색이나 조회, 결합, 분석 등은 현업 비즈니스 조직이 직접 수행하도록 하는 셀프 서비스(Self-Service) 데이터 분석이 트렌드로 자리잡고 있다.

이를 위해 기업 내 데이터 관리 조직은 두 가지 문제를 해결해야 한다. 먼저 데이터에 대한 전문적인 지식이 없더라도 최소한의 데이터 조회·분석이 가능한 시스템을 구축하고 이를 전사 직원들에게 내재화시켜야 한다. 만약 현업 비즈니스 조직에서 간단한 수준의 데이터 조회나 분석을 수행할 수 있다면 데이터 과학자들의 업무를 크게 줄일 수 있으며, 데이터 과학자들은 AI나 머신러닝과 같은 기술들이 요구되는 보다 어렵고 복잡한 데이터 활용 사례에 집중할 수 있을 것이다. 현업 비즈니스 조직들의 데이터 접근성을 높이기 위해서는 손쉽게 사용할 수 있는 검색 기반의 데이터 포털을 구축하거나, 직관적이고 시각화된 데이터 분석 솔루션을 도입하는 것도 고려해야 한다.

다른 하나의 문제는 사용자들의 무분별한 데이터 접근을 제한해야 한다는 점이다. 일부 전담 조직만이 데이터에 접근할 때에 비해, 전사 직원들이 데이터에 접근할 수 있게 되면 관리가 어렵고 보안 사고가 발생할 위험이 높아진다. 기업은 데이터의 성격을 분석해 보안상 민감한 데이터가 있는지 여부를 확인하고, 사내에서 생성·저장·복사되고 있는 다양한 유형의 데이터들을 관리해야 한다. 특히 의료·금융 등 민감한 데이터나 특정 개인을 식별할 수 있는 개인정보 등은 비즈니스 지역 내에서 컴플라이언스 이슈를 발생시킬 수도 있기 때문에 각별한 관심이 요구된다.

또한 사전에 치밀한 업무 프로세스 분석을 통해 각 직원별로 접근 가능한 데이터를 제한할 필요가 있다. 이는 부서별/직급별/담당업무별로 세세하게 구분돼야 하며, 경우에 따라서는 각각의 직원 하나하나에 서로 다른 권한을 부여할 필요가 있다.

한편, 데이터에 대한 접근성을 높이기 위해 하이브리드 클라우드의 활용 또한 적극적으로 고려해야 한다. 최근 기업들은 데이터의 수집·저장·분석을 위한 단일한 플랫폼 전략을 마련하고 있으며, 가장 접근성이 높고 부서간의 장벽에 가로막히지 않을 수 있는 곳에 해당 플랫폼이 위치해야 한다고 요구한다. 실제 데이터는 온프레미스 서버에 구축되더라도 이에 대한 접근과 활용은 클라우드에서 이뤄질 수 있다.

▲ 하이브리드 클라우드는 비용 최적화를 위한 효과적인 데이터 전략이다.

또한 쿠버네티스(Kubernetes) 같은 컨테이너 기술이 보편화되고, 데이터 센터가 퍼블릭 클라우드 서비스처럼 작동함에 따라 하이브리드 클라우드 방식은 더 많은 유연성을 보장하면서도 관리가 용이하다는 장점을 갖추게 됐다. 따라서 하이브리드 클라우드는 데이터 활용도를 높이고자 하는 요구를 만족시키면서 효율적인 관리와 자원 활용이 가능해, 최선의 데이터 전략을 선택하고자 하는 기업들에게 뛰어난 선택지로 자리잡았다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지