데이터의 요람에서 무덤까지, ‘데이터 리니지’

[아이티데일리] 전 산업계에서 디지털 혁신이 빠르게 진행되면서 기업들은 앞다투어 새로운 제품을 도입하고 시스템을 확대하고 있다. 이에 따라 IT 환경과 업무 시스템은 하루가 다르게 복잡해지고 있다. 이러한 가운데 기업의 데이터 관리 조직에서는 다양한 시스템 사이를 오가는 데이터들을 실시간으로 감시하고 그 흐름을 파악하고자 하는 요구가 증가하고 있다. 데이터의 탄생부터 죽음까지 모든 라이프 사이클을 추적하는 데이터 리니지에 대해 살펴봤다.

① 데이터 생애 추적 위해 거버넌스부터 갖춰야
② 현행 시스템 파악이 우선…분명한 구축 목표 수립 필요

데이터 생애주기 추적해 신뢰성 확보

IT 기술을 활용한 디지털 혁신이 기업들의 최우선 과제가 되면서 IT 전반에 대한 투자가 빠르게 늘어나고 있다. 특히 데이터는 이미 전 세계 모든 조직들의 핵심 자원으로 자리 잡았다. 이제 데이터를 효과적으로 활용하지 못하는 조직은 비즈니스 환경에서 생존하기 어렵게 됐다. 실시간으로 생산되는 데이터를 수집하고 관리하며 분석을 통해 필요한 인사이트를 창출하는 능력이야말로 모든 기업들의 기본 소양이다.

하지만 IT에 대한 투자가 증가하고 데이터 활용에 대한 요구가 확대되면서 기업의 IT 환경은 더욱 복잡해지고 있다. 새로운 솔루션을 도입하고 데이터 인프라를 확장하는 일련의 과정은 업무 시스템들 간의 복잡성을 높인다. 복잡한 시스템 상에서는 장애나 이슈에 대한 추적이 어려워 관리 부담이 늘어날 수밖에 없다. 업무 시스템 간의 연계가 복잡해지니 각 시스템에서 생산되는 데이터를 추적하는 것도 쉽지 않고, 데이터를 활용하는 부서가 늘어나면서 전사적인 데이터 추적과 관리 또한 어렵다.

만약 기업이 대량의 데이터를 보유하고 있다고 하더라도, 데이터를 투명하게 관리할 수 없다면 가치가 크게 훼손된다. 관리되지 않은 데이터는 신뢰성을 보장할 수 없기 때문이다. 아무리 뛰어난 데이터 분석 시스템을 보유하고 있다고 하더라도 원재료인 데이터의 신뢰성을 검증할 수 없다면 분석 결과의 정확성 또한 보장할 수 없다. 따라서 데이터의 활용과 분석 역량을 갖추기에 앞서 올바른 데이터 관리 역량을 보유하는 것은 필수적이다. 오늘날 전 세계 수많은 기업들이 데이터 거버넌스를 중요시하며 관련 인프라를 갖추는 이유다.

데이터 리니지는 데이터의 라이프 사이클을 추적해 가시적으로 제공한다. (출처: 엔코아)
데이터 리니지는 데이터의 라이프 사이클을 추적해 가시적으로 제공한다. (출처: 엔코아)

데이터 계보 관리(Data Lineage, 이하 데이터 리니지)는 조직 내에서 데이터의 수집 및 저장, 이동과 통합, 분석, 폐기에 이르는 모든 라이프 사이클을 추적한다. 이는 특정 데이터가 어떤 시스템에서 생성됐고 어느 DB에 저장됐는지, 이후 어떤 과정을 거쳐 현재는 어디서 활용되고 있는지 등을 투명하게 확인해 실시간으로 파악하는 것을 목적으로 한다. A라는 데이터의 생애를 분석해 지금 A라는 값으로 존재하는 근거를 제시하는 것이다.

이를 통해 데이터의 신뢰성을 크게 높일 수 있을 뿐만 아니라, 특정 데이터에서 오류가 발생했을 때 해당 데이터가 만들어진 흐름을 역추적해 원인을 파악하고 대응할 수도 있다. 그럼에도 불구하고 그동안 데이터 리니지에 대한 산업계의 관심은 여타 데이터 관련 시스템보다 낮았다.
 

선제적 도입보다는 거버넌스 수립부터

데이터 거버넌스는 조직 내에서 데이터의 정확성을 확보하고 품질을 높여 가치를 창출하기 위해 수행하는 모든 기술과 정책을 의미한다. 국내에서 데이터 거버넌스를 갖추기 위해 가장 먼저 시작한 것은 메타데이터 관리였다. 메타데이터는 다양한 시스템에서 생산되는 ‘값’들을 가치 있는 ‘데이터’로 만들기 위해 해당 값의 성질을 정의하는 요소다. 메타데이터를 관리함으로써 특정한 값의 나열에 공통된 의미가 부여되고, 이를 손쉽게 결합하거나 조직 내에서 공유하면서 가치를 창출할 수 있다. 전사적인 데이터 분석을 위해서는 반드시 갖춰져야 한다.

이후에는 데이터 품질 관리가 주목을 받았다. 데이터의 품질을 관리한다는 개념은 메타데이터 관리를 포함해 데이터 거버넌스 전반을 포함해야겠지만, 여기서는 보다 지엽적인 의미에서 보유하고 있는 데이터의 정확성을 점검하고 오류 데이터를 찾아내는 시스템만으로 한정하고자 한다. 이러한 데이터 품질 관리는 데이터를 다루는 수요층이 IT 조직에서 비즈니스 조직으로 옮겨감에 따라 더욱 각광받고 있다. 데이터에 대한 전문성이 부족한 비즈니스 조직이 직접 데이터를 다루는 과정에서 IT 조직의 통제력이 떨어지고 품질이 낮아질 수 있기 때문이다.

반면 데이터 리니지는 그동안 메타데이터 관리나 품질 관리에 비해 등한시됐던 것이 사실이다. 이는 데이터 리니지의 특징에서 비롯한다. 여타 기술들은 부분적으로 도입해도 어느 정도 효과가 있지만, 데이터 리니지는 다른 데이터 관리 체계가 갖춰진 뒤에야 본격적인 성과를 기대할 수 있기 때문이다.

예를 들어 데이터 품질 관리 시스템을 통해 특정 데이터의 오류를 발견했다고 하자. 오류가 발생하는 원인은 셀 수 없을 정도로 많다. 원인을 파악하기 위해서는 오류가 발생된 시스템만이 아닌, 해당 데이터가 거쳐 온 모든 시스템들을 역추적 해야 한다. 만약 규모가 커서 각각의 시스템을 관리하는 조직이 다르다면 원인 분석에 한 달 이상이 소요될 수도 있다. 이 경우 데이터 리니지를 도입하면 데이터의 생성부터 폐기까지 모든 과정을 추적할 수 있다. 하다못해 데이터의 구체적인 변경 내역이 아니라 이동 경로만 파악할 수 있어도 원인 분석 시간을 크게 줄일 수 있다.

반면 전사적인 데이터 관리 체계가 갖춰지지 않은 채 데이터 리니지만을 먼저 구축하는 것으로는 효과를 보기 어렵다. 특히 데이터 거버넌스 혁신 프로젝트를 앞두고 있어 관리 체계에 큰 변화가 예고된 경우 더욱 그렇다. 데이터스트림즈 관계자는 “데이터 거버넌스는 정책 수립이나 조직 개편과 같은 광범위한 변화를 요구하기 때문에 데이터 리니지만 먼저 구축하는 것은 도움이 되지 않는다”며, “고객사들에게도 다른 데이터 관리 체계를 갖춘 후 필요성을 느꼈을 때 데이터 리니지를 고려하라고 권장한다”고 설명했다.

“서두르지 말고 장기적 계획에 따라 도입해야”
이상화 데이터스트림즈 PS본부 수석

데이터 리니지는 결국 데이터의 흐름을 가시화하는 것이다. 여기서 데이터의 흐름이란 전통적으로 계정계, 정보계에서부터 데이터 마트, OLAP까지 모든 지점을 포함한다. 다른 시스템들이 갖춰진 후 이들을 연결하는 것이 바로 데이터 리니지다. 바꿔 말하면, 연결할 것들이 없는데 데이터 리니지만 도입하겠다고 나서면 실패하기 쉽다. 또한 연결점들을 만들겠다고 데이터 거버넌스 혁신 프로젝트와 함께 진행하면 프로젝트 기간과 예산이 감당하기 힘들 정도로 늘어날 수 있다.

KB국민은행은 최근 5년에 걸쳐서 데이터 거버넌스 혁신 프로젝트를 진행했다. 사내에 데이터전략본부 등을 신설하고 대대적인 개선에 나섰으며, 금융권에서는 매우 성공적인 데이터 거버넌스 프로젝트로 꼽힌다. 그동안 1차부터 3차까지 나눠서 프로젝트를 진행했는데, 데이터 리니지를 전사적으로 도입해 고도화한 것은 마지막인 3차 프로젝트였다. 1~2차에서 어느 정도 데이터 관리 체계가 잡히고 운영이 안정화된 후, 이제 데이터 리니지가 효과를 볼 수 있겠다 싶은 시점에 도입한 것이다. 결과적으로 실제 사용자들의 만족도도 높고 활용도 잘 되고 있다. 이런 계획과 고민 없이 도입하면 효과를 보기 힘들다.

최근 금융권에서는 기존에 운영하던 계정계, 정보계 시스템 등에 마이데이터 서비스라는 대규모 이슈가 더해지면서 시스템의 규모나 복잡성이 크게 증가하고 있는 상황이다. 여기에 산업계 전반의 클라우드 전환이 가속화되면서 클라우드로 넘어가는 시스템과 새로 생기는 시스템 간의 연계 또한 중요하게 여겨진다. 데이터 리니지를 도입할 당위성은 충분히 갖춰진 셈이다. 이에 따라 데이터 리니지에 대한 수요는 향후 3년 안에 폭발적으로 늘어날 것으로 예상한다. 이미 금융권을 시작으로 일부 제조‧통신 분야에서도 프로젝트가 나오고 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지