데이터에 제값 매기는 데이터 품질 관리

[아이티데일리] “쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out).” 데이터 업계의 오래된 명언 중 하나다. 질 낮은 기름이 자동차의 성능을 저하시키는 것처럼, 질 낮은 데이터는 분석의 결과를 신뢰할 수 없는 것으로 만들어 기업의 의사결정을 방해한다.

기업이 데이터에서 가치를 생산하고 비즈니스에 활용하기 위해서는 무엇보다 양질의 데이터를 대량으로 확보하는 것이 필수다. 데이터를 수집할 수 있는 채널이 늘어나면서 획득할 수 있는 데이터의 양은 폭발적으로 증가하고 있지만, 이러한 데이터들을 체계적으로 관리하고 활용할 수 있도록 일정 이상의 품질 수준을 유지하는 것은 쉽지 않다.

1부 - 지속 가능한 데이터 품질 관리 전략 마련하라
2부 - 접근성 높이려면 정확한 데이터 제공해야
3부 - 비즈니스 현황 반영한 데이터 거버넌스가 필요하다

거버넌스 차원의 데이터 품질 관리 전략 필요

데이터 전문가들은 기업이 데이터 품질을 높게 유지하기 위해 ▲데이터 관리 주체 구분과 책임감(ownership) 강화 ▲합리적인 관리 정책(governance) 마련 ▲객관적인 데이터 품질 측정/진단 ▲뛰어난 관리 도구(solution) 도입 등이 필요하다고 조언한다.

데이터 관리 주체를 구분하는 것은 개별 데이터의 관리 책임을 개인 혹은 팀 단위로 분류하기 위한 것이다. 예를 들어 마케팅 데이터를 모니터링하는 것은 마케팅 업무를 담당하는 A팀이, 고객 데이터를 최신화하는 것은 대고객 서비스가 많은 B팀이 담당하는 식이다. 단일한 IT 조직이 사내 모든 데이터를 통합 관리하는 것보다, 해당 업무를 자주 접하고 전문성을 가진 개인 혹은 팀에게 관리 책임을 이관함으로써 데이터를 최신화하고 정합성을 높일 수 있다. 이는 또한 데이터 품질을 높이기 위한 노력이 담당자 본인의 업무에 직접적인 도움이 된다는 것을 인식시켜 데이터에 대한 주인의식을 강화하는 효과도 있다.

데이터 관리 정책, 거버넌스 체계를 바로잡는 것은 데이터 품질 관리의 핵심이다. 데이터 거버넌스는 기업 내에서 데이터가 수집‧저장‧분석‧활용되는 모든 프로세스에서 일관된 정책과 표준을 제시함으로써 데이터의 가용성과 안전성, 정합성 등을 보장한다. 다시 말해 흠결없는 데이터 거버넌스 체계는 정확하고 활용도 높은 데이터 생산을 보장하며, 이는 지속적인 데이터 품질 향상과 같은 의미를 갖는다.

기업은 단순히 ‘데이터를 최신화하고 외부 유출을 방지하라’는 두루뭉술한 지침이 아니라, 전 직원 각자가 수행하는 업무 프로세스에서 데이터를 접하는 방식을 분석하고 항상 지켜나갈 수 있도록 단계별로 구분된 관리 규정을 만들어야 한다. 정확한 관리 규정이 세워져 있다면 사용자마다 제각기 다른 방식으로 데이터를 생성하고 관리해 혼란을 야기하게 된다. 데이터가 구조적으로 잘 축적될 수 있도록, 그리고 서로 다른 조직에서 생성한 데이터를 결합했을 때 혼란을 일으키지 않도록 전사적인 기준과 표준을 세워야 한다. 이를 위해서는 사용자들이 동일한 데이터를 가지고 일관된 의사소통을 할 수 있도록 사용하는 용어나 메타데이터를 통일하는 작업도 필요하다.

현재 자사의 데이터 품질 수준을 객관적으로 평가하고 문제점을 확인하는 것 역시 중요하다. 하지만 품질 수준을 측정하겠답시고 사내에서 보유하고 있는 모든 데이터의 정합성 등을 점검하는 것은 시간이나 비용 등을 고려했을 때 현실적이지 못하다. 따라서 기업은 데이터 품질 수준을 측정하기 전에 ▲측정 대상을 명확히 하고 ▲점검하고자 하는 측정 기준을 수립하며 ▲효과적인 측정 방법을 선정해야 한다.


현실적 요소 고려한 품질 측정 계획 세워야

품질 측정을 위한 프로젝트에서 측정 대상을 명확히 하는 것은 매우 중요하다. 기업들이 보유하고 있는 데이터의 양이 폭증하고 있으므로 모든 데이터를 검사하는 것은 효율적이지 않으며, 데이터의 형태와 구조가 모두 다르기 때문에 같은 방법으로 검사하는 것도 불가능하다. 따라서 기업은 자사가 보유하고 있는 데이터를 분석해 데이터 품질을 높여야 하는 우선순위를 설정하고 품질을 측정할 범위를 결정해야 한다.

이에 대해 국내 데이터 전문기업 데이터스트림즈 관계자는 “예를 들어 대고객 서비스를 제공하는 기업에게 있어서 고객과의 계약 정보와 실제 결제(billing) 정보가 일치하는지는 매우 중요하다. 이에 비하면 직원들의 사내식당 이용률이나 메뉴 선호도 정보 등은 상대적으로 중요성이 낮은 데이터다. 모든 데이터에 대한 품질을 향상시키는 것은 이상적이기는 하지만 효과적이지는 않으며, 효율성을 고려해 품질 관리 대상을 선정해야 한다”고 조언했다.

품질 관리는 주기적‧반복적으로 수행해야 한다.
품질 관리는 주기적‧반복적으로 수행해야 한다.

품질 측정 대상을 선정했다면 실제로 검사를 수행하기 위한 기준을 고려해야 한다. 측정 기준은 해당 데이터의 어떤 요소를 점검할지를 선정하는 것이다. 데이터의 완전성, 정합성, 보안성 등을 모두 점검하고자 한다면 세부적으로 어떤 기준을 적용할 것인지 정해야한다. 이 과정에서는 앞서 언급한 효율성을 고려해, 모든 데이터에 대해 모든 관리기준을 적용할 필요는 없다는 것도 고려할 필요가 있다.

측정 대상과 기준이 정해졌다면 거기에 맞춰 가장 효율적인 항목별 측정 방법을 선정해야 하는데, 여기에는 데이터의 생성 주기나 특성, 활용도 등 실제 비즈니스 환경을 고려해야 한다. 예를 들어 주 단위로 데이터를 수집해 매월 마지막 날에 보고하는 데이터가 있다면, 해당 데이터의 품질을 시간 단위로 꾸준히 측정하는 것은 자원과 인력을 낭비하는 일이기 때문이다. 또한 데이터의 측성과 구조, 적용할 관리기준 등을 고려해 어떤 측정 기법을 사용할 지에 대해서도 고민해야 한다. 이를 위해서는 실제 데이터를 생산하고 활용하는 비즈니스 조직과 IT 조직 간에 충분한 협의가 필요하며, 필요하다면 외부 데이터 전문기관의 조력을 구하는 것도 좋은 방법이다.

 

지티원은 국내 대표적인 데이터 거버넌스 및 컴플라이언스 전문기업이다. 특히 지티원의 데이터 플랫폼은 ▲메타데이터 표준 관리 솔루션 ‘메타마이너(MetaMiner)’ ▲데이터 품질 관리 솔루션 ‘DQ마이너(DQMiner)’ ▲데이터 계보 관리 솔루션 ‘DL마이너(DLMiner) ▲DB/메타데이터 영향분석 도구 ‘체인지마이너(ChangeMiner)’ 등 기업의 데이터 거버넌스 정립을 위한 전방위 솔루션들을 갖추고 있다. 기업은 해당 솔루션들을 단일 플랫폼 상에서 활용하며 데이터 관리 프로세스를 간소화할 수 있다.

지티원은 단일한 거버넌스 플랫폼을 중심으로 전사 통합 데이터 관리를 지원한다.
지티원은 단일한 거버넌스 플랫폼을 중심으로 전사 통합 데이터 관리를 지원한다.

지티원 측은 전사적인 데이터 거버넌스를 갖추기 위해서는 데이터의 수집‧저장‧분석‧활용 등에 대한 횡적인 관리가 필요하다고 설명했다. 데이터 관리의 궁극적인 목적이 활용도를 높이기 위한 것인 이상, 기업의 데이터 관리 조직은 사내에서 일어나는 모든 데이터의 흐름을 직관적으로 확인하고 사용자들의 접근성을 높일 수 있어야 한다. 또한 비즈니스 조직이 직접 데이터를 찾고 분석 업무를 수행하는 오늘날, IT 조직의 도움을 받지 않고도 필요에 따라 원하는 데이터에 접근할 수 있는 편리한 데이터 접근 체계가 필요하다는 점을 강조했다.

지티원의 단일화된 데이터 거버넌스 플랫폼은 이와 같은 통합 데이터 관리에 최적화된 기능을 제공한다. 특히 데이터 품질 관리의 핵심 솔루션인 DQ마이너는 사전 검증된 데이터 품질 관리 방법론(Sigma+4DQM)을 적용하고 있으며, DB/메타데이터 영향분석 도구 체인지마이너와 연동해 오류 데이터를 발생시키는 원인을 추적하고 개선하는 데에 탁월한 기능을 제공한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지