데이터에 제값 매기는 데이터 품질 관리

[아이티데일리] “쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out).” 데이터 업계의 오래된 명언 중 하나다. 질 낮은 기름이 자동차의 성능을 저하시키는 것처럼, 질 낮은 데이터는 분석의 결과를 신뢰할 수 없는 것으로 만들어 기업의 의사결정을 방해한다.

기업이 데이터에서 가치를 생산하고 비즈니스에 활용하기 위해서는 무엇보다 양질의 데이터를 대량으로 확보하는 것이 필수다. 데이터를 수집할 수 있는 채널이 늘어나면서 획득할 수 있는 데이터의 양은 폭발적으로 증가하고 있지만, 이러한 데이터들을 체계적으로 관리하고 활용할 수 있도록 일정 이상의 품질 수준을 유지하는 것은 쉽지 않다.

1부 - 지속 가능한 데이터 품질 관리 전략 마련하라
2부 - 접근성 높이려면 정확한 데이터 제공해야
3부 - 비즈니스 현황 반영한 데이터 거버넌스가 필요하다

 품질 낮은 데이터는 가치 ‘0’

디지털 뉴딜 전략의 핵심 과제인 ‘데이터 댐’ 프로젝트가 IT 산업계의 관심을 집중시키고 있다. 데이터 댐은 4차 산업혁명 시대의 원유로 불리는 데이터를 범국가적으로 축적‧공유할 수 있는 시스템이다. 공공과 민간을 구분하지 않고 전 산업 분야에서 생성되는 데이터를 모아 시너지를 일으킴으로써 향후 데이터 기반의 혁신을 위한 기반을 마련할 수 있게 된다. 특히 단순히 데이터를 모으는 것만이 아니라 필요한 데이터가 적재적소에 활용될 수 있도록 전체 라이프 사이클을 고려한 시스템을 만든다는 계획이다.

업계 일각에서는 데이터 댐이 제 역할을 하기 위해 데이터 품질 관리가 무엇보다 중요하다고 지적한다. 실제 댐에서 수질 관리가 되지 않아 썩은 물을 방치하게 되면 오히려 피해를 야기할 수 있는 것처럼, 데이터 댐 역시도 적절한 품질 관리가 이뤄지지 않으면 그 안에 담긴 데이터들이 모두 쓸모없는 것이 되기 때문이다. 일반적으로 서로 다른 분야에서 생성된 데이터를 결합시킬 경우 데이터의 품질이 떨어지게 된다. 이는 결합하려는 데이터의 종류가 다양해지고 수집 범위가 넓어질수록 더욱 큰 문제로 다가온다. 따라서 범국가적으로 모든 데이터를 집중시키려는 데이터 댐은 무엇보다 품질 관리를 중요시해야한다.

데이터 댐에서 수질 관리가 되지 않으면 하위 서비스들의 가치가 크게 훼손된다.
데이터 댐에서 수질 관리가 되지 않으면 하위 서비스들의 가치가 크게 훼손된다.

오늘날 데이터 품질은 ‘데이터가 갖춰야 할 기본적인 자격’이다. 최소한의 품질을 갖추지 못한 데이터는 정보로써 아무런 가치가 없기 때문이다. 전 세계 기업들은 새로운 인사이트를 찾고 가치를 창출하기 위해 데이터를 활용하려 하지만, 품질 관리가 되지 않은 데이터를 보관하고 있는 것은 썩은 물을 담고 있는 댐처럼 오히려 기업의 인프라와 비용을 낭비하게 만든다.

그렇다면 데이터 품질이란 무엇인가? 일반적으로는 완전성(Completeness), 정확성(Accuracy), 일관성(Consistency), 유효성(Validity) 등을 데이터 품질을 측정하는 지표로 활용하지만, 단순하게 말하자면 ‘데이터가 얼마나 정확한지’를 뜻한다고 볼 수 있을 것이다. 가령 A라는 고객에 대한 데이터가 그 사람의 이름이나 연령, 거주지, 구매 이력 등을 정확히 담고 있다면 좋은 품질을 갖춘 데이터다. 필요한 정보가 누락돼 있거나 너무 적은 정보량만을 담고 있다면 좋은 데이터라고 할 수 없을 것이다. 따라서 데이터 품질을 높이기 위해서는 데이터가 정확하고 풍부한 정보를 가질 수 있도록 수집‧저장‧활용에 이르는 전체 데이터 라이프 사이클을 점검해야 한다.


장기적인 품질 관리 전략 갖춰야

기업은 자사가 보유한 데이터를 점검하고 잘못되거나 누락된 항목을 찾아 수정하는 것만으로도 데이터 품질을 높일 수 있다. 하지만 이와 같은 수정‧보완만으로는 장기적인 효과를 기대할 수 없다. 단기적으로 수집된 데이터를 고쳐 품질 수준을 높일 수는 있겠지만, 잘못된 데이터가 발생한 원인을 고치지 않으면 시간이 지남에 따라 지속적인 품질 하락이 발생하기 때문이다. 가령 고객 데이터에서 주소 항목이 지속적으로 누락되고 있다면, 단순한 휴먼 에러인지 시스템 상의 문제인지를 확인하고 같은 문제가 발생하지 않도록 보완해야 한다.

새롭게 생성되는 데이터만이 아니라 기존에 축적돼 있던 데이터 역시 마찬가지다. 데이터의 품질은 시간이 지날수록 낮아진다. 한 번 정확한 데이터를 만들어놓았다고 해서 일정 수준의 품질이 유지되는 것이 아니라는 의미다. 이는 기업의 주변 환경과 업무 체계가 지속적으로 변화하기 때문이다. 가령 고객에 대한 데이터는 지속적으로 최신화하지 않으면 잘못된 데이터가 된다. 고객이 전화번호를 바꾸거나 이사를 했는데 이러한 정보가 정확히 반영되지 않는다면, 해당 고객 데이터는 품질이 낮은 가치없는 데이터가 된다.

따라서 오늘날의 데이터 품질 관리란 일회성 프로젝트가 아니라 항구적인 시스템과 프로세스로 이해해야 한다. 데이터 품질을 높게 유지하기 위해서는 정확한 데이터가 지속적으로 축적될 수 있도록 장기적인 관점에서 바라봐야 한다는 뜻이다. 이는 결국 데이터의 수집에서부터 활용에 이르기까지 모든 과정을 관리할 수 있는 전사적인 데이터 거버넌스(Data Governance) 체계를 다잡아야 한다는 것을 의미한다.

장기적으로 지속 가능한 데이터 품질 관리 전략이 필요하다.
장기적으로 지속 가능한 데이터 품질 관리 전략이 필요하다.

사실 데이터 품질에 대한 이처럼 관심이 높아진 것은 그리 오래되지 않았다. 데이터 전문기업이나 관련 연구를 수행하는 전문가들은 지속적인 데이터 품질 관리의 중요성을 얘기해왔지만, 수요기업 입장에서는 와닿지 않았던 것이다. 데이터 품질이 높으면야 당연히 좋지만, 투자 순서를 결정할 때 앞자리에 있지는 않았다.

이는 데이터의 분석 수요와 트렌드가 지금과 다르기 때문이다. 몇 년 전만 해도 IT 조직에 데이터 분석을 의뢰하면 며칠을 기다려 보고서 하나를 받는 게 당연하게 여겨졌다. 분석 의뢰가 들어왔는데 정확한 데이터가 갖춰져 있지 않다면, 아예 데이터를 다시 수집하는 단계부터 시작하는 경우도 있었다. 산업계의 트렌드 변화가 빠르지 않았던 시절에는 이렇게 대처해도 비즈니스를 영위하는 데에 문제가 없었다. 데이터 품질은 항상 높은 수준으로 관리돼야 하는 게 아니었으며, 필요할 때만 집중적으로 관리해줘도 충분했다.

하지만 오늘날 데이터 분석은 무엇보다 민첩성이 강조되고 있다. 이제 전 세계 지역별 매출 보고서 하나를 받아보기 위해 며칠씩 기다려주는 비즈니스 조직은 없다. 필요한 보고서 하나를 얻기 위해 프로젝트성으로 DW를 구축하고 밤새 분석 솔루션을 돌리는 구시대적인 방법으로는 고속화된 비즈니스 환경 변화에 대응할 수 없다. 이제 데이터는 요청이 있을 때마다 확인하고 보완하는 자원이 아니라, 항상 최신화되어 있으며 언제든 뚜껑을 열어 확인할 수 있는 실시간성을 갖춰야 한다.

 

데이터스트림즈는 다양한 채널에서 수집되는 데이터들을 체계적으로 관리해 ‘보이는 데이터 거버넌스’를 구현하는 ‘이루다(IRUDA)’를 보유하고 있다. 이루다는 데이터스트림즈가 지난 20여년 간 데이터 전문 비즈니스를 수행하며 축적한 기술력과 관련 솔루션들을 결집한 통합 거버넌스 관리 솔루션이다.

‘이루다’는 데이터스트림즈의 솔루션들을 결합해 전사 데이터 거버넌스를 완성한다.
‘이루다’는 데이터스트림즈의 솔루션들을 결합해 전사 데이터 거버넌스를 완성한다.

그동안 데이터스트림즈는 ▲메타데이터 표준을 사전 정의하고 모니터링하는 ‘메타스트림(MetaStream)’ ▲데이터 품질 지표 관리와 직관적인 검증/진단이 가능한 ‘퀄리티스트림(QualityStream)’ ▲데이터 라이프 사이클과 흐름 정보를 시각화하는 ‘Q-트랙(Q-Track)’ 등 다양한 데이터 전문 솔루션들을 제공해왔다. 하지만 각각의 기능들이 솔루션별로 나뉘어 있다보니 다양한 기능을 필요로 하는 사용자 입장에서는 어려움이 따랐다.

이러한 문제를 해결하기 위해 데이터스트림즈는 통합 거버넌스 관리 솔루션 이루다를 출시했다. 이루다는 기존에 데이터스트림즈가 제공하던 다양한 데이터 전문 솔루션들을 하나로 연결한다. 메타데이터 관리와 데이터 품질 관리, 계보 관리 등을 하나로 연결해 사용자가 단일한 솔루션 내에서 기업 내 모든 데이터 라이프 사이클을 편리하게 확인할 수 있도록 돕는다. 특히 지난해 출시된 2.0버전에서는 서치&디스커버리(Search & Discovery) 기능을 강화해, 간단한 키워드 검색으로 원하는 데이터의 위치와 구성 정보를 찾고 손쉽게 연결할 수 있다.

비투엔은 국내에서 약 16년 간 데이터 컨설팅 서비스를 제공하며 뛰어난 기술력과 노하우를 축적해왔다. 특히 데이터의 중요성과 활용도가 높아지면서 정확한 데이터를 만들어 품질을 향상시킬 수 있는 프로세스와 관리 체계의 중요성을 지속 강조하고, 기업들이 장기적인 전략으로 데이터 품질 관리를 수행할 수 있도록 다양한 서비스를 제공하고 있다.

최근 비투엔은 데이터 품질 관리가 기업들의 핵심 역량으로 떠오르면서 ▲품질진단 솔루션 ‘SDQ(Smart Data Quality)’ ▲메타데이터 관리 솔루션 ‘SMETA(Smart Metadata)’ ▲이기종 데이터 통합 솔루션 ‘SFLOW(Smart Data Integration)’ 등 자사의 데이터 전문 솔루션을 바탕으로 비즈니스를 펼치고 있다.

‘SDQ’는 대용량 데이터에도 빠르고 정확한 데이터 품질 진단이 가능하다.
‘SDQ’는 대용량 데이터에도 빠르고 정확한 데이터 품질 진단이 가능하다.

특히 SDQ는 데이터 품질 관리를 위한 핵심 솔루션으로, 기업과의 컨설팅을 통해 정확한 데이터 품질 지표를 수립하고 이를 효과적으로 운영할 수 있도록 다양한 기능을 갖추고 있다. 지속적인 데이터 운영 프로세스 분석으로 비효율적인 부분이나 오류가 발생할 수 있는 부분을 사전에 탐색해 개선할 수 있도록 돕는다. 또한 그간 다수의 SQL 튜닝 프로젝트를 경험하며 쌓은 기술력을 적용해, 기업이 대량의 데이터에 대한 전수 검사를 수행할 경우에도 효율적이고 빠른 성능을 제공할 수 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지