[솔루션 리뷰] 지티원 데이터 품질 진단 솔루션 ‘DQ익스프레스’

공공기관 데이터 품질 진단 및 평가에 최적화

2024-06-30     박재현 기자
 DQ익스프레스 (출처: 지티원)

[아이티데일리] ‘쓰레기를 넣으면, 쓰레기가 나온다’. 데이터 품질의 중요성을 강조하는 가장 대표적인 말이다. 최근 많은 공공데이터가 개방되면서 공공분야에서 데이터품질에 대한 중요성이 강조되고 있다. 주로 용역사업을 통해 데이터를 개방해 온 공공기관들은 여러 이유로 직접 데이터 품질을 진단하고 향상하려는 움직임을 보이고 있다. 여기에는 데이터품질 진단 솔루션도 한몫 하고 있다.

대표적으로 지티원의 ‘DQ익스프레스(DQXpress)’를 들 수 있다. ‘DQ익스프레스(DQXpress)’는 데이터 품질 관리에 필요한 모든 기능을 갖추고 있는 기존 DQ마이너(DQMiner)의 경량화 버전으로 공공기관의 데이터 개방, 공공데이터 품질관리 수준평가 등을 전문적으로 지원하기 위해 특별히 만들어진 데이터품질진단 도구다. 지티원은 최근 DQ익스프레스를 조달청 디지털서비스몰에 등록하고 본격적인 공공시장 공략에 나섰다.

최근 정부는 △데이터 공유·개방·분석활용 △공공기관의 DB 품질관리 지침 △공공데이터 품질관리 수준진단·평가를 강조하며 공공데이터 품질향상을 위한 여러 조치를 취하고 있다. 특히 공공기관들이 ‘공공데이터법’ 제23조 품질진단 및 개선, 제24조 품질관리평가 및 조치 등을 반드시 준수하도록 의무화하고 있다. 정부가 공공데이터의 품질을 담보하지 않고서는 개방되고 있는 공공데이터가 의미가 없다는 점을 인식하고 데이터 품질을 높이는데 적극 나서고 있는 것이다.

실제 각 기관의 공공데이터 책임·관리자들은 공공데이터법을 준수해 매년 데이터 품질진단 평가지표를 제출해야 한다. 또한 공공데이터를 개방하기 위해서는 데이터 품질진단이 선행되어야 한다. 데이터 품질진단을 위해서는 품질진단 체계를 지원할 수 있는 도구가 필요하다.

지티원의 DQ익스프레스는 이 같은 공공기관의 공공데이터 품질을 자체적으로 진단할 수 있는 솔루션이다. 기존 지티원의 데이터 품질진단·관리도구인 DQ마이너(DQMiner)의 공공기관 전용 경량버전인 DQ익스프레스는 데이터 품질 진단 수행 및 진단결과 보고서 기능이 뛰어날 뿐 아니라 다양한 데이터 프로파일링 분석정보 활용해 진단 규칙과 업무 규칙을 쉽게 정의할 수 있다. 이외에 데이터 값, 표준, 구조 진단 결과 평가를 종합 보고서 형태로 쉽게 만들 수 있다는 특징을 갖고 있다. DQ익스프레스는 공공기관의 데이터 품질 진단 수행부터 진단결과 보고서까지 공공기관에서 필요한 모든 기능을 지원하고 있는 것이다.


데이터 품질진단 6가지 세부 수행 절차 지원

일반적으로 데이터 품질을 진단을 위해서는 ‘준비’ 단계, 실제 진단이 이뤄지는 ‘실행’ 단계 그리고 데이터 진단 결과를 확인하는 ‘확인’ 단계가 필요하다. 준비 단계에서는 진단 대상을 관리하고 진단 기준을 관리한다. 실행 단계에서는 진단 설정 및 실행 그리고 작업 스케줄이 이루어진다. 마지막으로 확인 단계에서는 진단 모니터링과 진단 결과 등의 세부절차가 진행된다. 지티원의 DQ익스프레스는 데이터 품질진단을 위한 이러한 6가지 세부 수행 절차를 모두 지원한다.

지티원의 DQ익스프레스 진단 프로세스 (출처: 지티원)


준비 단계

준비 단계에서는 진단 대상과 진단 기준을 관리한다. DQ익스프레스는 품질 진단 대상의 다양한 DB로부터 메타데이터를 자동으로 수집하고 관리한다. 오라클 DB부터 포스트그레SQL, My시퀄, 하이브, 프레스토, 마리아DB, 티베로 등 15종 이상 DB에서 메타정보를 수집할 수 있다. CSV 파일 데이터도 진단이 가능하다. 또한 사용자가 날짜를 지정해 메타정보를 수집할 수 있도록 설정할 수 있고, 테이블 관리 탭을 통해 수집된 다양한 메타정보를 간단하게 조회하고 관리할 수 있다.

DQ익스프레스는 도메인 유형별로 다양한 진단 기준을 설정하고 표준, 구조 진단 기준을 관리할 수 있다. 구체적으로 도메인 진단을 위한 도메인별 진단 기준을 정의하고 관리하며, 도메인과 컬럼을 자동으로 매핑할 수 있도록 해준다. 표준 및 구조 진단을 위한 기준정보 관리도 가능하며, 표준용어/도메인/테이블 정의서 등 표준 정보도 일괄 등록할 수 있다.

DQ익스프레스 개요도 (출처: 지티원)


실행 단계

DQ익스프레스는 ‘진단 설정 및 실행’, ‘작업 스케줄’ 등 절차를 포함하는 실행 단계에 많은 기능을 제공한다.

먼저 진단 설정 및 실행 절차에서는 △사전 데이터 프로파일링-통계분석 △쉽고 빠른 진단 기준 적용 △데이터 규칙 분석 등록 및 관리 △데이터 규칙 분석 및 업무 규칙 등록 지원 △빠른 진단실행 및 진단결과 조회 등 작업을 수행한다.

사전 데이터 프로파일링-통계분석 기능은 저장된 데이터 유형 및 분포현황을 파악하는데 용이하다. 메타정보 수집 시 컬럼 자동 프로파일링을 수행하며, 럼에 어떤 데이터가 담겼는지 바로 확인할 수 있다. 건수정보(전체, NULL, 공백, 유효, 개별, 중복 등), 빈도정보, 크기(길이)정보, 최대/최소값 정보 등 데이터의 다양한 정보를 제공한다.

DQ익스프레스는 프로파일링 분석 정보 기반으로 빠른 진단 기준을 적용할 수 있도록 해준다. 컬럼에 대한 진단 기준을 쉽고 빠르게 적용할 수 있으며, 일괄 편집(UI 내), 일괄 등록(엑셀 템플릿) 등 진단기준을 일괄적으로 적용할 수 있는 편의기능을 제공한다. 대량의 데이터도 일괄 등록하도록 지원한다.

DQ익스프레스는 데이터 규칙 분석 등록 및 관리를 지원한다. 참조 무결성 검증, 필수 값 검증, 중복 데이터 검증 등 간편한 설정을 통해 데이터 규칙을 분석할 수 있으며 일괄 등록도 가능해 대량의 데이터 규칙도 등록할 수 있다.

DQ익스프레스는 간단한 데이터 규칙은 물론 복잡한 업무 규칙 등록도 지원한다. 업무규칙 정의서를 기반으로 UI를 구성할 수 있고 진단 SQL에 대한 문법적 오류를 사전에 확인할 수도 있다. 업무규칙 정의서 내려받기 및 일괄 등록을 지원하며, 업무규칙 진단 현황 및 오류 데이터도 쉽게 조회할 수 있다.

DQ익스프레스는 빠르게 진단을 실행하고 결과를 조회할 수 있도록 해준다. 개별 또는 복수 등 진단 대상에 관계없이 빠른 진단을 실행할 수 있으며, 진단이 완료된 대상의 오류 데이터를 신속하게 확인할 수 있다. 또한 전체 오류 데이터를 실제 DB에서 직접 확인할 수 있도록 진단 SQL도 제공한다.

DQ익스프레스는 자동 스케줄 관리 기능을 지원한다. 모든 분석에 대한 스케줄을 자동으로 등록할 수 있고, 실행되지 않은 건에 대해 별도 스케줄 관리를 할 수 있다. 또 사용자가 지정한 특정 시간, 기간에 진단 예약도 할 수 있다.


확인 단계

DQ익스프레스는 진단 결과를 모니터링 하고, 진단 결과를 보고서 형태로 제공한다.

모든 분석에 대한 실시간 모니터링을 지원하고, 실행 중인 분석을 중단할 수 있고, 진단이 완료된 분석 결과를 바로 확인할 수도 있다. 시스템 오류가 발생할 경우 담당자에게 메시지를 보낼 수 있어 신속한 조치가 가능하다.

DQ익스프레스 종합진단 결과 화면 (출처: 지티원)

DQ익스프레스는 진단 결과를 보고서로 추출할 수 있는 기능도 제공한다. DQ익스프레스는 주요 결과로 요약된 종합 진단결과를 제공해 직관적으로 진단 대상 DB의 품질 현황과 추이를 확인할 수 있도록 해준다. 값/표준/구조 등 각 진단의 상세한 결과와 오류 데이터를 확인할 수 있고 모든 결과 보고서는 엑셀파일로 내려받을 수 있다.

특히 이 같은 결과보고서는 공공데이터 수준평가 대응을 위해 제출하기 용이하도록 값진단결과보고서, 표준진단결과보고서, 구조진단결과보고서 등으로 제공된다. 사용자는 내려받은 보고서를 개별 기관에 맞게 커스텀한 후 제출하기만 하면 된다. 공공데이터에 대한 품질인증 수준평가 보고서에 맞게 제공할 수 있다는 것이다.

DQ익스프레스 종합진단결과보고서 (출처: 지티원)


100곳 이상 공공 DB 품질 진단 레퍼런스 확보

지티원의 데이터품질 진단 솔루션은 현재 100곳 이상의 공공기관에 적용됐다. △지리산권관광개발조합 △스포츠토토 △예금보험공사 △한국환경공단 △한국등산트레킹지원센터 △한국수목원정원관리원 △한국교육학술정보원 등 수많은 기관의 DB 품질을 진단하는 데 적용됐다.

지티원은 데이터 품질 관리 솔루션인 디큐익스프레스를 이용해 공공데이터와 관련된 다양한 컨설팅을 수행하는 한편 솔루션 공급 사업도 함께 추진하고 있다.

조달청 디지털서비스몰에 등록된 지티원의 DQ익스프레스 (출처: 조달청)

지티원 데이터 거버넌스 사업본부장인 황기흥 전무는 “DQ익스프레스를 도입하면 개방 데이터뿐만 아니라 공공기관 개방 로드맵 데이터셋 품질을 사전 점검하고 담당자가 신속하게 파악할 수 있다. 이는 곧 신뢰성있는 공공데이터 개방으로 이어진다. 또한 어렵고 복잡한 공공데이터 관리지침의 모든 절차를 데이터 진단 전문가 없이 업무 담당자가 손쉽게 순차 형태로 품질관리를 수행할 수 있도록 자동화 기능도 지원한다”고 설명했다.

이어 황 전무는 “지티원은 데이터, 애플리케이션, AI 거버넌스, 금융 컴플라이언스 및 디지털 변환 솔루션을 개발하고 공급해 온 전문기업이다. AI가 확대됨에 따라 최근 데이터와 애플리케이션 거버넌스의 중요성이 확대되고 있는 상황이다. 우리는 데이터 카탈로그 서비스 ‘메타 카탈로그(Meta Catalog)’, 메타데이터 관리 솔루션 ‘메타 마이너(Meta Miner)’, 데이터 계보 관리 솔루션 ‘메타 호크(Meta Hawk)’, 데이터 품질/진단관리 솔루션 ‘DQ마이너/DQ익스프레스(DQMiner/DQXpress)’, 데이터 거버넌스 포털 프레임워크 ‘GT 데이터거브포털(GT DataGovPortal)’ 등 데이터 거버넌스 관리 작업에 요구되는 전 단계 솔루션을 제공하고 있다”고 말했다.