‘일단 모으자’고 접근하면 데이터 늪 만들 뿐…거버넌스 관리로 시작해 데이터 패브릭으로의 길 모색해야

김성수 프로필
김성수 프로필

[아이티데일리] 지난 9월 2일, 윤석열 대통령 직속의 디지털플랫폼정부위원회(위원장 고진)이 출범했다. 이날 출범식에는 윤석열 대통령이 직접 참석해 다양한 분야의 현장 전문가 18명을 위원회 민간위원으로 위촉하고, 앞으로 위원회가 디지털플랫폼정부 구축을 성공적으로 달성할 수 있도록 격려의 메시지를 전했다.

디지털플랫폼정부는 이번 정부의 핵심 과제인 만큼 IT 업계에서도 위원회의 향후 행보에 비상한 관심이 모이고 있다. 하지만 한편으로는 이번 위원회 출범식에서 언급된 디지털플랫폼정부의 데이터 아키텍처에 대해 우려의 시선도 나온다. 민간위원 중 인프라 분과위원장으로 위촉된 오종훈 카이스트 교수가 “공공기관의 데이터가 막힘없이 공유될 수 있도록 데이터 레이크를 구축하겠다”는 메시지를 던졌기 때문이다.

한동안 데이터 레이크는 빅데이터 시대에 반드시 필요한 것으로 여겨졌다. 조직 안팎의 모든 원시 데이터(raw data)들을 날것 그대로 모으자는 데이터 레이크의 개념은 폭발적으로 증가하는 데이터들에 대응 가능한 유일한 해답처럼 보였다. 하지만 그동안 전 세계에서 구축된 수많은 데이터 레이크 중 상당수는 그저 데이터를 모아서 쌓아두었을 뿐인 데이터 야적장이나, 한 번 빠뜨린 데이터를 다시 건져 올리기 어려운 데이터 늪(swamp)으로 전락하고 말았다. 많은 이들이 데이터 레이크를 통해 데이터의 사일로(silo)화를 해결하고 접근성을 높일 수 있을 것이라고 선전하지만, 정작 데이터 레이크의 정제되지 않은 데이터에서 원하는 것을 찾는 작업은 일부의 데이터 전문가들에게나 가능한 일이다.

물론 데이터 레이크에 장점이 없는 것은 아니다. 정형·비정형을 가리지 않고 실시간으로 생성되는 수많은 데이터들을 빠르게 담기 위해서는 원시 데이터를 그대로 저장하는 데이터 레이크가 효과적인 전략일 수 있다. 하지만 이러한 데이터 레이크의 장점이 디지털플랫폼정부에 적합한 것일까? 오히려 공공기관의 IT 전문성이 부족한 우리나라의 실정을 고려한다면, 비전문가의 데이터 접근성을 떨어트리는 데이터 레이크의 단점만이 강조될 가능성이 높다.

또한 지난 정부에서 적극적으로 추진했던 ‘16대 빅데이터 플랫폼 구축사업’이나 ‘데이터 댐 구축사업’ 등은 데이터 정제나 품질 관리에 상당한 자원을 투자했음에도 결과물의 활용성이나 접근성, 품질 등이 만족스러운 평가를 받지 못하고 있다. 이러한 전례가 있는데도 각 부처의 데이터들을 데이터 레이크에 ‘일단 모아보자’는 식으로 접근해서는 결코 디지털플랫폼정부의 성공을 기대할 수 없을 것이다.

이번 정부가 지속적으로 강조한 디지털플랫폼정부의 핵심 중 하나는 ‘모든 데이터가 연결되는 디지털 플랫폼’을 기반으로 한다는 것이다. ‘모든 데이터의 연결’은 단순히 데이터들을 물리적으로 한 곳에 몰아넣겠다는 급진적인 방법으로는 이뤄지지 않는다. 오히려 부처별로 각각의 데이터 관리주체를 명확히 하고, 이들을 중심으로 기준정보(master data)와 메타데이터를 관리하는 데이터 거버넌스를 정립한다는 다소 고전적인 접근방법이 필요하다. 잘 정립된 데이터 거버넌스는 데이터를 물리적으로 한 장소에 모으지 않아도 논리적인 연결을 수행하는 데이터 가상화(data virtualization)가 가능하며, 메타데이터를 기반으로 원하는 데이터를 찾도록 돕는 데이터 카탈로그(data catalog)를 통해 접근성도 높일 수 있다.

디지털플랫폼정부가 원하는 ‘모든 데이터의 연결’을 위해서는 더 이상 빅데이터 시대의 만능열쇠로 기능하지 못하는 데이터 레이크를 벗어나, 고전적인 데이터 거버넌스 정립을 시작으로 데이터 가상화와 카탈로그에 기반한 데이터 패브릭(data fabric) 전략을 고려해야 한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지