[AI와 데이터 ②] 공공데이터 개방, 양적 성장 그늘에 가려진 질적 한계

데이터 품질·신뢰성 각자도생식 관리 등 해결해야 할 과제 산적

2025-07-11     박재현 기자
(이미지=픽사베이)

[아이티데일리] 정부가 공공데이터 개방 정책을 추진한 지 올해로 13년째를 맞이했다. 이 정책은 공공데이터 포털, AI-허브와 같은 인프라를 통해 정부가 보유한 데이터를 개방하고 이들 데이터를 누구나 재사용해 새로운 창업 기회를 제공하기 위해 추진됐다.

그동안 각종 공공데이터가 개방되면서 데이터의 양은 세계적 수준에 이르렀지만 데이터의 품질, 데이터의 관리체계등에는 여전히 많은 문제를  안고 있는 상황이다.

“데이터는 많은데, 쓸 만한 데이터가 없다”

데이터 업계에 따르면, 정부의 공공데이터포털에서 제공되는 데이터 품질과 최신화에 문제가 심각한 것으로 나타났다.  오류가 많거나, 업데이트가 제때 이뤄지지 않아 최신성이 떨어지는 공공데이터가 많다는 것. 또한 특정 통계 데이터의 불일치나 누락 그리고 기관별 데이터 관리 표준 부재로 인해 데이터 형식이 파편화된 상황이다. 유사한 산업 통계 데이터조차 파일 형식이나 컬럼명, 입력 방식이 제각각으로 데이터 활용에 문제가 있다.

실제로 2024년 3분기 인구 통계 데이터가 2025년 5월이 되어서야 업데이트됐고, 일부 환경 데이터는 미세먼지 농도가 0이거나 비정상적으로 높은 수치로 기록돼 있으며, 산림청 나무병원 데이터에 영업 중인 나무병원이 폐업된 것으로 나오는 등 데이터 오류가 빈번하게 발견되고 있다.

이런 오류 데이터 기업이나 일반 시민들이 활용하기 위해서는 추가적인 정제 작업에 많은 시간과 비용이 소요된다. 이에 대해 한 데이터 기업 관계자는 “지자체마다 데이터 포맷이 달라 통합 분석에만 몇 주씩 소요되며, 비용과 시간이 너무 많이 든다”고 토로했으며, 데이터 품질 관련 기업의 한 관계자는 “공공데이터 활용 기업 대부분이 데이터 정제에 많은 노력을 하고 있다”고 지적하기도 했다.

수요자 중심 데이터 개방, 업계 “정제 데이터 비중 낮아” 비판

데이터 업계에 따르면 공공데이터의 양은 방대하지만, 정작 필요한 데이터는 비공개되어있거나, 있더라도 활용하기 어려운 형태로 제공되고 있다. 이는 우리나라의 공공데이터 개방 정책이 공급자 중심으로 이루어지고 있기 때문으로 풀이된다.

현재 정부가 개방하고 있는 공공데이터 상당수는 이미 공개된 통계나 원시 데이터에 치우쳐 있다. 새로운 서비스 개발이나 비즈니스 혁신에 필요한 융합 데이터, 정제 데이터가 부족하다는 것이다. 데이터 업계 관계자는 “공공데이터포털에 등록된 데이터 중 사업에 활용할 수 있는 것은 극히 일부”라면서 “정작 필요한 데이터는 비공개이거나, 접근 절차가 복잡해 활용이 쉽지 않다”고 주장했다.

데이터에 대한 설명과 활용 가이드라인이 부족하다는 점도 지적되고 있다. 데이터 파일 내 코드값, 컬럼명, 단위 등 핵심 정보에 대한 설명이 부실해, 데이터를 해석하는 데만 며칠이 걸리는 경우가 있는 것으로 나타났다. 한 관계자에 따르면, 많은 공공데이터에는 메타데이터나 활용 가이드가 제대로 갖춰지지 않아 실제 분석이나 서비스 개발에 투입되는 시간과 비용이 과도하게 늘어나고 있다.

API 제공 한계와 기술 지원 부재도 문제로 꼽힌다. 대량 데이터를 실시간으로 연동하거나 다양한 서비스에 접목하는 과정에서 API 호출 제한이나 서버 불안정, 데이터 포맷의 비일관성 등으로 인해 현업에서 어려움이 발생하고 있다. 특히 데이터 활용 과정에서 발생하는 기술적 문제에 대해 정부 차원의 실질적 지원이 부족해, 스타트업과 중소기업은 진입 장벽을 느끼고 있는 상황이다.

이에 데이터 업계 관계자들은 “양적 확대에만 치중할 것이 아니라, 수요자 중심의 맞춤형 데이터 개방과 체계적 활용 지원이 시급하다”면서 “데이터 표준화, 메타데이터 구축 의무화, API 고도화, 기술 지원 인력 확충 등 실질적 개선책이 병행돼야 한다”고 주문했다.

각자도생식 관리에 책임 소재 불분명…개방자에서 공급자로 거듭나야

공공데이터 개방에 대한 상당부분 문제들은 공공데이터 관리 체계 부실때문이다. 특히 이러한 문제들은 정부가 데이터 개방에만 역점을 두었기때문에 발생한 것으로 해석된다. 각 부처에 데이터를 공개하라는 방침만 전달했지, 공개에[ 대한 기준이 전달되지 않아 아무런 기준이 없이 데이터 개방이 이뤄진 것이다. 이는 결국 데이터에 대한 책임 소재를 없애 관리 부실로 이어진다.

정부 부처와 기관들은 데이터를 분산 관리하는 과정에서 통합적인 관리 시스템이나 협업 체계가 미흡했다. 서로 다른 기준으로 공공데이터를 관리하다보니 유사하거나 중복되는 데이터가 여러 곳에서 서로 다른 형태로 제공되고 있는 것이 현실이다.

특히 최근에는 부처 담당자 변경으로 데이터 공급이 중단되는 일도 비일비재한 상황이다. 업계 관계자에 따르면, 최근 부처 담당자가 바뀌어 데이터 공급을 중단한다는 공지가 보이고 있다.

아울러 공공데이터가 만들어 내는 후방 산업의 중요성을 인식하지 못한다는 점도 문제다. 정부는 공공데이터 개방 후 중점 데이터 선정 및 관리 체계를 만들었지만, 후방 산업의 성장과 동떨어져 있다. 정부는 개방한 데이터가 어느 산업에 어떻게 적용되는지 모르고 있으며, 단순히 공공데이터 다운로드 횟수에만 관심을 보이고 있다. 이는 공공데이터 개방이 실제 어떤 가치를 창출하고 있는지에 대한 심층적인 평가와 환류 시스템이 미흡하다는 방증이다.

데이터 업계 관계자는 “공공데이터 개방 정책이 데이터 경제 활성화 구현에 기여하기 위해서는 정부의 적극적이고 현장 중심의 실질적 개선 노력이 절실하다”면서 “지금까지 정부가 데이터 개방자의 역할에 충실했다면, 이제는 데이터 공급자로 변모해야 할 시점이다”라고 주문했다.