정제·구조화 품질 향상 및 비용, 폐쇄적 포맷 등 문제 해결 선행돼야
[아이티데일리] 행정안전부가 공공데이터에 ‘AI 레디(AI-Ready)’ 개념 도입에 나섰다. 데이터를 학습·분석에 즉각 활용할 수 있는 형태로 품질을 고도화하고 표준화해 그간 실제 현장에서 체감하던 공공데이터 활용의 한계들을 개선하겠다는 계획이다. 그러나 국내 데이터·AI 업계에서는 기대와 함께 우려 섞인 시선을 보이고 있다.
앞서 행안부는 데이터 형식 표준화, 고유 식별자 통일, 오류·결측 최소화, 메타데이터 부착 등을 골자로 한 AI 레디 기준을 올해 하반기 전국 공공기관 데이터에 단계적으로 확대한다는 계획을 발표했다. 미국과 영국 등 주요 국가들이 AI 친화적 데이터 개방에 속도를 높이는 가운데, 우리 정부 역시 산업 경쟁력 강화와 디지털 혁신 생태계 조성을 목표로 적극 대응에 나선 것이다.
이러한 노력으로 메타데이터, 표준화, API화가 강화되면서, 기업·연구자·개발자 등은 별도의 정제 비용·노력 없이 곧바로 AI 개발 및 서비스 상에서 즉시 공공데이터를 활용할 수 있을 것으로 기대된다.
희망적인 기대만 있는 것은 아니다. 데이터·AI 업계에서는 AI 레디 데이터를 위한 정제·구조화 품질 향상, 데이터 정제·구조화에 필요한 비용 및 폐쇄적 포맷 등 문제를 해결하는 것이 중요하다고 강조한다.
현재 공공데이터는 정부의 데이터 품질 관리 기조와 달리 데이터 상당수가 내용 없는 빈 껍데기에 가깝다는 지적이 이어지고 있다. 정제·구조화가 충분히 이뤄지지 않은 데이터를 AI 학습에 투입할 경우, 오히려 왜곡된 결과와 환각 위험만 커질 수 있다.
특히나 각 기관이 자체적으로 관리해 온 데이터 포맷, 주소 체계, 행정코드 등을 AI 레디 표준으로 맞추기 위해서는 대규모 시스템 개편과 인력 투입이 불가피하다. 한 관계자에 따르면, 중소 지자체와 공공기관의 경우 데이터 담당 인력이 1~2명에 불과한 경우가 많아, 표준화와 메타데이터 구축 작업을 병행하기 어렵다는 지적이 제기된다.
위성곤 의원실이 전국 행정기관 종사자 14,208명을 대상으로 한 설문조사 결과에 따르면 응답자의 91.1%(12,946명)가 HWP(한글문서)나 이미지·스캔 PDF 등 AI가 직접 읽기 어려운 폐쇄적 포맷으로 작성·존재하는 것으로 나타났다. AI 레디 체계 이행까지는 적잖은 시간이 소요될 전망이다.
현장에서는 데이터 품질·표준화 부담, 역량 부족 등으로 인해 즉각적인 수용과 정착에는 시간과 논의가 필요한 상황이다.
한 데이터 라벨링 기업 관계자는 “데이터 품질 관리, 메타데이터 정책, 연계 품질 평가 등 세부 기준 및 가이드라인은 2025년 하반기 중 정부 실무단에서 논의 후, 연내 확정·배포될 예정인 것으로 알려진다”면서 “긍정적인 방향도 존재하지만, 면면을 들여다보면 아직 상세히 논의돼야 할 사안들이 많다. AI 레디 정책이 긍정적 변화로 이어지기 위해선 단순한 개방·고지를 넘어, 실제 현장 활용성과 품질 보장을 위한 체계적 가이드와 AI 활용 역량 강화를 위한 지원책이 병행돼야 한다”고 주문했다.


