[AI 거버넌스 ②] AI 학습·추론·활용 전 주기 걸쳐 데이터 거버넌스와 연동돼야
데이터 거버넌스 선결 조건…5년 내 표준화 전망
[아이티데일리] 인공지능(AI)은 업무의 생산성을 높이고 의사결정 과정에 직접적으로 활용되면서 혁신의 도구로 이미 자리매김했다. AI를 활용하는 기업들이 늘어나면서 AI가 기업에 미치는 영향 또한 커지고 있다. AI가 내놓는 결과는 기업에 큰 도움을 줄 수 있지만 잘못된 결과로 인해 치명적일 수도 있다.
기업들의 AI 의존도에 비례해서 AI 신뢰성에 대한 중요성이 강조되는 이유다. 신뢰도가 떨어지게 되면 잘못된 정보나 편향된 분석값으로 인해 AI는 혁신의 도구가 아닌 큰 위협이 될 수 있다. 이에 업계에서는 AI 혁신을 지속하면서도 잠재적인 위험을 최소화하기 위한 방안을 마련하고 있다. 혁신과 신뢰를 모두 담보할 수 있는 핵심 방안으로 ‘AI 거버넌스(AI Governance)’가 부상했다. 3회에 걸쳐 AI 거버넌스를 조명해 본다.
[AI 거버넌스 ①] AI 시스템 전 주기에 원칙과 규범 정의
[AI 거버넌스 ②] AI 학습·추론·활용 전 주기 걸쳐 데이터 거버넌스와 연동돼야
[AI 거버넌스 ③] AI 윤리적 사용 보장 위한 공정·투명·책임 원칙 담겨야
AI 학습·추론·활용 전 주기 걸쳐 데이터 거버넌스와 연동돼야
AI 거버넌스는 AI의 학습·추론·활용 등 전 주기에 걸쳐 데이터 거버넌스와 밀접히 결합돼야 한다. 생성형 AI 이전 AI 업계를 주도했던 머신러닝 역시 궤를 같이한다. 머신러닝 학습 단계에서 데이터 거버넌스는 학습 데이터의 도메인, 출처, 라이선스를 등록하고, 개인 식별 정보(PII) 제거 및 익명·암호화 정책을 적용한다. 프로파일링, 유효성 검사 등 데이터 품질 규칙 및 특성 계보를 기록한다. 이를 기반으로 AI 거버넌스는 모델의 설명 가능성, 편향성/공정성 체크, 재현성을 위한 모델 카드 의무화 등을 관리할 수 있다.
다음으로 머신러닝 활용 단계에서 데이터 거버넌스는 입력 데이터의 버전 및 품질을 모니터링하고, 실시간 데이터 드리프트(drift)를 탐지하며, 데이터 카탈로그를 통해 엔드포인트 권한을 제어한다. 이를 토대로 AI 거버넌스에는 결과 편향 및 이상치 알림, 롤백 런북(Run-book) 준비, 설명 가능성 의무화 등을 담당하도록 규정해 운영 중 성능 저하를 조기 인식하고 법적·재무적 리스크를 줄일 수 있다.
LLM 학습 단계에서 데이터 거버넌스는 학습 코퍼스의 저작권 및 데이터 정보를 관리하고, 안전·유해 콘텐츠 필터링 파이프라인을 구축한다. 대규모 데이터 카탈로그 및 분산 저장 관리를 지원한다. AI 거버넌스는 인간 피드백 기반 강화 학습(RLHF)과 AI 모델 품질 및 안전성 체크리스트, 민감 주제 편향 테스트, HW/탄소 배출 KPI 거버넌스 등을 갖춰 저작권 소송 위험을 줄이고 유해 발언율을 낮출 수 있다.
마지막으로 AI 에이전트를 포함해 LLM 활용 단계에서 데이터 거버넌스는 프롬프트(Prompt) 및 출력 로그 저장(PII 마스킹 포함), RAG(검색 증강 생성) 소스 데이터의 출처·신뢰도·버전 관리, 사용자 입력 데이터 분류(보안 등급) 등을 담당한다. AI 거버넌스는 프롬프트 인젝션 및 탈출 가드레일 체계, 휴먼-인-더-루프(Human-in-the-Loop) 임계치 설정, 출처 미표기 응답 블로킹 정책 등을 관리해 기밀 유출 및 할루시네이션(환각)에 대응한다.
데이터 거버넌스는 AI 시스템이 필요로 하는 깨끗하고 신뢰할 수 있는 데이터를 제공하는 ‘입력 조건’의 역할을 하며, 동시에 AI 시스템이 운영되는 과정에서 발생하는 데이터 관련 문제(드리프트, 품질 저하)를 지속적으로 모니터링해 AI의 ‘운영 지속성’을 보장한다.
이와 유기적으로 결합된 AI 거버넌스는 이 데이터를 활용한 모델의 윤리성, 설명 가능성, 보안 위협 등을 통제해 AI 시스템 자체의 신뢰도를 높이는 역할을 한다. 따라서 두 거버넌스는 상호 보완적으로 작동해야 하며, 분리 불가능한 협력적 체계임을 알 수 있다.
데이터 거버넌스 역량 부족 시 AI 거버넌스 구축 ‘난관’
만일 데이터 거버넌스가 선행되지 않고, LLM이나 AI 에이전트가 데이터를 직접적으로 활용한다면 어떤 문제가 발생할까. LLM은 접근해야 하는 데이터가 위치한 저장소를 파악하기 어렵게 되면서 신뢰할 수 없는 데이터를 사용하게 된다. 또 이 과정에서 무단으로 데이터에 접근해 보안 정책을 준수하기 어렵게 되고 데이터 계보 역시 추적할 수 없게 된다.
결국 데이터 거버넌스 역량이 부족한 상태에서 AI 거버넌스를 구축할 경우 △AI 모델의 신뢰성과 성능 확보 △AI 리스크 식별 및 통제 지표 설정 △협업 및 책임소재 체계 등에 어려움을 겪게 된다. 정제되고 신뢰할 수 있는 데이터가 부족해 AI 모델의 성능과 신뢰성 확보가 어렵게 되는 것이다. 거버넌스를 세우고 싶어도 기반이 되는 데이터 체계가 잡혀있지 않으니, AI 프로젝트마다 데이터 수집·정제 과정에서 여러 문제에 봉착하게 된다.
또한 데이터 관리 경험이 부족할 경우, AI 리스크 식별과 통제 지표 설정에도 애로사항이 발생한다. 나아가 데이터 거버넌스 문화가 조직에 뿌리내리지 않으면, 협업이 어렵고 책임 소재도 불분명해 AI 거버넌스 도입에 내부 저항이 생길 수 있다.
거버넌스 특화 기업 및 솔루션 도움 받아야
데이터 거버넌스 기반 AI 거버넌스 도입의 어려움을 타개하기 위해선 국내 데이터 거버넌스 기업의 솔루션을 활용하는 전략이 필요하다. 이에 국내 데이터 거버넌스 전문기업들 역시 기존 데이터 거버넌스 솔루션에 특정 AI 거버넌스 요건들을 충족할 수 있는 기능을 넣거나, AI 거버넌스 자체 제품을 개발하며 AI 거버넌스로 사업 영역을 확대하고 있다.
우선 지티원은 데이터 품질을 진단하는 솔루션인 ‘DQ익스프레스(DQXpress)’와 ‘RAI(Responsible AI) 수준진단 툴킷(Toolkit)’, ‘AI 워크벤치(AI Worknbench)’를 내세우고 있다. 이들 제품을 통해 기업의 데이터·AI 관리 수준을 진단하고 격차를 파악할 수 있다. 또한 진단 결과를 토대로 국내외 모범 사례를 반영한 참조 모델과 체크리스트를 제시해 데이터 거버넌스 경험이 부족한 조직도 빠르게 AI 거버넌스 체계를 수립할 수 있도록 지원하고 있다.
여기에는 정부에서 제시하는 AI 가이드라인을 분석해 만든 AI 기획-개발-운영 단계의 표준 프로세스와 체크리스트 등이 통합돼 제공된다. 이를 기반으로 표준화된 프로세스와 체크리스트를 기업에 맞게 커스터마이징해 곧바로 적용할 수 있다. 아울러 데이터 거버넌스 역량을 키우기 위해 ‘메타마이너(MetaMiner)’, ‘메타카탈로그(MetaCatalog)’, ‘DQ마이너(DQMiner)’, ‘데이터호크(DataHawk)’ 등의 솔루션도 함께 공급하고 있다.
엔코아는 AI 거버넌스에 앞서 데이터 거버넌스를 AI 기반으로 자동 구축할 수 있는 솔루션인 ‘메타샵 에이아이(META# AI)’를 제안하고 있다. 엔코아는 기존 ‘메타샵’ 제품에서 AI 거버넌스 구축을 빠르게 지원하고자 AI로 제품을 고도화했다. 메타샵 에이아이는 엔코아의 데이터 관리 컨설팅 노하우를 AI에 접목해 데이터 거버넌스 구축에 필요한 데이터 표준화 워크플로우를 자동화하는 솔루션이다. 솔루션을 활용한 결과물을 메타데이터 관리 시스템에 유연하게 적재할 수 있어 데이터 거버넌스 자동화를 구현할 수 있다.
기업의 데이터 자산인 DB, 업무 문서, 소스코드를 기반으로 데이터 구축 대상을 자동 식별하고 △데이터 프로파일링 △RAG 기반 분석 △표준 사전 자동 구축 △모델 자동 현행화 △주제별 자동 매핑 △품질 규칙 자동화 △메타 시스템 자동 연계 등 자동화 워크플로우로 데이터 거버넌스를 구축해 메타데이터 관리 시스템에 적재하는 과정까지 지원한다.
아울러 ‘데이터웨어 AI-파워드 팩’을 제공해 AI 에이전트가 정해진 워크플로우를 따라 움직이도록 만들어 AI 거버넌스를 준수하도록 지원하고 있다. 전체 작업의 구조와 순서를 책임지는 워크플로우를 통해 복잡한 비즈니스 로직을 태스크 단위로 구분하고 연결해 업무 논리를 명확화할 수 있다. 또한 고정된 경로를 따라 실행되므로 테스트, 감사, 보안 측면에서도 유리하다.
데이터 거버넌스 전문기업인 데이터스트림즈 역시 ‘신뢰 기반 생성형 AI’를 사업 전면에 내세우고 있다. 구체적으로 데이터 패브릭(Data Fabric) 제품인 ‘테라원(TeraONE)’을 기반으로 데이터 접근성을, 데이터 표준과 품질, 비즈데이터, 흐름관리 등 데이터 거버넌스와 데이터 카탈로그를 통합한 ‘이루다(IRUDA)’, 데이터 품질을 관리하는 ‘퀄리티스트림(QualityStream)’ 등을 제안하고 있다.
이와 함께 LLM의 정확성과 신뢰도 향상을 위해 청킹(Chunking)된 문서에 메타데이터를 태깅해 RAG 검색에 최적화된 구조를 만들고, 데이터 품질과 사용 이력을 기반으로 신뢰성을 확보하는 전체 데이터 흐름을 설계하고 통제하는 방식도 제안하고 있다. 아울러 타 시스템과 연동할 수 있도록 라마(LLaMA)와 미스트랄(Mistral) 등 오픈소스 LLM 기반 모델 교체가 가능한 구조를 설계하고 있다.