[전문가 기고] AI 프로젝트, 처음부터 끝까지 데이터가 좌우한다

가트너 알렉산더 린든(Alexander Linden) VP 애널리스트

2025-07-31     알렉산더 린든
가트너 알렉산더 린든 VP 애널리스트

[아이티데일리] 인공지능(AI), 생성형 AI 프로젝트의 성패는 전적으로 데이터에 달려있다. AI 기술, 모델 성능의 탁월함과 무관하게 데이터를 부적절하게 수집, 관리, 보호한다면 AI 수명 주기 전반과 최종 결과물에 심각한 악영향을 미치기 때문이다. AI 프로젝트에서 데이터 리스크를 관리하는 업무는 특정 인원이나 부서가 전담할 수 없어 데이터 처리 문제는 더욱 까다로워진다.

데이터는 기업 전반에 분산돼 있으며, 데이터 파이프라인은 모든 기업의 필수 구성 요소다. 따라서 어느 한 사람에게만 데이터 관리 책임을 부여하는 것은 불가능하다. 최고데이터책임자(CDO), AI 책임자, 데이터 관리자, 보안 담당자, 비즈니스 라인(LOB) 관리자를 비롯한 다양한 이해관계자가 협력하고 책임을 분담해야 한다.

하지만 이 공동 책임 구조는 AI 프로젝트의 복잡성을 높이기 때문에, AI 수명 주기 전반에 걸쳐 주요 데이터 리스크를 식별하고 이를 효과적으로 줄일 수 있는 방안을 마련해야 한다. AI 프로젝트에서 주요 데이터 리스크와 그 해결방안을 살펴보자.


핵심 데이터 요소 누락 방지

대부분의 기업이 AI 데이터 수집 단계에서 당면한 과제에만 집중해, 향후 활용될 수 있는 후속 애플리케이션 요구사항은 고려하지 않는다. 이렇게 만들어진 데이터 세트는 불완전하게 구성돼 낮은 성능의 AI 모델로 이어진다.

이를 방지하기 위해서는 데이터, AI 거버넌스 프로그램을 구축해야 한다. 수집된 데이터와 메타데이터의 유형을 정기적으로 점검해 현재뿐만 아니라 향후 있을 AI 모델 개발까지 지원하는 포괄적인 데이터를 수집해야 한다.


데이터 왜곡 문제 완화

메타데이터나 맥락 정보가 부족할 경우, 수집된 데이터가 잘못 해석될 여지가 있다. 예를 들어 온도 데이터를 정확한 수치값 대신 ‘낮음’, ‘중간’, ‘높음’으로 단순화하면, 데이터의 정밀도가 떨어져 AI 모델 성능이 최적화되지 않거나 품질에 악영향을 미치게 된다.

이를 해결하기 위해서는 데이터 분포, 변환, 선택, 필터링, 프로토콜 등 명확한 데이터 측정 기준을 마련해야 하며 고급 데이터, 메타데이터 수집 도구와 기술을 활용해 다양한 관련 데이터를 정확히 수집하고 측정해야 한다.


적절한 검증, 테스트 데이터 확보

테스트 데이터가 AI 모델이 직면할 실제 시나리오를 정확히 반영하지 못하면 모델 성능 평가가 정확하지 않을 수 있다. 이 결과 통제된 환경의 테스트에서는 우수한 성능을 보였을지라도 실제 운용할 때는 불완전하게 작동될 수 있다.

이를 방지하려면 모델이 마주할 현실적인 조건을 충실히 반영하는 테스트 데이터를 선정해야 한다. 테스트 데이터의 신뢰성을 높이기 위한 계층화, 교차 검증, 지속적인 모니터링과 같은 기법을 활용하는 것도 많은 도움이 된다.


데이터 정합성 부족 문제 해결

정제되지 않거나 검증되지 않은 데이터를 사용하는 것은 AI 모델에 심각한 오류와 부정확성을 초래할 수 있다. 그렇다고 해서 과도한 정제 과정을 거칠 경우 필요 이상의 시간과 자원 낭비로 이어질 수 있기 때문에, 어느 수준까지 데이터를 정제할 것인지를 정하는 것이 중요하다. 데이터 품질과 데이터 옵저빌리티에 투자해, AI 이니셔티브의 전체 수명 주기 동안 데이터 품질을 일관되게 적용하고 유지할 수 있다.


부적절한 데이터 노출 방지

민감 데이터에 기반한 AI 모델을 무작정 훈련시킬 경우, 규제 준수, 개인정보 보호, 지적 재산권 측면에서 중대한 위험을 초래할 수 있다. 이는 기업에 대한 규제 조치, 소송, 평판 훼손, 사업적 손실로 이어질 수 있다.

이 리스크를 최소화하려면, 강력한 데이터 보안 거버넌스를 구축하고 데이터 리스크 완화를 우선순위에 둬야 한다. 데이터 보안 상태 관리, 데이터 유출 방지, 개인정보 보호 강화 기술, 암호화 등 보안 통제, 그리고 관련 데이터 보호 규정을 준수함으로써 잠재적인 데이터 노출과 그로 인한 피해를 사전에 차단할 수 있다.


데이터 중독 방지

데이터 중독은 악의적인 공격자가 학습 데이터 세트를 조작해 AI 모델의 성능을 훼손하고, 자신의 목적에 맞게 성능을 왜곡시키는 치명적인 위협이다. 이는 데이터 오염, 편향된 결과물, 오류를 야기하며, 보안 침해나 랜섬웨어와 같은 악의적인 활동으로 이어질 수 있다.

이를 사전에 탐지하고 방지하기 위해서는 권한을 제한하는 것이 매우 중요하다. AI 모델이 어떤 민감 데이터에 접근하는지 파악할 수 있는 데이터 보안 태세 관리(DSPM), 신뢰성, 위험 및 보안 관리(TRiSM)과 같은 기술을 활용할 수 있다. 이와 함께 보안 프로토콜을 정기적으로 점검하고 공급업체에도 데이터 리스크, 완화 조치에 대한 책임을 부여하는 조치가 필요하다.


데이터 스택 복잡성 관리

AI 이니셔티브가 확대되면서 다양한 데이터 소스, 기술, 인프라를 통합하고 관리하는 작업은 더 복잡해졌다. 복잡한 데이터 환경 속에서 적절한 데이터를 식별, 접근, 제공하는 과정도 더 까다로워졌다. 이 복잡성은 AI 프로젝트에 필요한 데이터를 제공하는 데 있어 도전 과제다.

이를 해결하려면 AI 활용 사례에서 필요한 데이터를 빠르게 식별할 수 있는 강력한 메타데이터 관리 체계를 구축해야 한다. 또한 데이터 카탈로그, 레이크하우스, 데이터 패브릭 등 데이터 엔지니어링 기술을 단순화하고 표준화해, 다양한 데이터를 보다 효과적으로 통합, 관리할 수 있다.

“빨리 가려면 혼자 가고, 멀리 가려면 함께 가라”는 말이 있다. 많은 기업이 단기간에 비즈니스 목표를 달성하기 위한 AI 성능과 상업성에 주목하고 있는 지금, 온전한 데이터 처리까지 고려하는 기업만이 결국 AI 시대를 지배하게 될 것이다. 데이터를 제대로 다루기 시작하면 데이터가 얼마나 다루기에 까다롭고 위험한지 깨닫게 된다. 하지만 강력한 데이터 거버넌스를 구축하는 순간 데이터는 기업의 AI 경쟁력이자 기업의 활로를 찾는 나침반이 될 것이다. AI의 시작과 끝은 데이터다.