[데이터 전처리] 기업 AX 첫 단추는 ‘데이터 전처리’

AI 환각 현상 여전…데이터, AI에 적합한 형태로 변환해야

2025-11-19     권영석 기자

[아이티데일리]  많은 기업들은 사내 시스템에 LLM을 도입해 자사만의 챗봇을 만들거나 기존 업무 프로세스를 자동화하는 AI 에이전트를 활용하는 등 다양한 방식으로 AI를 활용하고 있다. 특히 사내 문서와 데이터를 기반으로 답변하는 검색 증강 생성(RAG) 기술이 등장하며 기업들의 생성형 AI 도입에 속도가 붙었다. 하지만 AI가 사내 규정을 잘못 안내하거나 오래된 정보를 사실처럼 답하는 ‘환각(Hallucination)’ 현상이 여전히 발생하고 있다.

전문가들은 이 같은 문제의 근본 원인이 AI 모델이나 RAG 기술이 아닌 데이터에 있다고 지적한다. 가장 기초적인 ‘데이터 전처리’를 간과한 결과라는 진단이다.

                                              (출처=픽사베이)

RAG·AI 만으론 ‘환각’ 해결 어려워

RAG는 AI 모델이 기업 내부의 최신 정보를 실시간으로 반영해 답변을 생성하게 하는 기술이다. 많은 기업들은 이를 활용해 AI 시스템을 구축한다. 그러나 RAG가 담고 있는 정보들이 부정확하거나 중복되고, 뒤섞여 있다면 AI는 틀린 답변을 내놓게 된다.

특히 생성형 AI의 잘못된 답변은 그럴듯하게 포장된 ‘환각’ 현상 때문에 단순한 시스템 오류보다 훨씬 치명적이다. 사용자가 오류를 인지하지 못한 채 잘못된 정보를 기반으로 의사결정을 내릴 수 있기 때문이다.

결국 성공적인 AX를 위해서는 최신 LLM이나 RAG 솔루션 도입 외에도 사내 데이터를 AI가 활용 가능한 형태로 바꾸는 데이터 전처리 작업이 매우 중요하다.

한 AI 기업 관계자는 “현장에서 마주하는 실제 데이터는 정제된 텍스트가 아니라, 구조가 복잡한 PDF, 수많은 행과 열로 의미가 파편화된 표, 핵심 정보가 담긴 그래프, 심지어 이미지나 스캔 문서의 형태가 많다”며 “어떤 복잡한 데이터가 입력되더라도 고객에게 최상의 AI 성능을 제공하는 것이 중요하고 그 열쇠가 데이터 전처리에 있다”고 말했다.
 

‘파싱’과 ‘청킹’ 전략이 중요

AI가 더 똑똑한 답변을 내놓기 위해 진행되는 데이터 전처리 과정에서는 문서의 구조를 분석하는 ‘파싱(Parsing)’과 의미 단위로 데이터를 분류하는 ‘청킹(Chunking)’ 기술이 핵심으로 꼽힌다.

먼저 파싱은 기존 광학문자인식(OCR)이 텍스트를 단순히 글자로 인식할 뿐, 그 위치나 역할을 이해하지 못했던 문제를 해결했다. 문서의 제목, 본문, 표, 주석 등을 구분해 문서의 논리적 구조를 데이터화하고 AI가 문서의 전체적인 맥락을 파악할 수 있는 기반을 마련한다.

데이터 분할 방식인 청킹도 고도화되고 있다. 기존에는 단순히 글자 수나 페이지 단위로 문서를 잘라 정보의 맥락을 끊고 AI의 답변 품질을 떨어뜨렸다. 하지만 ‘의미론적 청킹(Semantic Chunking)’은 문장을 벡터로 변환한 뒤, 문장 간의 의미적 유사도를 수학적으로 계산해 관련 있는 내용끼리 하나의 그룹으로 묶는다. 내용이 달라지는 지점에서 데이터를 나누기 때문에 AI는 정교한 답변을 생성할 수 있다.
 

솔루션 기업, 차별점 돋보여

IT 기업들은 데이터 전처리가 중요하다는 점을 인식하고 자사만의 기술력을 바탕으로 다양한 솔루션들을 내놓고 있다. 이들은 AI가 활용하기에 적합한 형태로 데이터를 전처리 한다는 공통된 목표를 갖고 있지만 채택하는 기술이나 전략에는 다소 차이를 보이고 있다.

먼저 로민, 이파피루스, 한국딥러닝 등은 사람이 문서를 읽는 순서로 데이터를 처리하는 방식을 채택하고 있다. 이 경우 표 구조를 재구성하는 능력이 뛰어나고 자연스러운 흐름을 확보한다. 사이오닉AI의 ‘자연어 풀이’ 방식도 차별 포인트다. 단순 마크다운 변환 대신 표/이미지를 완결된 문장으로 풀어서 저장해 문맥 파편화 문제를 해결하고 있다.

파싱 전략에서도 기업들 간의 특징이 두드러진다. 업스테이지는 문서에서 특정 값만 추출할 수 있는 특화된 솔루션인 ‘인포메이션 익스트랙트’ 기능을 제공하고 있다. 사용자는 문서 중 의미 있는 부분만 따로 추출할 수 있게 된다. 한국 딥러닝은 VLM 기술을 적용해 파싱 정확도를 향상하고 있다. 시각적 요소를 단순 OCR이 아닌 의미 기반으로 분석하는 것이다.

크라우드웍스는 이러한 파싱 결과물의 신뢰성을 평가하는 기능 ‘KC Confidence’을 제공하고 있다. 이는 파싱 정확성에 대한 신뢰도를 점검해 비정형 데이터를 정확하고 정밀하게 변환하는 데 기여한다.
 

AI로 고도화된 청킹 구현

한편 청킹 기술도 AI를 만나 고도화되고 있다. AI가 직접 문서에서 핵심 내용을 추출하고 이를 기준으로 데이터를 전처리하는 것이다. 이는 먼저 AI가 문서에서 핵심 명제를 추출하는 데에서 시작한다. 명제는 간결하고 독립된 단위로 주요 아이디어나 사실을 담는다.

이러한 명제를 AI에 입력하면 AI는 해당 명제가 기존 청크에 속하는지 혹은 새로운 청크를 만들어야 하는지 판단한다. 마지막으로 AI가 판단한 결과물을 바탕으로 기존 청크를 업데이트하거나 새로운 명제의 청크를 생성한다.

이 과정에서 단순히 청킹을 수행하는 것이 아니라 추가적인 메타데이터 추출 및 구성도 병행되기도 한다. 대표적으로는 이후 검색 단계에서 활용될 '클러스터링 라벨(Clustering Label)'을 미리 할당하는 방식이다. 이 라벨은 최종 검색 단계에서 사전 필터로 작동하며 검색 효율을 향상하는 기반이 된다.

IT 기업들은 이러한 데이터 전처리를 자사만의 기술과 솔루션들을 통해 기업의 AX를 지원하고 있다. 각 IT 기업들의 주요 솔루션들을 살펴본다.