[데이터 전처리] 국내 주요 솔루션 기업들 ②
업스테이지·올거나이즈·이파피루스·제논
[아이티데일리] 많은 기업들은 사내 시스템에 LLM을 도입해 자사만의 챗봇을 만들거나 기존 업무 프로세스를 자동화하는 AI 에이전트를 활용하는 등 다양한 방식으로 AI를 활용하고 있다. 특히 사내 문서와 데이터를 기반으로 답변하는 검색 증강 생성(RAG) 기술이 등장하며 기업들의 생성형 AI 도입에 속도가 붙었다. 하지만 AI가 사내 규정을 잘못 안내하거나 오래된 정보를 사실처럼 답하는 ‘환각(Hallucination)’ 현상이 여전히 발생하고 있다.
전문가들은 이 같은 문제의 근본 원인이 AI 모델이나 RAG 기술이 아닌 데이터에 있다고 지적한다. 가장 기초적인 ‘데이터 전처리’를 간과한 결과라는 진단이다.
업스테이지, OCR 전처리 모듈 기반의 ‘도큐먼트 AI’
업스테이지는 ‘도큐먼트 AI(Document AI)’를 통해 기업 데이터와 LLM을 효과적으로 연결하고 있다. 도큐먼트 AI는 ‘도큐먼트 파스(Document Parse)’와 ‘인포메이션 익스트랙트(Information Extract)’라는 두 가지 핵심 기능으로 구성된다. 이는 LLM에 문서 전체의 맥락을 학습시킬 것인지, 아니면 문서에서 특정 값만 추출해 활용할 것인지에 따라 최적화된 도구를 제공하는 투트랙 전략이다.
도큐먼트 파스는 보고서, 논문, 제품 가이드처럼 복잡한 구조의 문서를 통째로 디지털화하는 데 특화됐다. 멀티 컬럼이나 표, 그래프가 포함된 스캔 이미지에서도 제목, 문단, 리스트, 표, 각주 등 문서의 논리적 구조를 인식하고 보존한다.
반면 인포메이션 익스트랙트는 영수증, 청구서 등에서 필요한 정보만 선별적으로 추출하는 기술이다. 문서 전체가 아닌 가게 주소, 총 결제 금액 등 의미 있는 부분만 선별 추출해 항목-값 형태로 저장한다.
업스테이지는 이러한 기능을 바탕으로 실제 도입 사례도 거두고 있다. 실제 한화생명은 업스테이지의 AI OCR 기술을 활용해 병원마다 양식이 다른 3년간의 ‘진료비 세부내역서’ 약 500만 건을 분석했다. 여기서 도출된 데이터를 근거로 고액의 항암약물치료 사례를 확인, 실제 고객 수요가 높은 3대암(위·간·폐) 보장을 강화한 ‘시그니처 암보험 3.0’ 특약을 출시했다.
올거나이즈, 파싱-청킹-임베딩 연계로 RAG 에이전트 품질 극대화
올거나이즈는 LLM 올인원 솔루션 ‘알리(Alli)’의 핵심 기능으로, 단순한 데이터 전처리를 넘어 RAG 에이전트의 품질을 극대화하는 데 최적화된 'RAG 친화적 파싱' 기술을 보유하고 있다.
이 기술은 연구용 데이터가 아닌 실제 기업 환경에서 사용되는 다양한 PDF, 이미지 등의 문서를 안정적으로 활용하는 데 초점을 맞췄다. 특히 파싱-청킹-임베딩으로 이어지는 RAG의 전체 프로세스가 유기적으로 결합되도록 설계해 파싱 단계뿐만 아니라 전체 프로세스의 정확성과 안정성을 제공한다.
알리의 RAG 친화적 파싱은 LLM이 문서를 더 잘 이해하고 활용할 수 있도록 지원하는 다음과 같은 핵심 요소들을 포함한다. 먼저 정밀한 문서 구조 인식이다. 표, 이미지 등 복잡한 문서 요소까지 정밀하게 분석하여 파싱 정확도를 높이고 있다. 다음은 청킹 프로세스와의 연계다. 파싱 결과를 단순히 텍스트로 나누는 것이 아니라 ‘의미 단위별’로 세분화해 후속 청킹 및 임베딩 과정의 효율성을 자연스럽게 강화한다.
신뢰성 확보를 위한 메타데이터 추출도 중요하다. AI가 답변을 생성할 때 근거가 되는 원문을 함께 제시할 수 있도록, 페이지 번호, 표의 위치, 문단 구분 등 구조 정보를 메타데이터로 함께 기록하는 방식이다. 마지막은 LLM 친화적 변환이다. 파싱된 데이터를 LLM이 이해하기 쉬운 형태로 가공해 AI의 활용도를 높이는 것이다.
올거나이즈의 이러한 RAG 파이프라인으로 금융, 공공, 통신, 항공 등 다양한 도메인의 문서 처리 환경에서 그 성능을 입증하고 있다. API 기반의 연동 구조로 기존 기업 시스템과 쉽게 통합. 금융·공공기관처럼 보안이 중요한 환경에서도 대규모 문서 처리와 트래픽을 안정적으로 소화하고 있다.
이파피루스, ‘파이뮤PDF 프로’로 문서 처리 전방위 지원
이파피루스는 출시 이후 누적 다운로드 1억 건 이상의 문서 데이터 추출 라이브러리 ‘파이뮤PDF 프로(PyMuPDF Pro)’를 통해 문서 처리 서비스를 제공하고 있다. 이는 파이썬 바인딩 라이브러리 솔루션으로 인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하고 자유롭게 구현할 수 있도록 지원한다.
파이뮤PDF 프로의 가장 큰 경쟁력은 속도와 유연성이다. 소프트웨어 모듈 형태로 제공돼 시스템 리소스를 적게 차지하면서도, 내장형으로 서비스 내 설치된다. 그럼에도 텍스트 추출 및 렌더링 속도에서 빠른 성능을 확보했다. 또 CPU나 GPU 사양에 구애받지 않고 4GB RAM 이상 환경이면 가볍게 구동돼 하드웨어 제약 없이 고성능 문서 처리 기능을 구현할 수 있다는 점도 특징이다.
파이뮤PDF 프로는 문서의 실제 읽기 순서를 기반으로 추출한다. 복잡한 구조의 문서에서 표를 정확하게 분리해 구조에 맞는 형태로 추출할 수도 있다. LLM과 RAG를 위한 기능도 갖췄다. 라마인덱스 리더(LlamaIndex Reader) 형태로 결과물을 출력할 수 있으며 메타데이터를 포함 청크도 생성 가능하다.
이파피루스는 이와 더불어 문서 처리를 위한 렌더링, 비식별화, 문서 병합도 제공하고 있다. 먼저 렌더링은 PDF 페이지를 렌더링해 이미지 형태로 제공하고 JPG, PNG 등 기본적인 포맷 외에 SVG와 같은 벡터 이미지로 제공한다. 비식별화의 경우 개발자가 직접 PDF 내 특정 데이터를 비식별화 처리할 수 있도록 지원한다. 마지막으로 문서 병합은 여러 개의 PDF 문서를 병합해 전사서명, 최적화 등에 활용된다.
제논, AI 서비스 도입 통합 프레임워크 지원하는 ‘AI 서치’
제논은 B2B 생성형 AI 플랫폼 ‘제노스(GenOS)’ 상의 AI 서치(AI Search) 기능으로 문서 전처리 서비스를 제공하고 있다. 문서 안에 있는 텍스트 외의 다양한 형식의 데이터(그림, 차트, 표 등)에서 정보를 정확하게 추출하는 기술이다.
AI 서치는 다양한 문서 유형에 최적화된 전처리 기법들을 제공한다. 또 문서 레이아웃을 탐지한 결과가 시각화될 수 있도록 도큐먼트 인텔리전스(Document Intelligence) 중심의 통합적인 프레임워크도 제공한다.
정보를 추출했을 때 AI에게 잘 전달되기 위한 전처리 기법인 ‘시맨틱 청킹’ 기술도 갖췄다. 이는 실제 금융, 에너지 산업군에 존재하는 다양한 문서 형태에서 정보를 추출하고 AI가 인식하기 쉽도록 전처리하는 방식으로 활용되고 있다.
제논은 원활한 AI 사용을 위해서는 메타데이터의 적절한 활용도 필요하다고 본다. 예를 들어 회의록을 작성할 때 문서에 직접 기재되지 않은 내용(회의록 작성일자, 회의 참석자 등)도 함께 저장하는 것이다. 이렇게 저장된 메타데이터를 향후 AI가 정보를 검색하는 과정에서 더 정확한 답변을 내놓기 위한 기반이 된다.
AI 서치는 이러한 문서 전처리 기술과 더불어 벡터 DB 임베딩, 리소스 그룹 관리 등이 포함된 통합 프레임워크를 제공한다.