[데이터 전처리] 국내 주요 솔루션 기업들 ③
크라우드웍스·프로텐·한국딥러닝
[아이티데일리] 많은 기업들은 사내 시스템에 LLM을 도입해 자사만의 챗봇을 만들거나 기존 업무 프로세스를 자동화하는 AI 에이전트를 활용하는 등 다양한 방식으로 AI를 활용하고 있다. 특히 사내 문서와 데이터를 기반으로 답변하는 검색 증강 생성(RAG) 기술이 등장하며 기업들의 생성형 AI 도입에 속도가 붙었다. 하지만 AI가 사내 규정을 잘못 안내하거나 오래된 정보를 사실처럼 답하는 ‘환각(Hallucination)’ 현상이 여전히 발생하고 있다.
전문가들은 이 같은 문제의 근본 원인이 AI 모델이나 RAG 기술이 아닌 데이터에 있다고 지적한다. 가장 기초적인 ‘데이터 전처리’를 간과한 결과라는 진단이다.
크라우드웍스, ‘알피 날리지 컴파일러’로 파싱 신뢰도 평가
크라우드웍스는 데이터 전처리 솔루션 ‘알피 날리지 컴파일러(Alpy Knowledge Compiler)’를 통해 기업 내부의 다양한 포맷의 데이터를 RAG에 적합한 형태로 전처리하고 있다. 그래프 내 텍스트나 중첩된 테이블 등 기존 데이터 전처리 기술로는 인식이 어려운 요소까지 정밀하게 변환해 비정형 데이터를 효과적으로 활용하고 AI 성능을 극대화한다.
알피 날리지 컴파일러의 차별화된 포인트는 크게 2가지다. 먼저 문서 복잡도 정량 평가 (Document Complexity) 기술이다. 사용자는 파일 업로드만으로 문서의 구조 파악과 복잡도 정량 평가를 한 번에 진행할 수 있다. 평가한 문서 난이도에 따라 프로젝트 투입 인력과 기간을 산정하고 체계적으로 프로젝트를 수행할 수 있는 기반이 된다.
다음은 파싱의 정확성 신뢰도 평가 (KC Confidence)다. 파싱 이후에 대상 문서에서 텍스트 영역 위주로 구한 텍스트 그라운드 트루(Text Ground Truth)를 사용해 파싱 정확성을 평가하는 것이다. 알피 날리지 컴파일러는 이를 통해 파싱 신뢰도 측정하고 있다.
크라우드웍스는 데이터 전처리 과정의 정확성을 위해 LLM을 활용한다. 1차 문서 분석 후 테이블, 차트, 이미지와 같이 텍스트로 구성되지 않아 변환이 까다로운 요소들을 LLM으로 추가 분석을 진행하는 것이다. 이를 통해 해석된 정보는 메타 데이터로 변환되고 AI가 활용할 수 있는 형태로 전처리 된다.
프로텐, 데이터 전처리 전 과정 지원하는 플랫폼 ‘프로젠AI’
프로텐은 ‘프로젠AI(ProGenAI)’ 플랫폼을 통해 전처리 기능을 제공한다. 원시 데이터 수집부터 텍스트 추출·전처리, 메타데이터 부착, 벡터DB 구성까지 이르는 전 과정을 지원하고 있다.
먼저 프로젠AI는 문서 업로드 및 색인 기능을 통해 검색 대상의 되는 문서를 벡터 형태로 임베딩하고 검색어와 유사한 내용을 효과적으로 찾을 수 있는 기반을 마련한다. 사용자는 PPT, TXT, DOC 등 다양한 형식의 문서 파일을 드래그앤드롭 방식으로 손쉽게 업로드할 수 있으며 청크 사이즈 설정, 업로드된 파일 자동 색인 등을 제공받을 수 있다.
청크 단위로 분할된 문서를 체계적으로 관리할 수 있는 칭킹 문서 관리 기능도 탑재했다. 각 문서가 어떤 방식으로 청킹돼 있는지 색인 결롸를 확인하고 결과를 수정할 수 있는 환경이다. 이는 색인된 데이터에 대한 정확도 향상에 바탕이 된다.
또한 프로텐은 △HTML 태그, 문자 인코딩, 특수문자 등 불필요 요소 제거하는 ‘텍스트 추출 및 정제’ △문맥을 유지한 채 검색 가능한 단위로 분할하는 ‘청킹’ △소문자화, 불용어 및 특수기호를 정리하는 ‘텍스트 정규화 및 전처리’ △제목, 작성자, 날짜 등 추가하는 ‘메타데이터 부착’ 등 다양한 전처리 기술들을 통해 전처리 과정을 지원한다.
한국딥러닝, VLM 기반 문서 파싱 플랫폼 ‘딥 파서’
한국딥러닝은 ‘딥 파서(DEEP Parser)’를 통해 문서의 구조, 표, 이미지, 캡션, 맥락까지 정확히 인식해 LLM/RAG 학습에 최적화된 형태로 자동 변환하는 기능을 제공하고 있다.
딥 파서의 핵심 기술은 4억 장 이상의 문서 학습 데이터를 기반으로 개발된 VLM 모델이다. 이 VLM은 차트, 도면, 이미지 등의 시각적 요소를 단순 OCR이 아닌 의미 기반으로 분석한다. DOM 기반 시각 분석을 통해 문서의 읽기 순서, 위계 구조, 시선 흐름도 파악할 수 있다. 더불어 제목, 소제목, 본문, 캡션 간의 관계를 이해해 원문 의미를 보존한 해석도 제공한다.
딥 파서는 PDF, HWP, DOC, XLS, XLSX, 이미지 등 다양한 문서 형식 처리할 수 있으며 HTML, 마크다운, JSON 등 LLM 입력 포맷에 최적화된 형태로 결과물을 제공한다. 병합 셀, 다단 헤더, 중첩 표, 그래프, 차트 등도 정확하게 인식한다.
한국딥러닝은 이러한 문서 파싱 플랫폼의 보안성과 확장성도 확보했다. 사용자는 온프레미스형태로 외부 전송 없이 내부 서버에서 솔루션을 운영할 수 있으며 ERP, RPA 등 기업 실무 시스템과 연동 가능한 API도 지원받을 수 있다. 민감 정보 마스킹, 데이터 거버넌스 정책 연계 등 기업 수준의 보안 요건 충족도 충족한다.