로민·사이냅소프트·사이오닉AI·셀렉트스타

[아이티데일리] 많은 기업들은 사내 시스템에 LLM을 도입해 자사만의 챗봇을 만들거나 기존 업무 프로세스를 자동화하는 AI 에이전트를 활용하는 등 다양한 방식으로 AI를 활용하고 있다. 특히 사내 문서와 데이터를 기반으로 답변하는 검색 증강 생성(RAG) 기술이 등장하며 기업들의 생성형 AI 도입에 속도가 붙었다. 하지만 AI가 사내 규정을 잘못 안내하거나 오래된 정보를 사실처럼 답하는 ‘환각(Hallucination)’ 현상이 여전히 발생하고 있다.

전문가들은 이 같은 문제의 근본 원인이 AI 모델이나 RAG 기술이 아닌 데이터에 있다고 지적한다. 가장 기초적인 ‘데이터 전처리’를 간과한 결과라는 진단이다.

(출처=픽사베이)

 

로민, ‘텍스트스코프 Doc 파서’로 문서 레이아웃 분석

로민의 ‘텍스트스코프 Doc 파서(Textscope Doc Parser)’는 다양한 형식의 문서에서 표, 텍스트, 이미지 등 모든 요소를 검출하는 문서 레이아웃 분석 솔루션이다. 이 솔루션은 문서 내의 구조적·형태적 정보와 비텍스트 요소까지 정밀하게 분석해 LLM이 즉시 활용할 수 있는 ‘AI-네이티브(AI-Native) 데이터’를 생성한다.

텍스트스코프 Doc 파서의 대표적인 장점은 ‘정교한 문서 레이아웃 분석·추출’과 ‘강력한 표 구조 인식’이다.

먼저 텍스트스코프 Doc 파서는 사람이 문서를 보는 패턴과 유사한 자연스러운 읽기 순서를 인식한다. 문서 제목, 섹션 소제목, 텍스트 단락, 리스트, 수식, 표, 그림, 캡션, 머리말, 꼬리말, 각주 등 10종 이상의 레이아웃 요소를 정교하게 식별한다.

또한 표 인식은 단순 텍스트가 아닌 <table>, <thead>, <th>, <td> 등 HTML 태그를 활용해 ‘표 구조’ 자체를 재구성한다. 이 과정에서 표와 캡션의 관계를 인식하고 병합된 셀까지 파악한다.

로민은 이 솔루션을 통해 PDF, 한글(HWP/HWPX), 워드(DOC/DOCX) 등 오피스 문서는 물론 JPG, PNG, TIFF 등 이미지 문서까지 다양한 형식을 지원한다. 분석 결과는 HTML, 마크다운(Markdown), 텍스트 등 LLM이 즉시 활용 가능한 형태로 제공된다.

 

사이냅소프트, ‘사이냅 도큐애널라이저’로 복잡한 문서 구조 파악

사이냅소프트는 ‘사이냅 도큐애널라이저(SynapDocuAnalyzer)’를 통해 다양한 형식의 문서에서 표, 이미지 등 시각적 정보와 복잡한 문서 구조 정보를 분석하고 있다. 기업 내 비정형 문서를 정밀하게 분석해 RAG와 LLM 구축에 필수적인 정형 데이터로 변환해 준다.

사이냅소프트의 강점은 PDF 변환 없이 원본 문서를 그대로 분석한다는 것이다. 문서를 PDF로 먼저 변환하는 경우 문서 고유의 논리적, 물리적 속성이 손실되는 경우가 잦다. 하지만 사이냅 도큐애널라이저는 문서의 속성을 그대로 활용해 표, 이미지, 차트 등 비텍스트 시각 정보도 정확하게 인식한다.

또한 단순히 텍스트만 추출하는 것을 넘어 제목, 문단, 다단, 리스트, 머리글/바닥글 등 눈에 보이지 않는 문서 구조 정보도 분석한다. 이렇게 정제된 데이터는 LLM 학습 및 RAG 모델의 데이터베이스 구축에 활용된다. 결과적으로 AI는 문서의 맥락을 이해할 수 있게 된다.

사이냅소프트는 사이냅 도큐애널라이저를 통해 생성형 AI의 신뢰성을 강화하고 기업이 문서 분석 프로세스 단순화 및 리소스 절감을 이룰 수 있도록 돕고 있다.

 

사이오닉AI, 마크다운 대신 ‘자연어 풀이’ 전략 구사

사이오닉AI는 생성형 AI 운영 플랫폼 ‘스톰(STORM)’을 통해 RAG 파이프라인 전체의 최적화를 지원하고 있다. 스톰이 보유한 강점은 최적의 청크 사이즈라는 고정된 값에 얽매이지 않는 유연한 검색 아키텍처를 갖추고 있다는 점이다. 단순히 문서를 분할하는 청킹 과정에서부터 후속 검색 단계에서 필요할 정보를 미리 설계하고 추출해 메타데이터로 저장하는 것이다.

또한 사용자의 질문과 가장 관련성이 높은 청크를 먼저 찾은 후, 문맥상 확장이 필요하다고 판단되면 ‘연결 리스트(LinkedList)’와 유사한 메타데이터를 타고 들어가 직전(previous) 또는 직후(next)의 연결된 청크를 추가로 탐색하는 방식도 활용하고 있다. 이를 통해 확보한 정보를 바탕으로 불필요한 노이즈는 필터링하고 핵심 내용은 병합·증강해 AI에게 적합한 형태로 재구성한다.

사이오닉AI는 소형언어모델(SLM)을 통한 청킹 고도화 전략도 펼치고 있다. 규칙이나 피상적인 임베딩 유사도로 문서를 자르는 것이 아니라, ‘슬라이딩 윈도우’ 방식에 SLM을 적용한 ‘문맥 기반 시맨틱 청킹’ 기술을 구현했다. 이 과정에서 SLM은 검색 시 ‘사전 필터’로 동작하는 클러스터링 라벨까지 동시에 생성해 검색 효율을 높인다.

사이오닉AI는 이러한 고도화된 RAG 기술은 근본적으로 ‘파싱(Parsing)’ 단계의 차별점에서 비롯된다고 강조한다. 의미를 담은 텍스트를 제대로 추출해내지 못한다면 좋은 청킹과 RAG가 있을 수 없다는 설명이다.

사이오닉AI는 자체 개발한 시각 언어 모델(VLM) ‘페퍼(pepper)’를 통해 이 문제를 해결하고 있다. 페퍼는 비정형 데이터를 단순히 마크다운으로 변환하는 대신 ‘자연어 풀이’ 방식을 사용한다. 예를 들어 “이 표는 사용자에 대한 정보입니다. 사용자 John의 나이는 30세이며, 거주 도시는 New York입니다”와 같은 완결된 문장으로 데이터를 재구성하는 것이다. 이 자연어 풀이 방식은 청크가 분리되더라도 그 자체로 시맨틱 완전성을 갖게 해 ‘문맥 파편화’ 문제를 해결하는데 기여한다.

한편 스톰은 AI가 스스로 진화하는 ‘자동 피드백 학습’ 파이프라인도 갖췄다. 새로운 지식을 학습할 때 기존 지식을 잊어버리는 ‘재앙적 망각’을 제어하며 안정적으로 성능을 향상한다. 사이오닉AI는 이러한 스톰의 기술들을 추상화해 ‘노코드(No-code)’ 환경으로 제공한다.

 

셀렉트스타, RAG·LLM 위한 원스톱 솔루션 ‘커넥트-T’

셀렉트스타는 RAG 기반 LLM 도입을 위한 ‘지식 데이터 구조화’ 서비스를 제공하고 있다. 원본 문서를 AI 활용 목적에 맞게 분석, 파싱(Parsing), 청킹(Chunking)까지 수행하는 원스톱 방식이다.

이 서비스의 핵심은 종합 데이터 정제 솔루션인 ‘커넥트-T(Connect T)’ 툴이다. 커넥트-T는 문서 레이아웃 분석(DLA) 기능을 통해 문서 내 문단, 표, 이미지 등 구성 요소의 위치를 정확히 파악한다. 또한 광학 문자 인식(OCR)으로 이미지 속 다양한 텍스트를 디지털 데이터로 변환하며 특히 기술 문서나 논문 작업의 생산성을 높이기 위해 복잡한 수식을 라텍스(LaTeX) 형식으로 변환하는 기능도 갖췄다.

셀렉트스타는 커텍트-T 툴을 통해 지식 데이터의 구조를 설계하는 서비스를 제공한다. 먼저 1단계로 메타데이터를 활용해 지식 데이터를 계층 분류하고 ‘유형별 데이터 구조’를 설계한다. 2단계에서는 자동화 툴과 인력 검수를 결합해 ‘지식 데이터 파싱 및 청킹’을 수행하며, 마지막 3단계에서는 신규 데이터의 자동 변환을 위한 ‘지식 데이터 양식 표준화 인사이트’를 제안한다.

대량의 데이터 정제 작업을 최적화하는 편의 기능도 강점이다. 다중 페이지로 구성된 이미지나 PDF 문서를 일괄 처리해 시간과 비용을 절감하고, 문서의 계층 구조를 ‘트리’ 형태로 시각화해 복잡한 문서도 효율적으로 관리할 수 있다. 인식된 텍스트 라벨을 사용자가 직관적인 인터페이스를 통해 쉽게 병합하거나 분리하며 오류를 수정할 수 있는 기능도 제공한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지