이파피루스, 오라클에 ‘파이뮤PDF 프로’ 공급
연간 4만 7천 달러 규모 구독…GPU 기반 제품 대비 10배 빠른 문서 데이터 추출
[아이티데일리] 이파피루스(대표 김정희)는 최근 글로벌 데이터베이스 기업 오라클(Oracle)에 파이썬 기반 문서 데이터 추출 라이브러리 ‘파이뮤PDF 프로(PyMuPDF Pro)’를 구독 모델로 공급하게 됐다고 30일 밝혔다. 연간 구독 금액은 약 4만 7천 달러다.
파이뮤PDF 프로는 인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 2016년 첫 출시된 이래 2025년 10월 현재 누적 다운로드 1억 1,000만 건을 돌파했으며, 일 평균 다운로드 100만 건을 달성한 바 있다. 국내에는 2024년 11월 정식 출시했다.
파이뮤PDF 프로는 복잡한 레이아웃의 문서 데이터를 추출하는데 뛰어난 성능을 보유하고 있다. 읽기 순서에 기반해 문서 레이아웃을 구성하며, 문서 내 좌표 정보를 포함한 단어 단위 추출 방식을 통해 다단을 포함한 복잡한 문서도 원본 구조를 그대로 살려 데이터로 추출한다.
또한 이 솔루션은 최근 업데이트를 통해 데이터 추출 속도와 성능이 더욱 향상됐다. 현재 AI 전처리를 위해 사용되는 시중의 문서 데이터 추출 솔루션 대부분은 문서를 고해상도 이미지로 인식한 뒤 데이터를 추출하는 비전 언어 모델(VLM) 방식을 기반으로 한다.
파이뮤PDF 프로는 이와 달리 자체 개발한 머신러닝 기반 레이아웃 분석기를 통해 문서 구조 자체를 파악해 데이터로 추출한다. 이를 통해 VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 데이터 처리 속도를 확보했다.
특히 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 문서 추출에 있어서 독보적인 정확도와 속도를 자랑한다. GPU가 필요한 VLM 방식과 달리 CPU만으로도 동작하여 비용 부담이 적은 것도 강점이다.
파이뮤PDF 프로는 대규모 언어 모델(LLM) 및 검색 증강 생성(RAG) 특화 기능도 갖췄다. 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(Chunk)를 생성할 수 있으며, 추출한 문서 데이터를 LLM 및 RAG 친화적인 라마인덱스 리더(LlamaIndex Reader) 파일로 출력하는 것도 가능하다. 생성형 AI의 학습 효율을 높이고 문서 기반 대화형 서비스를 개발하는 데도 유리한 기능으로. 추출 대상 문서로는 PDF, MS오피스, 한글 문서, 이미지 외 다양한 포맷을 지원한다.
이파피루스 김정아 부사장은 “오라클 외에도 보쉬(Bosch), DHL, 도큐싸인(DocuSign), 슈나이더일렉트릭(Schneider Electric) 등 유수의 글로벌 기업이 파이뮤PDF 프로를 사용하고 있다”며 “11월 중 자체 행사 및 전시회 참가 등을 통해 국내 고객들께 제품을 직접 소개하는 시간을 가질 예정”이라고 말했다.