이파피루스, ‘파이뮤PDF 프로’ 레이아웃 분석 성능 업그레이드
머신러닝 기반 문서 레이아웃 분석 기능 추가…AI 학습 효율 향상·서비스 개발 지원
[아이티데일리] 이파피루스(대표 김정희)는 자사의 문서 데이터 추출 라이브러리 ‘파이뮤PDF 프로(PyMuPDF Pro)’ 성능 업그레이드를 진행했다고 26일 밝혔다.
파이뮤PDF 프로는 이번 업데이트를 통해 머신러닝을 이용한 문서 레이아웃 분석 기능이 추가됐다.
문서 레이아웃 분석 기능은 문서 구조 자체를 파악해 데이터로 추출하는 방식으로, VLM을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 데이터를 처리할 수 있다. 파이뮤PDF 프로는 이틀 통해 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 문서 추출에서 정확도와 속도를 확보했다.
파이뮤 PDF 프로는 인공지능 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. GPU가 필요한 VLM 방식과 달리 CPU만으로도 동작해 비용 부담이 적다는 것이 강점이다.
2016년 첫 출시된 이래 2025년 11월 현재 누적 다운로드 1억 2천만 건을 돌파했으며, 오라클, 보쉬, DHL, 도큐싸인, 슈나이더일렉트릭 등 글로벌 기업들이 활용하고 있다.
이파피루스 김정아 부사장은 “자체 테스트 결과에 따르면 파이뮤PDF 프로는 문서 읽고 쓰기와 텍스트 추출, 문서 렌더링까지 모든 작업에서 글로벌 유사 제품들보다 빠른 속도를 자랑한다”며 “AI 시스템 구축을 위한 필수 도구로서 LLM·RAG 서비스 구현이나 데이터베이스 구축에 드는 시간과 비용을 크게 줄여줄 것”이라고 말했다.