문장 단위 데이터 학습한 AI 적용, 문서 오염 있어도 정확한 텍스트 추출
단어를 넘어 ‘문맥’ 이해하는 인공지능 OCR 시대 활짝

[아이티데일리]이미지 내 텍스트 인식기술(Optical Character Recognition, 이하 OCR)이 빠르게 진화하고 있다.

기존 OCR이 가지고 있던 이미지 보정 및 문자 판별 기술에 인공지능(AI)을 결합시켜 글자 인식률과 정확도를 높이는 시도들이 이어지는 가운데, 사람처럼 텍스트의 문맥을 이해함으로써 정확도를 높인 AI OCR 제품이 출시돼 관심을 모으고 있다

스마트워크 전문기업 이파피루스(대표 김정희)는 AI OCR 솔루션 ‘텍스트센스(TextSense)’를 선보였다.

이파피루스는 AI가 적용된 AI OCR 솔루션 ‘텍스트센스’를 선보였다. 텍스트센스는 흐릿한 글자도 맥락상 자연스러운 글자로 읽어낸다. 사진은 구겨진 문서에서 진행한 타사 제품(좌측)과 이파피루스의 텍스트센스의 OCR 테스트 결과 비교.
이파피루스는 AI가 적용된 AI OCR 솔루션 ‘텍스트센스’를 선보였다. 문장 단위로 데이터를 학습한 AI가 적용된 텍스트센스는 흐릿한 글자도 맥락상 자연스러운 글자로 읽어낸다. 사진은 구겨진 문서에서 진행한 타사 제품(좌측)과 이파피루스의 텍스트센스의 OCR 테스트 결과 비교.

‘텍스트센스’의 가장 큰 특징은 텍스트를 문장 단위로 인식한다는 점이다. 대부분 AI OCR 제품이 단어 단위로 데이터를 학습한 AI를 사용하는 것과 달리, ‘텍스트센스’에는 문장 단위로 데이터를 학습한 AI가 적용되어 있다. 때문에 문서 이미지에 포함된 텍스트를 단어나 개별 글자가 아닌 행 단위로 인식하고, 문장 데이터를 학습하는 과정에서 자연스럽게 익힌 문맥 파악 능력을 바탕으로 흐릿한 글자도 맥락상 자연스러운 글자로 읽어낸다.

김정희 이파피루스 대표는 “깨끗하게 스캔된 문서를 텍스트 데이터로 변환하는 것은 기존의 OCR로도 얼마든지 가능하지만, 문서 이미지 품질이 낮아지면 인식률이 현저하게 떨어진다”며 “‘텍스트센스’는 자체 개발한 이미지 보정 기술에 문맥을 파악할 수 있는 AI를 더해 정확도를 높였다. 사람이 글을 읽다가 흐릿하고 잘 보이지 않는 글자가 나오면 글자 모양과 문맥을 고려해서 자연스럽게 들어맞는 글자로 추정해서 읽게 되는데, ‘텍스트센스’도 같은 원리”라고 설명했다.

실제 다양한 상태의 문서 이미지로 진행한 이파피루스 자체 테스트 결과 ’텍스트센스’는 평균 95.7%의 정확도를 보였다. 특히 다른 졍쟁 제품의 경우 얼룩지거나 해상도가 낮은 문서, 인쇄 불량으로 노이즈가 많거나 잉크가 흐릿하게 찍힌 문서에서는 텍스트 인식률과 정확도가 현저히 떨어지는 반면, ‘텍스트센스’는 저품질 문서에서도 스캔본이나 사진, 팩스와 같은 깨끗한 문서 이미지와 비슷한 수준으로 텍스트를 인식했다.

‘텍스트센스’는 영어를 기반으로 한 외산 제품에 비해 한글 인식률이 특히 우수하며, 멀티스레드 방식을 적용해 대량의 문서 작업도 분산해서 빠르고 안정적으로 처리할 수 있다. 정형화된 문서뿐만 아니라 다양한 레이아웃의 서식을 인식하고 정보를 추출할 수 있어 종이 문서의 전자문서화는 물론 로보틱 프로세스 자동화(RPA), 문서 자동 분류와 데이터 검증 등 폭 넓게 활용할 수 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지