웹 크롤러 지식 없이도 문서 수집 가능

 
[아이티데일리] 어니컴(대표 지영만)은 웹 기반 문서 수집기 ‘앵커스 크롤러(ankus Crawler)’를 아파치 라이선스로 공개했다고 10일 밝혔다.

‘앵커스 크롤러’는 ‘아파치 HTTP 컴포넌트 프로젝트(Apache Http Components Project)’의 ‘HTTP 클라이언트 v4.5’를 기반으로 개발된 웹 기반 문서 수집기로, 웹 크롤러에 대한 지식 없이도 간단한 수집규칙 정의수준의 자바 프로그래밍과 HTML 해독능력만 있으면 웹 문서 수집이 가능하다.

특히 스크립트 파일을 이용한 HTML 문서에서의 정보추출 및 수집대상 HTTP 웹 주소정의가 가능하며, GUI를 적용해 보다 손쉬운 활용이 가능하다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지