웹 크롤러 지식 없이도 문서 수집 가능
‘앵커스 크롤러’는 ‘아파치 HTTP 컴포넌트 프로젝트(Apache Http Components Project)’의 ‘HTTP 클라이언트 v4.5’를 기반으로 개발된 웹 기반 문서 수집기로, 웹 크롤러에 대한 지식 없이도 간단한 수집규칙 정의수준의 자바 프로그래밍과 HTML 해독능력만 있으면 웹 문서 수집이 가능하다.
특히 스크립트 파일을 이용한 HTML 문서에서의 정보추출 및 수집대상 HTTP 웹 주소정의가 가능하며, GUI를 적용해 보다 손쉬운 활용이 가능하다.
김성수 기자
kimss56@itdaily.kr