AI 기반 ‘그리핀 프로젝트’로 웹문서 수집·반영, 스팸 대응, 검색 알고리즘 고도화 등 추진
통합된 웹사이트 영역은 ‘웹사이트’로 명명된다. 당분간 이용자 혼란을 방지하고자 통합검색결과 내에서는 사이트와 웹문서를 한시적으로 구분해 노출하며, 웹사이트 탭 안에서도 기존의 웹문서와 사이트 검색결과를 선택해 볼 수 있는 옵션을 제공하는 등 이용자 피드백을 반영하며 점진적으로 개선할 예정이다.
‘그리핀 프로젝트’는 ▲공신력 있는 사이트와 다량의 웹문서를 실시간으로 가져와 검색 결과에 반영할 수 있는 수집 로봇 ▲다양하고 복잡한 스팸 문서들에 대응할 수 있는 딥러닝 기술 적용 ▲신뢰할 수 있는 검색 결과를 위해 사용자 의도 분석 반영 등을 활용해 사용자들의 검색 경험을 향상시키기 위한 웹문서검색 고도화 연구 프로젝트다.
수집 로봇은 뉴스·위키백과 등 신규 콘텐츠를 상시 분석해 새롭게 등장하는 웹문서를 발견해 신속하게 수집할 수 있다. 스트리밍(Streaming) 구조의 문서 수집 시스템을 통해 실시간으로 이용자들이 선호하는 웹사이트의 문서를 더 빨리 발견하고, 이용자 선호도의 변화를 빠르게 반영할 수 있게 됐다.
또한 AI 기반 기술을 통해 서로 다른 단어가 명시되어있는 웹문서라도 자동으로 매칭해 제공거나, 사이트 구조를 분석해 이용자들이 자주 방문하는 페이지나, 선호도 높은 문서 및 메뉴 등을 추출, 검색 결과에서 사이트와 함께 요약 정보로 보여줄 수 있다.
김상범 네이버 웹문서검색 리더는 “블로그나 SNS 채널을 통해 콘텐츠를 소비하는 추세가 늘어나고 롱테일(Long-Tailed) 검색어가 증가하는 등, 정답형 정보나 하나의 웹페이지를 통해 정보를 확인하는 이용자들이 증가했다”며, “신뢰할 수 있는 웹문서를 더욱 정확하고 신속하게 찾아서 제공하며, 공정하게 노출될 수 있는 기회를 주기 위해 노력할 것”이라고 말했다.