대학이 더 접근 어려워... 고급 정보도 '무용지물'

국내 대학과 학술연구기관 78.5%가 웹 검색을 통한 홈페이지 정보 접근을 차단한 것으로 드러났다.

한국인터넷전문가협회(회장 김진수, 이하 인전협)와 구글코리아(대표 염동훈)는 국내 대학교 100곳과 학술/연구기관 100곳 등 총 200개 웹사이트를 대상으로 '정보 접근성' 현황을 조사한 결과, 이같이 나타났다고 11일 발표했다.

이번 조사는 지식 재창출의 핵심인 대학 및 학술/연구 기관의 정보 접근성 현황을 파악하여, 실질적으로 이들 웹사이트들의 검색 접근성을 개선하고 나아가 공공 정보 개방에 대한 인식을 제고하고자 실시되었다.

국내 대학 3곳 중 1곳은 정보접근 "완전차단"
총 200개의 대학 및 학술/연구기관을 대상으로 한 이번 조사에서 78.5%에 달하는 157곳(대학 89곳, 연구기관 68곳)에서 1가지 이상의 방법을 이용해 검색엔진의 접근을 제한하고 있는 것으로 나타났다. 이번 조사에서는 대학기관의 정보접근 차단율이 학술/연구기관보다 더 높게 나타났다.

특히 조사 대상 중 대학교 32개(총 100개)와 학술/연구기관 22개(총 100개)가 구글, 네이버 등과 같은 국내외 검색엔진의 접근을 완전 차단하여 정보 불통 상태가 심각한 것으로 드러났다. 즉, 대학 3곳 중 1곳이, 학술/연구기관 4곳 중 1곳이 정보 공유를 완전 차단하고 있었다.

'검색 접근성을 완전 차단한다'는 의미는 사용자들이 일일이 해당 사이트를 찾아서 들어가지 않는 한, 국내 주요 포털과 구글을 통해서 정보 검색이 불가능하다는 것을 의미한다. 특히 외국인을 포함하여 웹사이트 주소를 모르는 사용자들이 검색엔진의 도움 없이 사이트를 직접 방문하여 정보를 찾는 것은 기대하기 어렵기 때문에 이런 차단은 심각한 접근성 문제를 일으킨다.

완전 차단 기관들은 robots.txt 파일을 사용해 검색 로봇 접근을 완전 차단하고 있는 것으로 나타났다. robots.txt 파일이란 인터넷 검색엔진의 접근을 막는 표준 규약으로, 웹사이트 정보를 수집하는 검색 로봇은 웹페이지의 특정 정보를 수집하기 전에 우선 robots.txt 파일을 기준으로 해당 정보 수집 여부를 결정한다.

robots.txt를 잘못 사용하면, 해당 사이트에 있는 정보는 수집하지 못하기 때문에 검색 결과에 보이지 않는 경우가 많다. 이 규약의 본래 목적은 사이트 내 정보의 종류에 따라 공개 여부를 정하고 방문 트래픽 양을 조절하는데 있지만, 유독 국내에서는 검색 로봇의 유입을 완전 차단하는 용도로 무분별하게 사용되고 있어 콘텐츠 접근성을 심각하게 제한하고 있다. 또한 이럴 경우 양질의 연구, 교육 자료가 웹사이트 내에 있더라도, 거의 대부분 검색을 통해 정보를 수집하는 현재 사용자 특성 상 해당 자료의 존재 유무조차 파악할 수 없다.

미국, 일본, 중국 대학들의 완전 차단률 '제로'와는 대조
한편, 미국, 일본, 중국의 주요 100개 대학 중 검색엔진의 접근을 완전 차단한 대학은 단 한 곳도 없어 국내 상황과는 대조적인 모습을 보였다. 일부 대학은 글로벌 대학을 지향하는 전략과는 반대로 구글과 같은 해외 검색엔진의 접근만 차단하여, 우리나라 유학을 계획하는 사람들이 해외에서 관련 정보를 검색으로 찾기 어렵게 만들어 두었다.




▲ robots.txt 차단 대학 수






▲ 국가별 100개 대학 robots.txt 사용 현황





이미지로 구성된 웹사이트, 아무리 좋은 정보라도 검색 앞에선 무용지물
또한 전체 조사대상의 절반인 101개 웹사이트(대학교 58곳, 연구기관 43곳)는 이미지, 플래시, 액티브X 등과 같은 검색 비친화적 요소를 포함하고 있는 것으로 나타났다. 특히 이미지로 검색 접근차단이 가장 보편적 문제였다. 즉, 101개 웹사이트 중 97개 사이트(95%)에서 본문 텍스트를 이미지로 처리하여 접근 문제를 야기했다(대학교 56곳, 연구기관 41곳).

이미지나 플래시를 활용해 본문 텍스트를 표현하는 경우 검색 로봇이 텍스트를 인식할 수 없어 색인이 불가능하며, 액티브X를 사용하는 경우 해당 액티브X 설치 후에만 정보 확인이 가능해 검색 로봇의 접근이 불가능하다.

이 같은 검색 비친화적 요소들은 단순히 검색 로봇의 정보 수집을 방해하는 데 그치지 않고 더 큰 접근성 문제를 야기한다. 즉, 웹사이트를 이미지와 플래시 파일로 구성할 경우, 검색이 되지 않을 뿐더러 텍스트를 인식해 음성으로 읽어주는 기능을 사용할 수 없어 시각장애인들에게 무용지물 정보가 된다.

오픈넷을 이끌고 있는 고려대학교 법학전문대학원 김기창 교수는 "검색엔진이 그 내용을 파악할 수 없는 웹사이트는 존재하지 않는 것과 마찬가지다. 훌륭한 교육, 연구 콘텐츠를 보유하고 게시까지 해두면서도 정작 검색되지는 못하게 하는 처사는 도무지 납득이 안간다. 이런 사태는 국내에 떠돌아다니는 그릇된 보안 지식 때문이 아닌가 생각한다. 흔히 robots.txt로 검색엔진이 검색할 수 없게 하면 사이트가 안전해진다고 오해하는 인력이 아직도 있는데, 사이트가 안전해 지는 것이 아니라 쓸모없어질 뿐이다. 공공에게 유익한 정보를 담고 있는 사이트들이 이러한 정보 불통 현상 자초하고 있다는 것은 막대한 사회적, 국가적 손실이 아닐 수 없다"면서 "단순히 정보를 웹사이트에 게재하는 것에서 그치는 것이 아니라 어떻게 하면 더 많은 사람들이 정보에 접근할 수 있을 지를 우선적으로 고민해야 한다"고 말했다.



저작권자 © 아이티데일리 무단전재 및 재배포 금지