AI 챗봇 제공 뉴스의 '3분의 1이 오정보', 가장 높은 성능을 보인 것은?

클로드와 제미나이, 가장 정확도 높은 것으로 나타나 지난해 최고 성능 퍼플렉시티, 올해는 정확대 대폭 떨어져

2025-09-15 조민수 기자

이미지=픽사베이

[아이티데일리] 세계 유수의 AI 챗봇은 과거 어느 때보다 많은 질문을 처리하고 있다. 하지만 동시에 답변의 정확도는 크게 떨어지고 있다.

온라인 뉴스 팩트체크를 주업으로 하는 뉴스가드(NewsGuard) 조사에 따르면, 2025년 8월 기준 주요 생성형 AI 도구가 잘못된 정보를 제공할 확률은 35%에 달해 2024년의 18%에서 크게 증가했다고 포브스지가 전했다. 조사 요약 자료는 뉴스가드 홈페이지에도 게재됐다.

조사는 챗봇 검색 이용이 확대되면서 AI의 구조적 취약점이 드러났음을 보여준다. 저품질 콘텐츠, 가짜 뉴스, 허위 광고가 난무하는 인터넷 공간이 주요 정보원이 되고 있기 때문이다.

뉴스가드의 마케팅 커뮤니케이션 담당 맥켄지 사데기는 “AI 모델은 원래 답변 가능 범위나 학습 데이터의 최신 여부를 명시하고, 민감한 주제는 언급을 자제해야 한다. 그러나 실제로는 오염된 온라인 환경에서 정보를 끌어와, 신뢰할 만해 보이지만 부정확한 답변을 만들어내고 있다”고 말했다.

조사에 따르면 대규모 언어모델(LLM)은 초창기에는 특정 질문에 대해서는 답하지 않았으나, 최근에는 신뢰성 낮은 출처에 의존해 잘못된 답변을 내놓는 경우가 늘어났다. 지난해 조사에서는 시사 문제 관련 질문의 31%에 대해 답변을 거부했으나, 2025년 8월 현재 거부율은 0%였다. 즉, 모든 질문에 답하려는 경향이 강해지면서 오히려 단정적이면서 부정확한 정보를 제공하는 빈도가 늘어난 것이다.

작년 최고 성능 모델 중 하나였던 퍼플렉시티(Perplexity)는 올해 가장 성능 하락이 큰 것으로 나타났다. 2024년에는 100%의 정확도를 자랑했으나, 2025년 조사에서는 정확하게 답변하는 비율이 절반에 불과했다.

사데기는 이에 대해 “원인은 명확하지 않다”고 말했다. 레딧(Reddit) 포럼에서는 퍼플렉시티의 신뢰성 저하를 지적하는 글이 다수 등장하고 있다. 블로그 플랫폼 '메디움'에 2025년 9월 초순 게시된 칼럼에서 테크 애널리스트 데릭 데이비드는 퍼플렉시티의 성능 저하는 파워유저의 이탈, 구독 피로, 번들 계약으로 인한 사용자 수 부풀리기, 경쟁 심화 등 복합 요인이 작용한 것으로 보인다고 분석했다.

다만 이 요인들이 모델의 성능 저하와 직접적 관련이 있는지는 불분명하다고 덧붙였다. 힌 사례로 퍼플렉시티는 “젤렌스키 대통령이 10억 달러 부동산을 소유하고 있다”라는 가짜 기사를 인용했다.팩트체크 자료도 함께 제시했으나 이를 충분히 강조하지 않아 사용자에게 오해를 불러일으켰다. 사데기는 AI 챗봇이 선전·선동(propaganda)과 신뢰할 수 있는 정보를 같은 기준으로 다루는 경향이 있다고 지적했다.

뉴스가드는 이번에 처음으로 10개 AI 챗봇을 대상으로 테스트하고 점수를 공개했다. 과거에는 구체적 점수 대신 일반 순위만 발표했었다. 이번 조사는 미국, 독일, 몰도바 등 여러 국가에서 12개월에 걸쳐 실시됐으며 모델 업데이트 및 가짜 정보에 대한 테스트를 거쳤다.

테스트 결과 가장 높은 성능을 보인 모델은 클로드(Claude) 와 제미나이(Gemini)였다. 두 모델은 신중하게 답변하고, 신뢰할 만한 출처가 부족할 경우 잘못된 정보를 퍼뜨리지 않도록 회피하는 경향을 보였다. 응답성이 떨어질 수는 있지만, 신뢰성 없는 소스로 빈틈을 메우는 모델보다 정확도가 높았다

러시아 정부 연계 네트워크 Storm-1516, Pravda의 경우 AI 시스템 자체를 오염시키는 대규모 콘텐츠 팜을 운영하고 있다. 프랑스 스타트업 미스트랄 AI의 르 샤(Le Chat), MS의 코파일럿(Copilot), 메타의 라마(Llama)는 부정한 네트워크가 유포한 허위 정보를 그대로 인용했다. 러시아 VK나 텔레그램 등에서 유포된 가짜 뉴스를 답변 정보로 활용했다.

뉴스가드 보고서는 “가짜 정보를 유포하는 도메인을 차단해도 동일 네트워크 콘텐츠가 다른 경로로 다시 돌아다닐 가능성이 높다”고 밝힌다. "같은 스토리가 수십 개의 다른 웹사이트나 SNS 게시물에 동시에 나타나고 관계자들에 의해 사진이나 동영상, 텍스트 형태로 반복적으로 확산된다"는 것이다.

가짜 뉴스가 확산되면 AI 모델도 잘못 학습할 가능성이 높아진다. AI 챗봇은 이런 교차 확산을 탐지하는 데 어려움을 겪고 있다. 보고서는 AI 기업들이 실시간 검색의 정확성을 높이려 하고 있으나, 여전히 즉각적이고 신뢰할 수 있는 정보 획득에는 한계가 있다고 지적했다.