”큰 규모의 생성형 AI 챗봇일수록 잘못된 답변 더 많이 생성“
오픈AI 챗GPT, 메타 라마(LLaMA), 빅사이언스 오픈소스 모델 블룸(BLOOM) 비교 분석 챗봇의 틀린 답변을 정확하게 인지하고 판단하는 사용자도 거의 없어 문제
[아이티데일리] 세 가지 주요 AI 챗봇의 새로운 버전에 대한 연구에 따르면, 거대한 규모의 LLM 생성형 AI 챗봇이 스스로의 무지함을 인정하기보다는 잘못된 답변을 생성할 가능성이 더 높은 것으로 나타났다. 또한 사람들은 생성형 AI 챗봇이 내 놓은 잘못된 답변을 잘 알아채지 못하는 것으로 나타났다고 네이처 온라인판이 전했다.
연구에 따르면 챗봇을 구동하는 데 사용되는 대규모언어모델(LLM)이 때때로 잘못된 답변을 하거나 질의에 이상한 응답을 한다는 사실에 많은 관심이 쏠렸다. 스페인 발렌시아 AI연구소의 호세 에르난데스-오랄로 연구팀은 이들 생성형 AI의 오류를 분석, 모델 규모가 커짐에 따라 응답이 어떻게 변화하는지를 살펴보았다.
즉, 더 많은 훈련 데이터를 사용하고, 더 많은 매개변수 또는 의사 결정 노드를 포함하며, 더 많은 컴퓨팅 파워를 소모하는 방식으로 변화하는지를 확인했다. 또 오류 가능성이 질문의 난이도에 대한 인간의 인식과 일치하는지, 그리고 사람들이 잘못된 답변을 얼마나 잘 식별할 수 있는지 추적했다.
분석 결과는 의외였다. 예상대로, 더 크고 더 정교한 LLM 버전의 응답이 더 정확하다는 사실은 밝혀졌다. 이는 주로 인간 피드백을 통한 강화 학습과 같은 미세 조정이 있었기 때문이다. 이는 좋은 소식입니다. 그러나 신뢰성이 떨어진다는 결론도 나왔다. 응답 중에서 잘못된 답변의 비율이 증가했던 것이다. 그 이유는 AI 모델이 질문에 대답하는 것을 피하려 하지 않기 때문이었다.
연구팀은 이에 대해 "요즘 생성형 AI 챗봇은 거의 모든 질문에 대답한다. 그러다 보니 정답도 많지만 오답도 더 늘어난다”라고 썼다. 다시 말해, 챗봇이 자신의 지식을 넘어서는 의견을 제시하는 경향이 증가했다는 것이다. 속된 말로 AI 챗봇의 ‘헛소리’가 늘었다는 비판이다. 영국 글래스고 대학교의 마이크 힉스 교수는 "AI 챗봇이 ‘지식을 가진 척하는’ 데 점점 더 능숙해지고 있다. 결과적으로 일상적인 사용자는 챗봇의 능력을 과대평가할 가능성이 높으며, 이는 위험하다“고 지적했다.
연구팀은 오픈AI의 챗GPT, 메타의 라마(LLaMA), 그리고 학술 그룹 빅사이언스가 만든 오픈소스 모델인 블룸(BLOOM) 등 세 가지 LLM 모델을 분석했다. 각각에 대해 연구팀은 초기의 원시 버전과 후에 개선된 버전을 비교했다.
그들은 모델을 대상으로 산술, 애너그램, 지리학, 과학에 대한 질문을 포함한 수천 개의 프롬프트와 알파벳 순서로 목록을 정리하는 등과 같은 정보 변환 능력을 테스트했다. 또한 인간이 인지하는 질문 난이도 순위를 매겼다. 예를 들어, 캐나다 토론토에 대한 질문은 멕시코 변두리 마을인 아킬에 대한 질문보다 쉬운 것으로 순위가 매겨졌다.
질문 결과, 개선된 모델의 답변의 정확도가 증가하고 질문이 어려워질수록 정확도가 감소했다. GPT-4와 같은 일부 모델은 거의 모든 것에 답했다. 그런데 틀린 답변의 비율은 모델이 커질수록, 즉 최신 버전일수록 증가했다. 일부 모델의 경우 오류가 60% 이상까지 나왔다. 또 모든 모델이 쉬운 질문에도 틀린 답변을 종종 내놓았다. 이는 사용자가 AI 챗봇의 답변에 대해 확신을 가질만한 '신뢰할 영역'이 없다는 것을 의미한다.
한편, 연구팀은 사용자들에게 AI 챗봇의 답변을 정답, 오답 또는 회피로 구분하도록 요청했다. 그 결과 사용자들은 부정확한 답변을 정확하다고 잘못 분류했다. AI 챗봇의 답변에 대한 정확한 판단을 내리지 못한 것이다.
AI 챗봇 개발사들은 오류를 줄이기 위해 노력하고 있으며, 특히 의료 용도와 같은 특수 목적 챗봇은 지식 기반을 벗어나지 않으면서 정교해지도록 세심한 주의를 기울이고 있다. 연구팀은 개발자들이 쉬운 질문에 AI 챗봇이 맞는 답변을 하도록 AI 성능을 높이고, 챗봇이 어려운 질문에는 대답하지 않도록 해야 신뢰성을 높일 수 있을 것이라고 지적했다. 사용자들이 AI 챗봇을 활용할 수 있는 영역을 정확히 인식하도록 개발의 방향을 올바르게 설정해야 한다는 것이다.