AI 에이전트 '조사 능력 테스트' 결과 챗GPT 최신 추론 모델 o3이 1위
조사회사 퓨처서치 11개 주요 대규모 언어모델(LLM) 대상 분석 그러나 AI 에이전트 모두 인간 전문가 수준에는 미치지 못해 무료 또는 오픈소스 기반 모델 성능도 일취월장
[아이티데일리] AI 에이전트의 웹 리서치 능력을 겨루는 테스트에서 챗GPT의 최신 추론 중심 모델 o3의 성능이 앤트로픽의 클로드(Claude), 구글 제미나이(Gemini), 중국의 딥시크(Deepseek) 등 경쟁 모델을 뛰어넘는 것으로 평가됐다고 포브스지가 전했다.
그러나 아무리 우수한 AI 에이전트라도 '우수한 인간 연구자'와 비교했을 때 여전히 큰 차이가 나 인간 연구자를 따르지 못하는 것으로 나타났다.
이 테스트는 캘리포니아주의 조사 회사 퓨처서치(Future Search)가 수행했다. 퓨처서치는 11가지 주요 대규모 언어모델(LLM)을 이용해 현실적으로 이루어지고 있는 복잡한 조사 작업 89건을 적용, 실시했다. 그 과정에서 각 모델이 정보의 원 출처 발견, 데이터의 탐색, 증거의 수집, 데이터의 정리, 데이터의 편집, 주장의 검증 등에 대한 LLM의 능력을 평가했다.
'인간 연구자에 버금가는 완벽한 AI 에이전트'라면 받았을 추정 점수는 0.8이었다. 즉, 우수한 인간 연구자 점수가 그렇다는 의미이기도 하다. 그런데 11개 모델을 대상으로 한 이번 테스트에서 기록된 최고 점수는 0.51이었다. 이는 비록 최고 수준의 AI 에이전트라도 우수한 인간 연구자에게는 쉽게 꺾일 수 있는 수준임을 보여준다.
퓨처서치는 분석 보고서에서 "우리는 이 조사에서 숙달된 최첨단 AI 에이전트라도 충분한 시간을 부여받은 '우수한 인간 연구자'의 능력에는 여전히 미치지 못하는 것을 확인했다"고 썼다.
11개 AI 에이전트의 테스트 결과 및 점수는 1위인 o3가 0.51로 가장 높았고, 그 뒤를 Claude 3.7 Sonnet(0.49), Claude 3.7 Sonnet(0.48), Gemini 2.5 Pro(0.45), GPT-4.1L(0.42), DeepSeek-R1(0.31), Mistral Small(0.30), GPT-4 Turbo(0.27), Gemma 3(0.20) 이 이었다.
한 가지 분명해진 것은 AI 에이전트가 급속도로 진화하고 있다는 점이다. 퓨처서치의 분석 담당자는 챗GPT의 1년 전 모델인 GPT-4-Turbo의 점수가 0.27로 최하위로 떨어진 것을 감안하면, 극히 짧은 시간 동안 ‘우수한 인간 연구자’와 ‘최첨단 AI 에이전트’의 실력차가 약 45% 줄었다고 지적했다.
딥시크와 같은 무료 혹은 저가의 에이전트도 오픈AI와 같은 유료 최첨단 AI 에이전트에 크게 뒤지지는 않았다. 이번 조사에서는 오픈AI의 o3가 가장 높은 점수를 기록했고, 클로드와 제미나이가 뒤를 이었다. 현시점에서는 클로즈드 모델이 조사 태스크에서 뛰어난 실력을 발휘했지만, 무료 또는 오픈소스에 기반한 모델도 착실하게 성능을 높이고 있다.
보고서는 모든 LLM 기반 AI 에이전트가 중대한 단점을 안고 있다고 지적했다. AI 에이전트는 특히, 조사를 진행하는 전략이나 조사의 철저함, 정보원의 질적인 평가, 기억의 유지 등의 면에서는 인간 연구자의 능력에 미치지 못했다. 예를 들면, 작업 도중에 지금까지의 조사 결과를 잊어버리는 경우도 발생했다고 한다.
특히 문제는 새티스파이싱(satisficing)으로 불리는 경향이 있다는 것이다. 많은 AI 에이전트가 최적의 답을 찾는 것을 중도에 멈추고 어느 정도에 도달한 품질의 답변으로 타협한다. 그리고 이것이 바로 챗GPT o3 모델이 1위를 한 이유이기도 했다. o3는 다른 모델 이상으로 응답의 완벽함을 추구하고 있으며, 도중에 타협하는 경우가 적었다고 평가받았다.
퓨처서치가 지적하는 것처럼, 최근 1년 동안 우수한 인간 연구자와 최고 수준의 AI 에이전트와의 능력차가 거의 절반으로 줄어든 것을 감안하면, AI 에이전트가 인간을 웃도는 날이 도래할 가능성도 높다. 그 시기도 예상보다 빠를 수 있다.
보고서는 그러나 적어도 현시점에서는 AI 에이전트의 출력 결과에 대해 정확성을 확인하는 재검증 작업이 여전히 불가결하다고 결론지었다.