블라인드 테스트서 오픈 AI, 딥시크 등 모델 능가 주장도
[아이티데일리] 일론 머스크가 X를 통해 “지구에서 가장 똑똑한 AI”라고 역설했던 AI 모델인 ‘그록3(Grok3)’가 베일을 벗었다. 일론 머스크가 설립한 인공지능(AI) 스타트업 xAI에서 개발한 AI 모델 그록3은 수학, 과학, 코딩 벤치마크 테스트에서 오픈AI ‘GPT-4o’, 딥시크 ‘V3’ 모델, 앤스로픽 ‘클로드 3.5 소네트’ 등 주요 AI 기업의 모델 성능을 넘어선 것으로 나타났다.
18일 xAI는 오후 1시 X(트위터) 라이브 시연을 진행하며, 신규 AI 모델 그록3 베타버전을 소개했다.
xAI 엔지니어 3명과 함께 발표회에 등장한 머스크는 “그록3은 엔비디아 그래픽처리장치(GPU) H100 10만 개를 탑재한 콜로서스(Colossus) 슈퍼컴퓨터에서 2억 시간 동안 훈련됐다. 그록3은 그록2 대비 10배 더 많은 연산능력이 투입됐다. 사전훈련 과정을 1월 초에 끝냈다”면서 “앞서 강조한 대로 그록3은 ‘지구에서 가장 똑똑한 AI’다. 우리는 모델들을 매일 계속 개선하고 있으며, 24시간 이내에 개선을 보게 될 것”이라고 말했다.
그록3은 속도를 높인 소형 버전인 ‘그록3 미니(mini)’, 추론 모델인 ‘그록3 추론’ 및 ‘그록3 미니 추론’ 등 제품군으로 구성됐다. 추론 모델은 오픈AI가 최근 출시한 추론 모델 o3-미니, 딥시크의 R1과 유사하다. 이들 모델은 결과를 제공하기 전 스스로 검토해 오류를 줄인다.
xAI는 그록3이 오픈 AI GPT-4o, 앤트로픽 클로드 3.5 소네트, 딥시크 V3 등 경쟁 모델보다 수학, 과학, 코딩 벤치마크에서 높은 성과를 보였다고 강조했다. 미국 수학경시대회(AIME) 2024 문제로 모델을 평가한 결과 딥시크 V3는 39%, 클로드 3.5 소네트는 26% 등의 정답률을 기록한 반면 그록3은 52%를 기록했다. AIME 2025에서는 그록3 점수가 오픈AI o3-미니-하이보다 높다고 강조했다. 과학 관련 벤치마크 GPQA에서는 V3가 정답률 59%, 클로드 3.5 소네트가 65%, GPT-4o가 50%를 기록했다면 그록3 정답률은 75%라고 주장했다.
일론 머스크는 “xAI는 추론 모델인 그록3 추론 모델이 오픈AI의 o3-미니 시리즈 중 가장 성능이 높은 모델을 여러 주요 벤치마크에서 능가했다”면서 “그록3은 딥시크 R1과 오픈AI o3 미니와 유사한 추론 기능을 갖췄으며 자세한 사고 사슬(CoT, AI가 문제를 풀 때 단계별 중간 사고 과정을 거쳐 해결·추론해 내는 기법) 과정을 사용자에게 공개한다”고 부연했다.
xAI는 그록3와 함께 이를 기반으로 하는 검색엔진 ‘딥서치(DeepSearch)’도 선보였다. 오픈AI ‘딥 리서치’와 비슷한 도구로 웹 페이지, X 등에서 오랜 시간 검색해 필요한 정보를 제공한다. 질문을 받으면 이해하는 과정과 함께 답변을 어떻게 계획하는지 표현하는 기능을 가진 추론형 챗봇이다.
일론 머스크는 딥서치에 대해 “웹에서 30분 또는 1시간 동안 조사하거나 소셜 미디어를 검색하는 데 걸리는 작업을 요청하고 돌아오면 10분 후에 1시간 분량의 작업을 대신 해준다”고 강조했다.
머스크는 향후 수 주 내로 그록3에 음성모드가 추가될 예정이며, 수 개월 내 이전 버전인 그록2를 오픈소스로 공개한다는 방침이다.
한편, xAI는 그록3 발표 직후부터 소셜 미디어 X의 유료 멤버십 ‘프리미엄+(월 29,000원, 연 300,000원)’ 구독자에게 선제적으로 배포하고 있다. 추후 그록 모바일 앱과 웹사이트에서 ‘슈퍼그록’이라는 새 구독 상품을 제공한다는 계획이다. 또한 월 구독료 30달러(약 43,000원) 또는 연 구독료 300달러(약 430,000원)의 구독 서비스 ‘슈퍼그록’도 출시할 예정이다. 이 서비스는 추가 추론, 무제한 이미지 생성 등을 지원한다.
마지막으로 머스크는 우주기업 스페이스X가 “테슬라 휴머노이드 로봇 ‘옵티머스’와 ‘그록 AI’를 탑재한 로켓 스타십을 화성으로 보낼 계획”이라고 밝혔다.


