애플, ‘사고의 착각(The Illusion Of Thinking)’ 연구 논문 발표…“‘AI는 만능’ 믿음은 환상” 지적
[아이티데일리] 애플이 최첨단 기술로 여겨지는 AI 모델에 내재된 결함을 폭로하면서, 복잡한 과제에 직면할 경우 AI 모델들이 완전히 붕괴할 수 있다는 내용의 새로운 연구 논문을 발표해 관심을 끌었다. 이 논문은 AI 커뮤니티에 충격을 주었고, 지금까지 간과되어 온 심각한 한계를 드러냈다는 평가를 받는다.
이 논문은 ‘사고의 착각(The Illusion Of Thinking)’이라는 제목으로 발표돼 홈페이지에 게재됐다. 발표된 게시글에 따르면 오픈AI의 GPT-4, 딥시크(DeepSeek), 앤트로픽의 클로드 소넷(Claude Sonnet) 등이 채택하고 있는 ‘연쇄 사고(chain-of-thought) 추론’이 과제가 일정 수준 이상의 복잡성에 도달해 임계점을 넘어가면 ‘정확도의 완전 붕괴(complete accuracy collapse)’ 현상을 겪는다. 특히, 한 번 복잡성이 임계값을 넘어서면 연산 능력이나 토큰 수, 데이터의 양을 아무리 늘려도 성능 향상이 거의 없다고 해 우려를 낳았다.
이는 기후 변화, 에너지 부족, 전 세계 빈곤과 같은 글로벌 난제들을 AI가 해결해 줄 것이라는 지난 수년 동안의 장밋빛 전망에 어두운 그림자를 드리우고 있다.
대규모 추론 모델(Large Reasoning Model, LRM)은 에이전트형 AI(agentic AI)의 문제 해결 엔진이며, 인간처럼 학습 성과를 모든 과제에 적용할 수 있는 범용 인공지능(AGI)으로 가는 단계로 간주된다. 그런 평가 때문에 대다수 AI 개발사들이 LRM에 막대한 투자를 집중해 왔다.
애플 연구 보고서의 핵심은 GPT-4 등 최신 대규모언어모델(LLM)이 사실은 ‘사고(thinking)’하지 않으며, 복잡한 과제 앞에서는 완전히 무력화될 수 있다는 것이다. 그래서 논문의 제목도 ‘사고의 착각’이다. 논문은 AI가 마치 사람처럼 추론하는 것처럼 보이지만, 이는 착각에 불과하다는 점을 과학적으로 분석하고 있다.
보고서는 복잡한 문제를 만난 AI 모델이 아예 ‘포기’하듯이 토큰 소비를 줄이고 중간 추론 과정을 생략하거나, 엉뚱한 결론을 내리는 현상도 다수 관찰됐다고 밝혔다. 이는 지금까지 통용되던 ‘AI는 클수록 좋다’는 스케일링 법칙에 근본적인 의문을 제기하는 결과다.
이러한 결과는 기후 변화, 법률 판단, 정책 설계 등 복잡하고 비정형적인 실제 문제에 AI를 활용하고자 했던 기대에 제동을 건다. 보고서는 "AI를 만능 해결책으로 여기는 관점에서 벗어나야 한다"고 강조하며, 기업과 조직이 AI를 보다 전략적으로 활용해야 한다는 교훈을 제시했다.
보고서는 특히 ▲복잡성이 낮거나 중간 수준의 과제에 AI를 집중 투입할 것 ▲Human-in-the-loop(HITL)을 통해 인간의 개입과 책임 있는 운영을 보장할 것 ▲정확도 붕괴의 조기 신호를 감지하고 대응할 시스템을 마련할 것을 권고했다.
한편, 보고서는 현재의 한계를 인정하면서도, 에이전트형 AI나 설명 가능한 AI 기술을 통해 이 문제를 보완할 가능성도 함께 제시했다. “AI의 끝이 아니라, 이제부터 진짜 이해하고 제대로 써야 할 시점”이라며, 기술의 올바른 활용이야말로 향후 가치를 창출하는 열쇠가 될 것이라고 강조했다.
포브스지는 애플 연구 논문을 보도하면서 “애플의 이번 연구는 AI의 종말을 말하는 것이 아니라, 기업이 성공 가능성이 높은 분야에 집중하고, 실패 위험을 이해하고 대비할 수 있도록 하는 지침서로 삼아야 한다”고 지적했다. AI의 한계를 인지하되, 그 혜택을 포기할 필요는 없다는 것이다.
에이전트형 AI는 단일 추론으로 부족한 경우, 다양한 도구를 조합해 공백을 메울 수 있다. 또한, ‘설명 가능한 AI(Explainable AI)’를 도입해 시스템의 투명성을 높이면, 성능 붕괴 발생 시 그 원인을 더욱 정확히 파악할 수 있다. AI가 항상 완벽하게 작동하고 모든 문제에 최적 해법을 제시해 줄 것으로 기대해서는 안 되며, AI의 장점을 최대한 활용하고 진정한 가치를 창출해야 할 것이라는 지적이다.


