AI가 연구 논문 직접 쓰고, AI가 심사해 발표하는 최초의 학회 열린다

‘에이전트 포 사이언스 2025(Agents4Science 2025)’ 학회, 22일 개막 과학기술 분야에서 AI가 도구가 아닌 연구 주체로 등장할까 주목

2025-10-22     조민수 기자
이미지=픽사베이

[아이티데일리] 컴퓨터 과학 분야에서 사상 처음으로 모든 논문과 모든 리뷰가 인공지능(AI) 에 의해 작성된 학회가 열린다.

22일(현지시간) 온라인으로 미국에서 개최되는 ‘에이전트 포 사이언스 2025(Agents4Science 2025)’ 학회에서는 AI가 작성하고 AI가 채택한 연구 결과가 발표된다고 네이처 온라인판이 전했다. 게시글에 따르면 이 학회에서 인간의 역할은 참가자 뿐이다. 행사에서는 제출된 논문들이 발표될 예정인데, 발표자는 해당 연구를 수행한 AI 에이전트이거나 실험을 진행한 인간 연구자들이다. 또 학자들이 참여하는 패널 토론도 예정돼 있다.

학회 공동 조직자인 스탠퍼드대 제임스 조우 박사는 게시글에서 이번 행사가 “다양한 논문 제출 절차나 심사 방식을 실험할 수 있는 안전한 ‘샌드박스’ 역할을 할 것”이라고 설명했다. 그는 “지난 1년 사이 AI가 과학 연구에 사용되는 방식에서 ‘패러다임 전환’이 일어났다”며 “이제 연구자들은 AI가 특정 작업을 수행하는 도구가 아닌, 여러 모델을 조합한 ‘에이전트 그룹’을 구축해 실제 과학자처럼 연구 전반을 수행하게 하고 있다”고 말했다.

AI 모델이 논문을 작성하거나 리뷰에 참여하는 경우는 이미 존재하지만, 대부분의 학회나 출판사는 AI를 저자나 발표자로 명시하는 것을 금지하고 있다. 조우는 “그래서 이번에는 발상을 뒤집었다. 저자도, 리뷰어도 모두 AI가 수행했다”고 말했다. 인간이 조언이나 피드백을 제공할 수는 있지만, 주된 기여자는 AI, 즉 ‘제1저자’가 되어야 한다는 것이 학회의 원칙이었다.

허깅페이스의 AI 윤리 연구자 마가릿 미첼은 “이번 학회는 우리가 AI 시스템을 이런 방식으로 사용할 때 그 강점과 약점을 더 잘 이해해야 함을 상기시킨다”고 말했다. 그녀는 “AI 에이전트를 어떻게 평가할지 자체가 아직 열려 있는 연구 주제”라며, “특히 모델이 얼마나 자주 쓸모없는 ‘거짓 양성’ 결과를 내는지 측정하는 것이 중요하다”고 덧붙였다.

같은 회사의 클레망틴 푸리에 연구원은 이번 행사가 또 다른 긍정적인 효과를 낳을 것이라고 본다. 그는 “이런 학회가 생기면, 다른 학회들에서 리뷰어들이 겪는 과중한 업무 부담이 조금이라도 줄어들 수 있기를 기대한다”고 말했다.

이번 학회에는 300개 이상의 AI 에이전트가 논문을 제출했으며, 이 중 48편이 AI 심사위원단의 평가를 거쳐 채택됐다. 논문 대부분은 물리적 실험이 아닌 계산 기반 연구로, 정신분석학부터 수학까지 다양한 분야를 다루고 있다. 조우는 이번 학회를 통해 “AI 과학자들이 실제로 얼마나 잘하는지, 그리고 어떤 유형의 실수를 하는지”를 데이터로 남길 수 있기를 기대한다. 이런 데이터는 향후 AI의 연구 활용 가이드라인 마련에 도움이 될 수 있다고 미첼은 덧붙였다.

AI는 여전히 오류를 저지르기 쉽다. 따라서 제출된 모든 논문은 각 단계에서 인간 연구자와 AI가 어떻게 상호작용했는지 명시해야 했다. 이를 통해 인간 개입의 정도가 결과물의 품질에 어떤 영향을 미치는지 평가할 수 있다고 조우는 설명했다.

AI가 리뷰어로서 얼마나 신뢰할 수 있는지도 중점적으로 평가된다. 이번 학회에서는 우선 AI 에이전트가 유명 학회 뉴립스(NeurIPS, 신경정보처리시스템학회)의 심사 가이드라인과 점수체계를 사용해 1차 심사를 수행했고, 상위 논문들은 인간 자문위원회가 추가로 평가했다. 모든 리뷰 결과는 공개적으로 열람 가능하며, AI가 작성한 리뷰와 인간이 작성한 리뷰를 비교 분석하게 된다. 조우는 “이 비교는 중요한 기준점이 될 것”이라고 말했다.

AI를 학술지나 학회 리뷰어로 활용하는 것은 여전히 논란거리다. 영국 물리학회의 최근 설문에 따르면, 응답자의 57%가 ‘자신이 공저자인 논문을 AI가 심사하는 것에 불쾌감을 느낀다’고 답했다. AI 리뷰어는 때때로 논문에 긍정적 평가를 내리도록 유도되는 등 숨은 지시문에 취약하다는 점에서 안전장치가 필요하다. 또 젊은 연구자들이 리뷰 경험을 통해 배우는 기회를 잃을 수 있다는 우려도 있다.

그러나 조우를 비롯한 다수의 연구자들은, 특히 컴퓨터 과학 분야에서는 AI 리뷰의 필요성이 커지고 있다고 말한다. 대표적 학회인 뉴립스의 논문 제출 건수는 최근 5년 사이 2배 이상 증가했는데, 이는 대규모 언어모델(LLM) 활용 확산의 영향도 크다. 조우는 “AI 에이전트가 인간과 함께 하이브리드 리뷰 팀을 구성할 수 있을 것”이라며, “지금은 논문이 폭증하는 시대라, 결국 AI의 도움이 필요하다는 점을 인식하기 시작한 것”이라고 말했다.

조지아공대의 컴퓨터 과학자 매튜 곰볼레이는 “기존 연구 결과에 따르면, LLM은 논문의 참신성과 중요성을 평가하는 데 인간보다 뒤처진다”고 말한다. 그는 “이번 학회보다 더 엄격한 실험은, 실제 주요 학회에서 논문을 무작위로 인간 혹은 LLM 리뷰 그룹에 배정해, 어느 쪽이 더 의미 있는 돌파구를 만들어내는지를 비교하는 것일 것”이라고 제안했다.

‘에이전트 포 사이언스 2025’는 AI가 연구자이자 심사자가 되는 최초의 학회로, AI의 과학적 활용이 어디까지 확장될 수 있는지를 시험하는 ‘실험적 무대’가 될 것으로 보인다.