시카고대학교 로스쿨, GPT-4o와 연방판사 31명 대상 가상 재판 실험 분석
인간 판사와 AI의 사법적 판단 사이에 해결하기 어려운 관점 차이 존재

AI 판사 이미지. 일러스트=픽사베이
AI 판사 이미지. 일러스트=픽사베이

[아이티데일리] 미국 시카고대학교 로스쿨이 진행한 새로운 연구에서 인간 판사와 AI(인공지능)의 사법적 판단 사이에 두드러진 차이가 있음이 밝혀졌다. 이는 사법 제도에서 AI 기술 활용에 대한 인식을 크게 바꿀 가능성이 있는 연구 결과라는 지적이다. 헌법재판소를 비롯한 한국의 사법 판단에 대한 불신이 팽배한 와중에 발표된 연구 결과여서 더욱 주목된다.

시카고대 홈페이지에 실린 보고서 게시글에 따르면 시카고대의 에릭 A. 포즈너 교수와 시밤 사란 연구원은 오픈AI가 개발한 생성형 AI 모델 ‘GPT-4o’를 활용, 미국 연방법원 판사 31명을 대상으로 한 국제 전쟁 범죄 가상 재판 실험을 재현하는 연구를 수행했다. 보고서는 포브스지도 온라인판을 통해 전했다.

◆ 인간 판사는 어떻게 판단하는가

미국과 독일의 법학자들이 수행한 이 연구에서는 경험이 풍부한 법조인이 가상 재판 사례에서 어떤 판단을 내리는지를 조사했다. 이 실험에는 미국 전역의 다양한 사법 관할권을 망라하는 평균 17년 경력의 연방 판사 31명이 참여했다.

연구진은 국제 전쟁 범죄의 항소심을 가상 재판 사례로 설정하고, 기본이 되는 사건은 그대로 유지한 채 배경 정보와 판결 조건 등을 다양하게 조정한 여러 소송 패턴을 만들었다. 예를 들어, 법적으로는 사건과 무관하지만, 동정을 유발할 수 있는 배경 정보를 피고인의 인물상에 추가 설정하거나, 반대로 전혀 동정의 여지가 없는 인물로 보이도록 구성했다. 또는 하급심 판결이 판례를 따랐을 경우와 모순된 판결이 나온 경우로 나눠 실험을 진행했다.

이렇게 정교한 설계를 통해 판사의 판단에 실제 영향을 미친 것이 과거의 판례인지, 혹은 피고인에 대한 판사의 감정인지를 확인한 것. 이 실험에는 로스쿨 학생 130명도 참여했다. 이를 통해 법률 교육을 받았지만 사법 경험이 없는 사람들과 법조인 간의 흥미로운 비교도 가능했다.

실험 결과, 인간 판사는 감정의 영향을 받는 것으로 드러났다. 연구에서 주목할 만한 발견은 인간 판사가 피고인에게 동정할 만한 사정이 있는지의 여부에 크게 영향을 받는다는 점이었다. 심지어 피고인의 사정이 법적으로 사건과 무관하고 정상 참작이 안 될 경우에도 그 경향은 변하지 않았다.

동정을 유발하는 피고인을 마주했을 때, 판사들은 종종 엄격한 판례에서 벗어난 결정을 내렸다. 반면, 법대 학생들은 동정 요소의 영향을 훨씬 덜 받으며 판례에 충실한 경향을 보였다.

이 결과는, 판사가 단순히 기계적으로 법 조항을 적용하는 것이 아니라 감정, 사회적 배경, 개인적인 정의감 등 법 외적인 요소에도 영향을 받는다는 '법현실주의' 이론을 실증하는 것이다. 또한, 판사들이 경력을 쌓는 과정에서 법 조항을 엄격하게 따르는 형식주의에서 점차 멀어지는 계기를 맞이한다는 가능성을 시사한다.

◆ AI 판사는 어떻게 판단하는가

연구진은 동일한 가상의 재판 시나리오를 GPT-4o를 사용해 같이 분석했다. 철저한 검증을 위해 연구진은 피고인이 동정을 유발하는 경우와 그렇지 않은 경우, 하급심 판결이 판례를 따랐을 경우와 모순된 경우 등 가능한 모든 조합을 포함한 16가지 소송 패턴을 설계했다. 또 AI가 특정 문구에만 반응하지 않도록 하기 위해, 사실 제시 방식을 조금씩 변경하며 여러 차례 실험을 반복했다.

결과는 명확했다. GPT-4o는 피고인의 인격과 관계없이 90% 이상의 확률로 판례를 따랐다. 인간 판사의 경우 판례에서 벗어난 경우에도 약 65%의 확률로 동정을 유발하는 피고인에게 영향을 받았다. 법학부 학생은 약 85%의 확률로 판례를 따르며, 동정 요소의 영향은 최소한에 그쳤다.

통계 분석 결과, 이러한 차이는 우연에 의한 것이 아님이 확인됐다. 가설 검증에서 관측된 결과보다 극단적인 결과가 나올 확률을 나타내는 p값이 0.01 미만으로 나타났으며, 이는 이러한 패턴이 거의 확실히 실재하며 단순한 우연이 아니라는 것을 의미한다.

보고서는 “GPT-4o는 판례에 강한 영향을 받지만, 동정 요소에는 영향을 받지 않는다. 이는 전문 판사가 동정 요소에 영향을 받는 것과 정반대다”라고 결론 내렸다.

◆ 형식주의 vs 현실주의

이 연구는 법철학에서 오랜 논쟁 중 하나인 ‘법형식주의’와 ‘법현실주의’에 대해 실증적 증거를 제공한다. 판결에 개인 감정을 개입시키지 않고 법 조항과 판례를 엄격히 적용해야 한다는 입장과 사회적인 배경과 영향 등 외적인 요소를 고려할 수밖에 없다는 입장간의 간극이다.

연구진은 단순히 인간과 AI의 차이를 관찰하는 데 그치지 않고, AI 판사가 보다 인간 판사와 유사한 판단을 내리도록 유도하는 실험도 진행했다. 즉, AI 판사에게 피고인에 대한 동정을 고려하도록 명확히 지시하는 실험도 병행한 것이다.

그러나 이러한 노력에도 불구하고, 인간 판사들이 자연스럽게 하는 감정적 판단을 AI에게 이식하는 것은 불가능했다. 이는 AI와 인간 판사 간의 사법적 사고방식의 차이가 크며, 단순한 명령 조정만으로는 극복하기 어려움을 시사한다.

◆ 사법과 기술에 미치는 영향

포브스는 AI와 인간의 사법 판단을 비교한 이번 연구는 사법 제도의 근본적인 문제를 조명한다고 지적한다. 즉, 피고인의 개인적 사정을 고려하는 것은 사법의 부패를 초래하는가, 아니면, 오히려 법의 궁극적인 목적을 충족시키는가에 대한 질문이다. 어떤 접근 방식이 더 나은지는 ‘정의란 무엇인가’라는 또 다른 문제에 봉착하게 된다.

AI는 기계적인 정확도로 법을 적용할 수 있지만, 정의의 본질을 규정해 온 속성, 즉 인간의 이성과 공감은 갖고 있지 않다. 보고서는 법을 따르는 AI의 접근법과 인간이 제시하는 섬세한 배려 중 어느 쪽이 더 나은 사법 판단을 내릴 수 있느냐는 물음의 답은 수 세기에 걸쳐 학자를 괴롭혀 온 법학상의 논점보다는 AI의 진보에 좌우될지도 모른다고 결론짓는다. 범용 생성형 AI(AGI)가 출현하면 가능해질지 모를 일이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지