AI 안전성 선제적으로 검증하는 ‘AI 레드팀’ 주목
‘수동 레드팀’과 자동화 도구로 취약점 발견…국내 기업들 솔루션화 움직임 활발
[아이티데일리] 최근 대화형 인공지능(AI)이 사용자에게 자살 방법을 안내해 논란이 됐다. 이 사건을 계기로 AI 모델의 안정성이 이슈로 떠 오르고 있다. 이런 상황에서 AI의 안전성을 선제적으로 검증하는 ‘AI 레드팀’이 주목받고 있다.
‘레드팀’은 사이버 보안 분야에서 사용되는 용어로 실제 공격자가 사용하는 도구와 기술을 모방해 시스템의 보안 취약점을 선제적으로 찾아내는 전문가 그룹을 의미한다. 이 개념은 생성형 AI가 등장하며 AI 모델이 내포하는 모델을 탐색하는 AI 레드팀으로 진화했다.
AI 레드팀은 공격자가 발견하기 전에 AI 시스템의 취약점을 발견하도록 설계된 테스트 프로세스로, 모델 공격 상황을 시뮬레이션해 모델, 훈련 데이터, 출력 등의 결함을 식별한다.
AI 레드팀은 크게 두 가지 방식으로 결함을 식별한다. 먼저 자동화된 레드팀 에이전트를 활용해 수많은 공격 프롬프트를 대규모로 생성하고 모델 응답을 검증하는 방식이다. 이는 복잡한 시스템의 광범위한 취약점을 빠르고 효율적으로 탐지한다.
다음은 사람이 직접 공격 프롬프트를 수행하는 ‘수동 레드팀’으로, 이는 자동화된 도구가 놓칠 수 있는 취약점을 발견할 수 있다. 이 두 방식은 상호 보완적이다.
AI 모델 개발 기업들은 주로 레드팀 전략을 채택하고 있다. 특히 빅테크 기업들은 내부 팀을 통해 모델 안정성 검사를 실시하고 있는 것으로 알려진다. 실제 구글, 오픈AI, 마이크로소프트 등이 이러한 방식을 활용하고 있으며, 국내에서는 네이버가 사내에 AI 세이프티 팀(AI Safety 팀)을 설립하고 안정성 검증을 실시하고 있다.
레드팀 검증을 솔루션화하는 기업들도 있다. 셀렉트스타, 크라우드웍스, 에이아이웍스 등이다. 먼저 셀렉트스타는 수동 레드팀 서비스를 제공해 왔으며 최근 ‘자동 레드 티밍(Auto-Redteaming)’ 기능을 자사 AI 신뢰성 검증 솔루션 ‘다투모이밸’에 추가했다. 이는 자동 공격 프롬프트를 구성하고 모델이 응답을 평가해 정량적 리포트를 제공한다.
크라우드웍스는 LLM 평가(Evaluate LLMs) 서비스를 통해 하이브리드 레드-티밍(Hybrid Red-Teaming)을 진행하고 있다. 하이브리드 레드-티밍은 자동 공격 테크닉과 전문 레드팀을 동시에 활용하는 방식으로, AI의 안정성과 취약점을 평가하기 위해 모델이 유해하거나 원치 않는 답변을 유도하는 공격을 수행한다.
에이아이웍스는 LLM 모델 및 에이전트의 취약점을 찾아내고 검증하는 레드팀 서비스를 제공하고 있다. 효율적인 레드팀 검증을 위해 데이터 구축, 평가 자동화 서비스도 지원한다. 고객은 이를 통해 AI의 부적절한 사용, 혐오 표현 노출 등을 예방할 수 있다.
국내 업계 관계자는 “기업들이 AI를 도입할 때 가장 우려하는 요인은 AI의 ‘신뢰성 부족’과 ‘잘못된 출력’이다. AI를 제공하는 기업은 모델 성능만큼이나 안전성과 신뢰성을 입증하는 것이 중요하다”며 “특히 잘못된 정보 생성이나 보안 취약점은 기업 평판과 직결되기 때문에, 사전에 제3자를 통한 평가, 검증을 거치는 것 중요하다”고 말했다.