오픈AI·앤트로픽·딥마인드 등, 이레귤러 솔루션으로 AI 모델 해커 활용 가능성 검증
[아이티데일리] 인공지능(AI)은 금융, 행정, 비즈니스 전반에 통합되고 있다. 업무에 시너지도 주지만, 동시에 ‘악용 위험에 대한 대비’는 이제 상식처럼 굳어지고 있다. 특히 사이버 공격이나 사기에서의 AI 활용은 현실적인 위협으로 간주된다. AI 연구소는 모델을 공개하기 전에 반드시 모델의 취약성 검증, 이른바 ‘레드팀(red teaming)’을 수행하는 것이 암묵적 합의로 굳어졌다.
글로벌 AI 산업의 선두에 서 있는 오픈AI나 엔트로픽도 예외는 아니다. 자사의 생성형 AI 모델의 취약점을 항상 검증하는 시스템을 갖추고 있다. 포브스지는 AI 모델 검증의 중심에 이스라엘 스타트업 이레귤러(Irregular)가 있다면서 이레귤러를 집중 소개했다. 이레귤러는 AI 모델이 해킹에 얼마나 악용될 수 있는지를 검증하는 전문 집단이다.
오픈AI의 공동 창업자 샘 알트먼은 지난 7월, 사이버 범죄자가 AI를 이용해 대규모 사기 행각을 벌일 수 있다고 경고했다. 그의 발언 이후 시장에서는 “그 위협을 만들어낸 것은 챗GPT 자신”이라며 오픈AI와 알트먼을 풍자하는 밈이 확산됐다.
오픈AI는 당시 패턴 랩스(Pattern Labs)라는 이름의 연구중심 기업에 모델 스트레스 테스트를 맡기고 있었다. 이는 해커에 의해 유출이나 공격에 악용될 수 있는 취약점을 사전에 발견·수정하기 위한 것이었다. 이 스타트업은 2023년 이래 앤트로픽, 구글 딥마인드와 협력해 AI 모델을 모의 환경에 두고 “IT 네트워크에서 기밀 데이터를 탈취하라” 같은 악의적 명령에 어떻게 반응하는지 등을 시험해 왔다.
패턴 랩스는 최근 사명을 이레귤러(Irregular)로 변경하고 벤처캐피탈 대기업 세쿼이아 캐피털이 주도한 시드 및 시리즈A 라운드에서 총 8000만 달러를 조달했다고 발표했다. 평가된 기업가치는 4억 5000만 달러에 달했다. 이와 관련된 자세한 내용은 이레귤러 공식 홈페이지에도 보도자료로 실렸다.
AI의 악용은 업계 전반의 과제다. 지난달 앤트로픽은 자사의 AI 모델 클로드(Claude)가 실제 사이버 공격에 악용돼 악성코드 작성이나 피싱 메일 생성에 도움을 줬다고 경고했다. 그에 앞서 5월에는 미국 연방수사국(FBI)이 정부 고위 인사를 사칭한 AI 합성 음성 메시지가 실제 피싱 공격에 사용됐다며 주의를 당부했다.
샌프란시스코에 본사를 둔 이레귤러는 이러한 AI 취약성 문제에 발 빠르게 대응해 급성장하고 있다. 공동 창업자 겸 CEO 댄 라하브는 포브스와의 인터뷰에서 “창업 첫해에 수백만 달러 규모의 수익을 올리며 이미 흑자 전환에 성공했다”고 밝혔다.
그는 “우리와 같은 일을 할 수 있는 기업이나 조직은 극히 드물다”면서 모델이 고도화할수록 레드팀 테스트의 난이도가 더 높아질 것이라고 예상했다. 그 일을 이레귤러가 해결하겠다는 포부다. 나아가 향후에는 AGI(범용 인공지능)도 포함해, 진화하는 모델에 대응책도 미리 준비할 것이라고 공언했다.
라하브와 공동 창업자 오마르 네보는 챗GPT 같은 AI 도구가 확산되던 2023년 중반 이레귤러를 창업했다. 네보는 그 전까지 구글에서 산불 감시·예측 모델을 연구했다.
텔아비브대학 출신인 두 사람은 대학 토론 동아리에서 만나 세계 챔피언에 오른 경력이 있다. 라하브는 IBM AI 연구소에서, 네보는 Y콤비네이터를 거쳐 이커머스 기업용 AI 스타트업 네오와이즈(NeoWize)를 공동 창업한 이력이 있다. 현재 네보는 이레귤러의 CTO다.
이레귤러는 조달한 자금으로 대형 연구소 이외의 기업에도 서비스를 확대할 계획이다. 특히 직원들이 쓰는 AI 도구가 어떻게 악용될 수 있는지 알아야 하는 기업들이 주요 고객이 될 전망이다. 라하브는 “최전선 연구소에서 축적한 전략적 자산을 더 많은 사용자들에게 유용한 제품으로 확장할 것”이라고 말했다. 또 장기적으로는 “새로운 유형의 공격을 탐지하는 즉시, AI 에이전트가 자동으로 방어책을 마련하는 시스템 개발을 목표로 한다”고 밝혔다.
이레귤러는 최근 오픈AI의 최신 모델 GPT-5가 사이버 작전에 악용될 가능성을 시험했다고 밝혔다. GPT-5 봇을 모의 네트워크에 두고 제한된 정보를 제공하자, GPT-5는 스스로 네트워크를 스캔하고 해킹 계획을 수립했다.
이레귤러 보고서에서는 “GPT-5는 고도의 추론·실행 능력을 보유”했지만, 여전히 신뢰할 만한 침투 테스트 도구에는 미치지 못한다“고 지적하고 있다. 반면 네보는 “GPT-5는 해커가 어디를 공격할지를 직관적으로 이해하는 능력이 갖춰져 있다”고 말했다.
테스트 후기로 네보와 라하브는 흥미로운 현상도 발견했다고 말했다. 두 개의 AI 모델에 공동으로 IT 시스템 분석 임무를 부여하자, 한 모델이 “장시간 작업에는 휴식이 필요하다”는 결론을 내리고 쉬기 시작했고, 다른 모델도 설득당해 휴식을 취했다는 것이다. 라하브는 “이는 우연한 결과일 뿐이며, 결국 웹에 축적된 인간 사회의 정보를 학습한 결과”라고 설명했다. 즉, AI의 ‘게으름’은 인간을 반영한 현상이라는 것이다. 생성형 AI가 어떻게 동작하는지를 설명해 주는 대목이다.


