앱 보안 전문업체 베라코드 “생성형 AI 시큐어 코딩 성능 정체 중” 우려

[아이티데일리] 생성형 인공지능(Generative AI)을 활용해 코드를 작성하는 ‘바이브 코딩(Vibe Coding)’이 최근 개발자들 사이에서 화두다. 하지만 AI가 생성한 코드의 절반 가까이가 보안 취약점을 내포하고 있다는 연구 결과가 속속 발표되며 바이브 코딩에 대한 위험 경보를 울리고 있다. 보안 전문가들은 개발자들이 AI 생성 코드에 대해 과도한 신뢰를 보이고 있으며, 충분한 검토 없이 사용함에 따라 보안 위험이 급격히 확산되고 있다고 경고한다.

애플리케이션 보안 전문업체 베라코드(Veracode)는 최근 이 같은 내용을 담은 ‘2025 생성형 AI 코드 보안 보고서(AI-generated code security in 2025)’를 발표했다.

(이미지=픽사베이)
(이미지=픽사베이)

베라코드에 따르면 100개 이상의 대규모 언어모델(LLM)을 대상으로 한 분석에서 AI가 생성한 코드 샘플의 45%가 보안 테스트를 통과하지 못했으며, OWASP(Open Worldwide Application Security Project) 10대 보안 취약점을 내포한 것으로 나타났다. 이에 대해 베라코드 연구진은 “AI가 기능적으로 정확한 코드를 생성하는 능력은 향상됐지만, 보안 성능은 전혀 개선되지 않고 있음을 보여준다”고 평가했다.

언어별로는 자바(Java)가 가장 위험한 언어로 확인됐다. 자바로 작성한 AI 생성 코드의 72%가 보안에 실패한 것으로 분류됐다. 그외 다른 주요 언어들도 심각한 수준을 보였다. 파이썬은 38%, 자바스크립트는 43%, C#은 45%의 보안 실패율을 각각 보였다. 특히 XSS(크로스사이트 스크립팅) 공격에 대해서는 86%의 코드가 적절한 방어를 구현하지 못한 것으로 확인됐다.

특히 우려를 더하는 점은 앞서 연구진이 언급했듯 AI가 생성한 코드의 보안 수준이 개선되지 않고 있다는 것이다. 초기 AI 모델과 비교해 최신 모델들이 더 안전한 코드를 생성할 것이라는 기대와는 달리, 실제로는 AI 모델의 크기나 학습의 정교함과 무관하게 보안 코딩 관련 성능이 정체 상태라는 분석이다. 베라코드 연구팀은 “수년간 다양한 크기와 출시 날짜, 학습 소스를 가진 LLM들을 평가한 결과, 모델들이 기능적이고 문법적으로 올바른 코드 작성 능력은 향상됐지만 보안 코드 작성 능력은 전혀 나아지지 않았다”고 했다.

하지만 무엇보다 가장 큰 문제는 AI 생성 코드가 이미 광범위하게 확산 중이라는 데 있다. 사내 개발 팀만을 관리한다고 해결되는 것이 아니라 오픈소스 소프트웨어 관리자, 서드파티 벤더, 로우코드/노코드 플랫폼, 외주 개발업체 등까지 신경써야 할 범위가 매우 넓다는 것. 즉 생성형 AI를 직접 사용하지 않는 조직이라 할 지라도 인지하지 못하는 사이에 AI가 생성한 코드에 노출될 가능성이 높다는 의미다. 보안 전문가들은 “적절한 검증 없이 사용할 경우 데이터 유출, 평판 손상, 재정적 손실과 법적 위험에 직면할 수 있다”고 경고하고 있다.

베라코드의 이번 보고서 외에도 다수의 보안 업체 및 연구기관들이 유사한 문제를 지적하고 있다. 이들의 관련 보고서를 취합해보면 작게는 48%에서 최대 62%에 달하는 AI 생성 코드가 보안 검증에 실패하거나 취약점을 포함하고 있으며, 심지어 올바르게 작동하는 코드라 할 지라도 상당 부분이 실제 공격에 활용될 수 있는 결함을 내포한 것으로 파악됐다.

한 국내 보안 기업 연구소장은 “최근 개발자들이 AI 생성 코드에 대해 과도한 신뢰를 보인다는 건 분명하다. LLM을 이용해 빠르게 많은 양의 코드를 만들어낼 수 있지만, 이로 인해 취약한 코드 역시 대량으로 생성되고 있다는 것을 알아야 한다”고 지적하면서 “이제 조직들은 AI 코드로 인한 취약점이 가져올 위협을 사전에 방지할 수 있도록 준비해야 한다. 정적 분석 기반의 코드 결함 조기 탐지를 비롯해 AI 에이전트의 시큐어 코딩 표준 시행을 위한 세부적 가드레일 마련 등 포괄적인 위험 관리 프로그램을 구축할 필요가 있다”고 조언했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지