[기고] 차세대 인공지능 보안관제에 꼭 필요한 기술 3가지

김세중 이글루시큐리티 인공지능개발팀 대리

[아이티데일리] 전 세계적으로 기업의 인공지능 도입이 매년 확대되고 있다. 이들 기업이 인공지능을 도입하는 데에는 각기 다른 수많은 이유가 있겠지만 보안관제를 빼놓을 수 없다. 날로 진화하는 사이버 공격에 대해, 인공지능을 해답으로 삼고 있는 기업이 많다는 얘기다. 한 연구 결과에 따르면, 기업들의 인공지능 기반 보안관제에 투자하는 비용이 꾸준한 증가세를 보이고 있다. 그 뿐만 아니라 향후 지금보다 더 많은 기업들이 보안관제 분야에 인공지능 기술을 적용할 것으로 보이며 이 시장은 5년동안 약 4배 성장할 것으로 예상된다.

그림1. 전세계 기업들의 인공지능 사용 목적(출처: TATA Consultancy Services)

그림2. 인공지능 기반 사이버 보안 시장 점유율(출처: Markets and Markets)

그렇다면 인공지능이 보안관제 분야에서 각광받는 이유는 무엇일까? 우선 매일 새롭게 생성되는 보안 이벤트를 비롯해 매년 보안 데이터가 기하급수적으로 증가하는 상황에서 5년 내에 데이터의 양은 수십 배에 달할 것으로 예측되고 있다. 그러나 이렇게 기하급수적으로 증가하는 보안 데이터의 분석을 위한 인력이나 장비를 수십 배 늘릴 수 있는 기업은 현실적으로 많지 않다. 자원이 절대적으로 부족한 가운데 1초에 수백, 수천 만 건을 처리할 수 있는 인공지능은 보안관제 시장에서 매력적일 수밖에 없다.

또한 보안 전문가 부족 현상이 심화되고 있다. 사이버 보안 전문가들로 구성된 비영리 단체 (ISC)²의 사이버 보안 인적자원 연구(Cybersecurity Workforce Study) 보고서에 따르면 2019년을 기준으로 전 세계 약 400만 명, 아시아 태평양 지역에서만 약 260만 명의 보안 전문가가 부족한 실정이다. 이런 상황에서 보안 전문가를 대체할 수 있는 인공지능을 적극적으로 도입하고자 하는 건, 어찌 보면 너무나 당연한 수순이라 할 수 있겠다.

그림3. 사이버 보안 인적자원 부족 현상 (출처: (ISC)² 사이버 보안 인적 자원 연구, 2019)

이처럼 현재 보안관제에 있어, 그리고 더 나아가 앞으로의 보안관제에 있어 인공지능이 필수불가결한 존재가 됐다는 점은 이제 누구나 인정하는 사실이다. 그럼에도 불구하고 아직까지 인공지능 도입을 망설이게 하는 이유는 무엇일까? 인공지능 보안관제 도입을 고민하게 하는 근본적인 문제점을 짚어보고, 그 해결책에 대해 논의하는 시간을 가져보고자 한다.

문제점

우선 문제가 되는 것은, 인공지능 보안관제를 도입한다고 하더라도 사용자가 충분히 준비돼 있지 않다는 점이다. 현재 인공지능 보안관제는 단순히 솔루션 도입만으로 끝이 아니다. 도입한 솔루션에 사용할 데이터를 추출, 분석 및 가공해야 하며, 그 후 다시 보안 전문가가 직접 학습 방향을 정하는 레이블링(labelling) 작업을 거쳐야 하고, 최종적으로 데이터에 맞는 머신러닝 알고리즘을 선택해 해당 알고리즘에 대한 충분한 지식을 가지고 각종 하이퍼 파라미터들을 선택할 수 있어야 한다. 그래야 진정으로 인공지능을 활용하고 또 도입했다 말할 수 있다. 하지만 현실적으로 이 모든 과정을 이해하고 실행할 수 있는 전문가가 부족하다는 한계가 있다.

그림4. 머신러닝 프로젝트 각 작업에 할당되는 시간 비율 (출처: 커그니리티카(Cognilytica))

또 사이버 보안은 그 특성상 데이터가 굉장히 방대하다. 1초에 백만 건의 보안 이벤트가 발생한다고 가정했을 때, 하루에 약 900억 건의 데이터가 발생하게 된다. 인공지능이 놓칠 확률(미탐율)이나 잘못 예측할 확률(오탐율)이 로또 1등 당첨과도 같은 814만 분의 1이라 해도, 하루 평균 약 1만 건의 이벤트는 놓치거나 잘못 판단하게 된다는 결과가 도출된다.

물론 기존의 보안관제와는 궤를 달리하는 처리량이지만, 그보다 대다수 인공지능 기반 솔루션은 사람에 비해 더 치명적인 공격과 덜 치명적인 공격을 구분해내는 게 미숙해 이러한 오탐과 미탐이 더욱 심각한 상황을 야기할 수 있다는 문제가 있다. 비밀번호 5회 오류와 대규모 DDoS 공격을 놓고 보았을 때 사람은 쉽게 각각의 잠재적인 피해 수준을 가늠할 수 있지만, 인공지능의 입장에서는 그저 다른 종류의 보안 이벤트로 판단될 수 있는 것처럼 말이다.

마지막으로 오늘날 대부분의 인공지능 솔루션들이 예측 결과에 대한 근거 데이터 및 이유를 제시하지 못하는, 이른바 ‘블랙박스’ 형태의 솔루션이라는 점 역시 지적되는 사항 중 하나다. 이는 곧 예측 결과에 대한 신뢰도 하락으로 이어지게 되는데, 실제로 IBM의 한 조사 결과에 따르면 대다수의 기업이 내부 인력 부족 및 데이터에 대한 신뢰 부족을 이유로 인공지능 도입을 망설이고 있다고 나타났다.

그림5. 기업들이 AI 도입을 망설이는 이유(출처: IBM 기업가치연구소)

결국 사이버 보안에 인공지능을 적용하고 더 큰 효과를 보기 위해서는, 위에서 얘기한 문제점들에 대한 해결책이 강구돼야 한다. 그렇다면 차세대 인공지능 보안관제 솔루션에는 어떠한 기능들이 탑재돼야 할까?

해결책

인공지능 솔루션 도입을 고려할 때 기업이 가장 우려하는 것은 바로 ‘인공지능과 데이터 전문가의 부재’다. 인공지능 플랫폼에 무수히 많은 머신러닝과 딥러닝 알고리즘이 탑재돼 있다고 한들, 사용자가 이에 대한 이해나 경험이 부족한 경우 사실상 이 모든 게 무용지물일 가능성이 높기 때문이다.

현재 인공지능 솔루션을 제공하는 기업들은 점점 더 많은 알고리즘을 자사의 플랫폼에 확대 적용하고 있다. 사이버 보안에는 다양한 유형의 데이터가 존재하지만 모든 유형을 아우를 수 있는 알고리즘은 존재하지 않기 때문이다. 예를 들어 랜덤 포레스트(Random Forest)나 서포트 벡터 머신(SVM)과 같이 가장 많이 쓰이는 지도학습 알고리즘도, 각각의 알고리즘이 가장 잘 활용될 수 있는 데이터는 다르다.

어떻게든 각 데이터에 맞는 알고리즘을 고르는 데 성공했다면, 이제는 초매개변수(Hyper Parameter)라는 것을 적절히 선택할 차례다. 앞선 알고리즘 중 랜덤 포레스트(Random Forest)를 골랐다고 가정해보자.

그렇다면 이제 머신러닝 학습을 어떤 기준으로 진행할 것인지 결정해야 하는데, 가장 대표적인 머신러닝 플랫폼 사이킷-런(Scikit-Learn)의 랜덤 포레스트(Random Forest)만 봐도 지니 불순도(Gini Impurity)와 엔트로피(Entropy) 사이에서 선택의 기로에 또다시 놓이게 된다. 여기까지 용케 좌절하지 않은 사용자일지라도 각각을 인터넷에 찾아보는 순간, 머리가 아파올 것이다.

이와 같은 인공지능의 진입 장벽은 결국 사용성 저하로 이어지게 된다. 막상 도입은 했지만 이를 사용할 수 있는 사람이 부재한 것이다.

이러한 문제점을 해결하기 위해 최근에는 AI by AI, 즉 인공지능을 위한 인공지능 방식이 대두되고 있다. 누구나 인공지능을 쉽게 또 최대한 활용할 수 있도록, 인공지능을 통해 인공지능을 학습시키고 사용자에게는 인공지능이 단순히 파악할 수 없는 중요한 판단만 맡기는 것이다.

다른 관점에서 보자면 이는 곧 인공지능을 더 잘 활용하고 있는 솔루션일수록, 그 기능을 사용자에게 오픈하고 홍보하던 예전의 방식과는 달리, 더 숨기고 더 높은 수준의 자동화를 통해 충분한 역할 분담이 이뤄져야 한다는 얘기다. 인공지능을 찾아볼 수 없는 솔루션이 더 좋은 솔루션이라고 단정 지을 수는 없지만, 적어도 사용자에게 무조건 더 많은 옵션을 주는 것이 더 좋은 솔루션이라고도 볼 수 없다.

인공지능을 사용할 준비가 됐다면, 다음은 그 바탕이 되는 데이터의 준비가 요구된다. 인공지능은 어떠한 보안 이벤트를 단순히 공격인지 정상인지 판단하는 것에서 끝나는 게 아니라, 어떠한 공격을 더 빠르게 처리하고 대응할 것인지, 다시 말해 대규모 데이터 속에서 우선순위까지 판단해 제공해줄 수 있어야 한다.

<그림 6>에서 볼 수 있듯이, 사이버 공격은 그 유형별로 기업에 주는 피해 규모가 다르다. 그리고 이러한 피해액은 인공지능이 쉽게 추론할 수 없는 정보이기 때문에 도출이 가능할 수 있도록 데이터를 구성함과 동시에 이를 바탕으로 우선순위를 추론할 수 있는 기능을 모색해야 한다.

그림6. 사이버 공격 유형별 연간 총 피해액 (출처: Cybersecurity for Finance)

단순히 정상과 비정상을 이진 분류(Binary Classification)하는 인공지능은 DDoS 공격과 봇넷(Botnet) 공격을 동일 선상에 놓고 ‘공격’이라 판단할 것이지만, 이로 인해 입을 수 있는 피해의 차이는 약 6배에 달한다.

반대로 만약 특정 환경이 DDoS에 대한 대비가 잘 돼 있거나, DDoS의 대상이 우연찮게 비어 있는 IP 주소로 널 라우팅(null routing)의 효과를 보는 경우, 기업의 실질적인 피해액은 발생하지 않을 것으로 예상되기에 다른 공격을 더 우선시해야 한다. 한 마디로 보안 장비에서 나오지 않는 데이터가 실제로는 더 중요할 수 있다는 것이다. 이러한 배경에서 비 보안 데이터를 얼마나 잘 녹여낼 수 있는지의 여부가 앞으로의 인공지능 솔루션을 평가하는 데 있어 중요한 요소로 자리잡게 될 것이다.

앞서 상술한 두 가지의 문제를 해결한다 해도, 인공지능에는 아직 마지막 산이 남아있다. 바로 ‘우리가 인공지능을 얼마나 신뢰할 수 있느냐’다. 사이버 보안은 단순히 캐글(Kaggle)이나 데이콘(DACON) 등의 인공지능 경진 대회처럼 모든 예측에 대한 답안지를 들고 있지 않다.

우리가 흔히 예측 정확도나 정밀도를 계산할 때는 답을 알고 있는 학습 데이터 중 검증 데이터를 따로 분리해 교차 검증하는 식이지만, 이 정확도가 예측 시에도 적용되리라는 보장은 없다.

게다가 현장은 대회에 비해 신경 써야 하는 요소들이 무궁무진하다. 하루 수천만 건의 예측이 맞는지 틀린 지 확인하는 것조차 쉽지 않으며 그 예측 결과가 설령 맞다 판단되더라도, ‘인공지능이 공격으로 예측하였으므로 차단 처리함’이라는 식의 대응은 아직 시기상조다.

이러한 상황에서 가장 필요한 기술은 최근 각광 받고 있는 설명 가능한 인공지능, 이른바 XAI(eXplainable AI)다. 설명 가능한 인공지능이란, 말 그대로 예측 결과에 대해 사람이 이해할 수 있는 방식으로 근거를 제시할 수 있는 인공지능을 일컫는다.

<그림 7>처럼 인공지능이 결혼식장의 사진을 보았을 때 단순히 결혼식 또는 식장이라는 예측으로 끝나는 것이 아니라, 왜 결혼식이라고 판단했는지에 대한 여러 논리적인 설명을 제시해주는 게 XAI의 주된 기능이다. 이를 통해 인공지능이 사용자가 원하는 방향으로 알맞게 학습됐는지 또 예측 결과는 믿을만한지 판단할 수 있으며, 더 나아가 기존에 사용자가 미처 생각하지 못했던 새로운 근거를 발견하게 되는 시발점이 되어줄 수도 있다.

마치며

이미 인공지능은 보안관제와 떼려야 뗄 수 없는 핵심 기술 중 하나로 자리잡았다. ‘보안관제의 미래는 인공지능에 달려 있다’는 말에서 알 수 있는 것처럼 보안관제와 인공지능은 시너지가 클 것으로 기대된다. 인공지능 도입은 점차 가속화되고 있으며 가까운 시일 내에 인공지능 기술이 적용되지 않은 보안관제는 찾아보기 힘들뿐 아니라, 앞으로의 보안관제는 인공지능을 중심으로 진행될 것으로 생각된다.

하지만 모든 기술이 그렇듯, 현재의 인공지능만으로 부족한 상황이 머지 않은 미래에 올 것이라 예상된다. 인공지능의 발전과 함께 사이버 위협 또한 끊임없이 진화하고 있기 때문이다. 그럼에도 다가올 새로운 위협에 대응하기 위한 차세대 인공지능 보안관제에 꼭 필요한 AI by AI, 비 보안 데이터의 활용, XAI 기술에 대해 논해보았다. 차세대 보안관제에 대한 기대가 높아지는 지금, 인공지능은 새로운 도약을 향해 나아가고 있다.

김세중 @

다른기사 보기

상단영역

본문영역

[기고] 차세대 인공지능 보안관제에 꼭 필요한 기술 3가지

김세중 이글루시큐리티 인공지능개발팀 대리

기사 댓글 0

비회원 로그인