치명적 결함 가진 패치의 빠른 확산이 원인…프로세스 재점검해야
[아이티데일리] 지난 7월 19일 오후 2시경(한국시간) 전 세계 850만여 대의 PC가 연쇄적으로 먹통이 되는 사건이 발생했다. 마이크로소프트(MS)의 윈도우10 운영체제(OS)를 사용하는 PC에 치명적 시스템 오류를 알리는 일명 ‘블루스크린’이 뜨고 시스템이 계속해서 재부팅되는 문제가 동시다발적으로 발생한 것이다. 이로 인해 전 세계 다양한 산업에서 PC를 이용한 업무들이 마비되며 큰 혼란이 발생했다.
사건이 발생한 현지에서 활동하는 AP통신 등 해외 매체들은 최초 호주와 뉴질랜드에서 항공사, 은행 등의 전산이 마비되는 문제가 보고됐다고 보도했으며, 이러한 문제의 원인이 MS의 클라우드 서비스 ‘애저(Azure)’가 먹통이 된 탓이라고 분석했다. 하지만 이는 공교롭게도 사건 발생 이전 미국의 US 센트럴 애저 리전에서 장애가 발생하면서 원인 파악에 혼선을 준 것으로, 실제 전 세계적으로 심각한 사건을 발생시킨 원인은 사이버 보안 기업 크라우드스트라이크(CrowdStrike)에 있었다.
보안 센서에서 문제 발생, 초유의 사태로 이어져
크라우드스트라이크는 미국 텍사스주 오스틴에 본사를 둔 사이버 보안 전문업체로, 주로 엔드포인트 탐지 및 대응(EDR) 솔루션과 여기에서 한층 발전한 확장된 탐지 및 대응(XDR) 솔루션 ‘팔콘(Falcon)’ 플랫폼을 제공하는 회사로 기업대기업(B2B) IT 업계에는 잘 알려져 있다. 팔로알토 네트웍스에 이어 사이버 보안 소프트웨어 부문에서 두 번째로 큰 글로벌 기업으로, 2023년 말 기준 전 세계에 2만 9천여 고객사를 확보할 정도로 빠르게 성장했다. 이러한 크라우드스트라이크의 ‘팔콘’ 플랫폼에는 엔드포인트에서 발생하는 보안 인시던트(incident)의 탐지를 위한 소프트웨어 센서가 포함돼 기기마다 실시간으로 동작하고 있는데, 소프트웨어(SW) 업데이트 과정에서 이 ‘팔콘 센서’와 관련해 문제가 발생한 것으로 파악됐다.
즉 크라우드스트라이크의 팔콘 센서가 설치된 PC 등 엔드포인트 기기를 보유한 전 세계 수많은 기업과 기관들이 문제가 있는 SW 패치를 적용받게 되면서 ‘먹통 PC’가 빠르게 확산된 것이었다. 결국 이번 사건은 호주와 뉴질랜드뿐만 아니라 유럽과 북미, 인도, 동남아시아, 아프리카 등 전 세계로 확산돼 다수의 방송국, 항공사, 슈퍼마켓 체인, 그리고 병원과 행정기관, 증권거래소와 은행까지 서비스 및 업무가 중단되는 초유의 사태로 기록됐다.
이러한 PC 먹통에 대한 해결법은 사실 사건 발생 이후 얼마 지나지 않아 전문가들 사이에서 공유됐다. 크라우드스트라이크 측에서도 비교적 빠르게 해결책을 공지했다. 윈도우를 안전모드로, 또는 외장 장치에 OS를 담아 부팅한 후 문제 되는 파일이 있는 폴더를 찾아 파일을 삭제하고 재부팅하면 해결이 가능한, 비교적 간단한 조치만 필요한 수준이었다. 국내에서도 한국인터넷진흥원(KISA)이 당일 오후 이같은 내용을 담은 긴급조치를 공지했다. 하지만 문제는 이 같은 작업을 소수의 사내 IT 관리자가 일일이 한 대씩 수동으로 처리해야 했기에, 사건 대응 시간이 늘어나며 피해가 커진 것이다. 일부 기업들은 이 같은 과정 때문에 최악의 경우 최종 복구에 몇 주에서 몇 개월이 걸릴 것으로 예상하기도 했다.
SW 패치 검수 및 배포에 문제
이번 크라우드스트라이크 사태의 근본 원인은 결함이 있는 SW 패치가 빠르게 확산됐다는 데 있다. IT 업계 종사자 상당수는 “어떻게 문제 있는 SW 패치가 크라우드스트라이크라는 글로벌 기업의 검수 과정을 통과했으며, 윈도우 OS의 핵심 영역인 커널을 건드리는 잘못된 패치를 쉽게 배포할 수 있게 한 MS는 잘못이 없는가”라는 의문을 표했다.
일정 규모 이상의 소프트웨어 개발사라면 취약점이 없도록 개발 단계에서부터 보안 관련 활동을 수행하는 ‘시큐어 코딩’ 과정을 반드시 도입하고 있다. 별도의 시큐어 코딩 솔루션을 통해 코드를 분석해 취약점을 찾고, 개선 방법까지 확인할 수 있다. 물론 시큐어 코딩은 외부로부터의 공격에 활용될 수 있는 ‘취약점’에 초점이 맞춰져 있어 이번 사태와 같은 ‘실수’까지 잡아낼 수는 없을 수도 있다. 하지만 크라우드스트라이크 정도 되는 기업이라면 단순히 시큐어 코딩 솔루션을 돌려보는 것을 넘어, 적지 않은 인원이 투입돼 패치를 두 번 세 번 테스트하고 실수를 잡아낼 수 있는 품질 보장(QA) 관련 검수 시스템이 마련돼 있어야 하는 게 정상이다.
패치가 배포되는 과정에도 문제가 있었다. 원래 기업용 SW 패치는 보수적으로 이뤄지는 게 보통이다. 최신 패치 파일이 발표된 후 바로 적용하지 않고 문제가 없는지 시간을 두고 검토한 뒤 순차적으로 적용한다. 그러나 크라우드스트라이크는 대규모 패치에만 이러한 업데이트 옵션을 적용했고, 문제의 패치는 수시로 업데이트되도록 한 부분에서 발생했다. 즉 ‘팔콘 센서’ 엔진 자체는 업데이트 주기가 길지만, 공격에 대한 정보를 담은 데이터 부분은 자주 업데이트되는데 이 부분이 문제를 일으킨 것이다. 이 데이터는 자주 업데이트될수록 공격에 탄력적으로 대응할 수 있으므로 이렇게 설정한 것으로 보이는데, 시스템 커널을 건드리는 중요도 높은 파일이 포함됨에도 검수를 소홀히 해 결국 최악의 사태가 발생하게 됐다는 점에서 크라우드스트라이크는 많은 비판을 받고 있다.
MS 커널 접근 권한도 지적받아
한편 MS도 이번 사태로 적지 않은 비난을 받았다. 먼저 초기에 ‘애저’ 클라우드 서비스 장애로 이번 사태가 발생한 것으로 알려지면서 중앙집중식 클라우드 서비스에 대한 회의론이 일각에서 고개를 들었다. 이에 복수의 클라우드 서비스 업체를 이용하는 멀티 클라우드의 중요성이 언급되기도 했다. 하지만 크라우드스트라이크가 원인인 것으로 밝혀지면서 이 같은 지적은 핵심을 비켜간 것이 됐다.
그러나 이후 전문가들은 또 다른 부분에서 MS의 잘못을 지적하고 있다. 바로 크라우드스트라이크가 보안 센서를 업데이트하면서 MS 윈도우의 커널 영역을 쉽게 건드릴 수 있도록 하는 현재의 MS 보안 정책이 과연 옳은 것인가 하는 문제다. 쉽게 비교되는 것이 애플의 맥OS(Mac OS)다. 폐쇄적인 생태계로 유명한 애플은 맥OS 커널에 대한 외부로부터의 접근을 보다 보수적으로 제한하고 있다.
이에 일각에서는 MS 역시 커널 접근에 대한 정책을 다시 검토해봐야 한다는 의견을 내고 있다. 우선 OS 보안을 위해 애플처럼 폐쇄적으로 커널 접근 정책을 가져가야 한다는 의견이 나오고 있고, 한쪽에서는 커널에서 샌드박스 프로그램을 실행함으로써 커널에 직접적인 영향을 주지 않고 기능만을 안전하게 확장할 수 있는 리눅스 기반의 eBPF(extended Barkeley Packet Filter) 기술을 윈도우에도 도입해야 한다는 주장도 고개를 들고 있다. 하지만 이들 주장 역시 완전한 해결책으로 채택되지는 못할 것으로 보인다.
우선 MS는 현재 법적으로 커널에 대한 접근을 완전히 막을 수 없다. 2009년 유럽연합(EU)과 협의한 독점 관련 계약 때문이다. 인터넷 브라우저 선택권 때문에 맺은 해당 계약에 커널 접근 권한에 대한 내용이 포함돼 외부 소프트웨어 개발사들에게 개방된 상태다. 설령 이번 사태로 인해 커널 접근 권한을 MS가 제한하게 된다 하더라도 그것이 곧 안전한 보안을 의미하는 것인지도 의문이다. MS도 보안에 있어 완벽한 회사가 아니라는 것이 이미 여러 차례 증명됐기 때문이다. eBPF의 채택 역시 미덥지 못하다. 크라우드스트라이크의 팔콘 센서는 이번 사건 한 달 전에도 리눅스 환경에서 이미 유사한 문제를 일으켰던 것으로 파악됐기 때문이다. 더구나 MS 혼자서 OS 보안을 모두 책임지도록 만드는 것은 효율적이지 못하며, 전 세계적으로 관련한 산업을 축소시키고 MS의 독점을 가속화할 수 있다는 우려도 제기되고 있다.
공급망 안전성·보안 문제 화두로
이번 사태는 단 한 개의 파일, 아니 어쩌면 단 한 줄의 코드로도 전 세계적인 혼란을 불러올 수 있다는 우려를 현실로 보여준 것이라 할 수 있다. 그리고 전 세계에 수많은 사용자를 가진 중요 SW 공급사에 문제가 생겼을 때 발생할 수 있는 사고의 결과물을 모범적으로 제시하고 있다고도 할 수 있다. 그리고 결국 근본적으로는 SW 공급망의 안전 및 보안을 다시 한번 돌아보고, 대비를 강화해야 한다는 메시지를 던진 것이기도 하다.
지난 몇 년간 공급망 보안은 제로 트러스트와 함께 글로벌 보안 업계의 양대 화두 중 하나로 꼽히고 있다. 2021년 5월 미국 바이든 정부는 국가 사이버 보안 개선에 대한 행정명령을 발표하면서 제로 트러스트 보안 아키텍처의 구현과 함께 공공 조달 SW에 대해 SBOM(소프트웨어 자재명세서) 제출을 의무화하며 SW 공급망 보안 강화를 주요 과제로 삼은 바 있다.
SBOM은 최근 SW 개발에 있어 오픈소스의 사용이 대세가 되면서, 어떤 오픈소스를 사용하고 있는지 목록을 작성해 관리하고자 건설업계의 자재명세서를 차용해 도입된 개념이다. 사이버 공격자들이 말단 사용자를 노리는 데서 멈추지 않고 오픈소스 커뮤니티에 침투해 SW 개발자와 공급업체를 노리는 경우가 늘어나면서, SBOM 제출 의무화를 통해 그동안 간과됐던 SW 공급망의 안전과 보안을 점검하고 대비하자는 게 글로벌 IT 업계의 큰 방향이자 흐름인 상황이다. EU 역시 2027년 시행을 추진하는 사이버 복원력 법안(Cyber Resilience Act)에도 SBOM 관련 내용을 포함할 만큼 공급망 보안을 중요하게 보고 있다.
국내 역시 마찬가지다. 올해 5월 중순 디지털플랫폼정부위원회와 국가정보원, 과학기술정보통신부 등 관계부처 공동으로 'SW 공급망 보안 가이드라인 1.0'을 발표하며 국내 정부·공공기관 및 기업들이 관련 역량을 갖출 수 있도록 방향을 제시하고 있다. 이는 비록 오픈소스에 초점이 맞춰진 공급망 보안 관련 이야기이지만, 이번 사태로 인해 공급망의 보안은 물론 안전성에 대한 화두를 던지게 됐다는 점에서 반드시 복기하고 넘어가야 할 문제라고 많은 전문가들이 지적하고 있다. 또한 전문가들은 SW를 사용하는 기업 및 기관들 입장에서도 최악의 사태가 발생했을 때 사이버 복원력을 어떻게 하면 충분히 확보할 수 있을 것인지를 다시 한번 점검하는 계기가 돼야 한다고 조언하고 있다.
국내 금융권 피해 없어…후속조치도 합격점
국내 금융권은 다행스럽게도 이번 사태를 심각하게 바라보고 있는 것으로 파악된다. 미국과 영국 등지에서 업무가 중단된 것과는 달리 국내 금융권은 대부분 이번 사태를 피해갔다. 금융보안원에 따르면 빠르게 대응할 수 있는 조직과 시스템이 마련돼 있어 크라우드스트라이크 솔루션을 사용하는 기관도 빠르게 시스템을 복구한 것으로 파악됐다. 또한 보안 분야는 글로벌 기업의 제품들보다는 국내 SW를 사용하는 비율이 상대적으로 높은 편이라 영향이 적었기도 했다. 하지만 그럼에도 불구하고 금융권은 SW 공급망의 안전성과 보안에 대한 경각심을 늦추지 않고 있는 분위기다.
금융보안원은 8월 초 ‘글로벌 사이버 정전 사태를 계기로 본 한국 금융보안의 현주소와 나아갈 방향’이라는 주제로 토론회를 개최했다. 금융보안원 김철웅 원장은 행사에서 “이번 글로벌 사이버 정전 사태는 단일 SW의 결함이 전체 산업 생태계에 중대한 영향을 미칠 수 있음을 보여줬다. 특히, 금융 분야는 디지털 사고가 국민들의 금융 생활에 직접 영향을 미칠 수 있기에 철저히 대비해야 한다”고 당부했다.
또한 주제 발표에서 금융보안원 임구락 사이버대응본부장은 “크라우드스트라이크발 MS 윈도우 오류와 같은 사이버 재난은 향후에도 충분히 발생할 여지가 있다”면서 “SW 개발사와 금융회사 측면에서 보안 SW의 안정성 검증 절차 등을 논의해 볼 필요가 있다”고 핵심을 짚는 브리핑을 했다.
패널 토론을 한 국민대학교 윤명근 교수도 이번 사태를 보안솔루션 패치 검증 미흡으로 인한 SW 공급망 문제로 평가하면서 “일부 제기된 클라우드 및 망분리 이슈보다는 SW 배포의 안정성에 대해 검증·대응해야 하는 SW 공급망 보안 체계의 문제로 사태를 바라볼 필요가 있다”고 강조했다.
뿐만 아니라 금융권은 이 같은 토론회에만 그치지 않고, 실제 사용하고 있는 SW에 대한 점검에 들어간 것으로 파악됐다. 다수의 대형 금융사들이 현재 사용하고 있는 SW를 개발한 국내 기업들을 불러 SW 공급망의 안전성과 보안을 강화할 것을 주문한 것이다. 이와 함께 현재 사용하고 있는 SW의 패치 적용 등에 대한 프로세스도 점검에 들어간 것으로 알려졌다.
책임·보상 문제 직면한 크라우드스트라이크
한편 크라우드스트라이크는 이번 사건으로 인해 발생한 수많은 피해에 대한 보상 문제에 직면하고 있다. 특히 6일간 약 7천 편의 항공편을 취소하고 17만 6천 건 이상의 환불 요청을 처리하며 약 3억 5천만~5억 달러(한화 약 4,600억~6,600억 원) 규모의 손해를 입은 것으로 추정되는 미국의 델타항공이 소송을 준비하고 있다는 소식이 8월 초 나왔다.
다만 크라우드스트라이크 측은 사고 발생에 대해 사과는 하면서도 책임의 규모에 대해서는 선을 긋는 모습을 보이고 있다. 다른 항공사들이 1~2일 만에 시스템을 복구한 것과 달리 델타항공의 장애가 길어진 것은 지원 제안을 거절했기 때문이며 따라서 책임이 이미 체결된 계약에 따라 1천만 달러(한화 약 130억 원) 이하로 제한돼야 한다는 주장이다. MS 역시 델타항공 측에서 소송 의사를 타진하자 “델타항공의 IT 인프라가 타사와는 달리 현대화되지 않았기 때문”이라고 반박했다.
그리고 이 같은 소식은 상당수의 글로벌 기업들이 클라우드 서비스와 각종 SW 서비스에 대한 계약 재검토에 들어가도록 만들었다. 만약의 사태가 발생했을 경우 책임의 소재가 있는 공급사에 얼마만큼의 책임을 물을 수 있는지 파악에 나선 것이다.
쉽게 납득되지 않는 해명…부활 여부 관심
한편 크라우드스트라이크는 사건 직후인 7월 20일에만 주가가 11% 넘게 급락했고 이후로도 꾸준히 하락을 거듭하다 8월 초 이후에야 회복세를 보이고 있다. 회사는 7월 말 자체 사고 보고서를 통해 SW 품질 관리 툴의 버그로 인해 이번 사태가 발생했다고 주장했다. 사건 직후부터 지속적으로 사과는 하고 있지만, 많은 의혹이 있는 사고의 원인을 쉽게 납득이 갈 만큼 속 시원히 설명하지는 않고 있다는 점에서 비판의 대상이 되고 있다.
이번 사건은 크라우드스트라이크의 향후 존립에도 영향을 줄 수 있을 만큼 치명적이지만, 반대로 일각에서는 크라우드스트라이크의 저력을 공개적으로 알리게 돼 오히려 반등의 기회로 삼을 수도 있다는 주장이 제기되고 있다. 실제로 이 같은 기회를 노린 것인지 8월 중순 크라우드스트라이크가 클라우드 기반의 패치 및 취약점 관리 업체 ‘액션원(Action1)’을 약 10억 달러에 인수하기 위해 협상을 진행한다는 소식이 전해졌다. 해당 인수가 성공하면 패치 파일의 취약점 발견은 물론 우선순위에 따른 자동화된 배포까지 역량을 강화할 수 있을 것으로 분석되고 있다. 사고를 일으킨 업데이트 관련 기술과 프로세스를 개선할 수 있는 구원투수로 액션원이 역할을 할 수 있을지, 그리고 IT 역사에 남을 이번 사건이 결국 어떻게 마무리될지 관심이 모이고 있다.


