가트너 “클라우드 장애 발생 시 기업 자체 복원력 확보해야”
대응책임 분담 체계(PICASO), '클라우드 복원력 중심 설계'도입 제언
[아이티데일리] 클라우드 서비스 장애가 비즈니스 리스크로 직결되면서, 복원력 강화가 기업 인프라 전략의 핵심 과제로 부상하고 있다. 이에 클라우드 장애 발생 시 대응책임 분담 체계(PICASO)를 도입하고, ‘클라우드 복원력 중심 설계’가 기업 인프라의 기본 전략이 돼야 한다는 전문가 제언이 나왔다.
가트너(Gartner)는 지난달 스테파니 바우만(Stephanie Bauman) 시니어 디렉터 애널리스트, 데이비드 라이트(David Wright) 전 부사장(VP) 애널리스트, 론 블레어(Ron Blair) 부사장(VP) 애널리스트 등이 공동 집필한 보고서 ‘클라우드 장애 위험을 완화하기 위한 클라우드 복원력 강화 방안(Improve Cloud Resilience to Reduce Cloud Failure Risks)'을 통해 이 같은 내용을 제시했다.
‘2024년 가트너 인프라 운영·관리(IO) 시그니처 역할 설문조사(2024 Gartner IO Signature Role Survey)’에 따르면 기업 IO 의사결정권자들이 꼽은 IT 부문의 향후 12개월 내 최우선 해결과제는 △인프라 복원력 향상(35%) △품질 향상(35%) △위험 감소(31%) 순으로 집계됐다. 이러한 결과는 복원력 확보가 최근 조직의 핵심 과제로 부상했다는 점을 보여준다.
저자들은 가트너 보고서를 통해 기업 IO 의사결정권자는 효율적인 비즈니스 위험 관리를 위해 클라우드 서비스 공급사(CSP)에 의존하지 않고, 기업에서 선제적으로 장애 발생을 대비해야 한다고 강조했다. 클라우드 서비스별 대표적 장애 유형은 조직이 자체적인 예방 및 복원력 강화 전략을 마련해야 하는 ‘선제적 관리 대상(Management Priority)’이라는 것이다.
클라우드 서비스 유형별 위험 상황을 살펴보면 먼저 인프라형 서비스(IaaS)의 경우, 데이터 센터나 특정 지역 장애로 인해 주요 애플리케이션과 데이터에 접근할 수 없는 문제가 일어날 수 있다. 플랫폼형 서비스(PaaS)에서는 애플리케이션 오류나 개발 및 운영 환경 내 부분 장애 발생으로 서비스 품질 저하와 사용자 불편이 발생할 수 있다. 소프트웨어형 서비스(SaaS)에서는 전사적 자원 관리 시스템(ERP)이나 고객 관계 관리 시스템(CRM) 등 핵심 업무 시스템에 일시적 접근 장애 또는 데이터 송수신 차단이 일어날 수 있어, 전체 비즈니스 프로세스가 영향을 받을 수 있다.
저자들은 이에 대한 대응 방안으로 ‘PICASO 모델’을 적용해 조직 내 역할 분배를 명확히 할 것을 제안했다. PICASO는 △실행 담당자(Participant, P) △최종 결정권자(Accountable, A) △중재자·거부권자(Controller, C) △전문가(Specialist, S) △정보공유자(Informed, I) △프로젝트 범위 밖의 외부자(Outsider, O)를 지칭한다. 역할별 책임, 권한 참여 범위를 명확하게 규정해 장애 대응 시 책임 소재와 의사결정의 효율성을 확대해야 한다는 설명이다.
또한 비즈니스 영향 분석(BIA)을 수행해 어떤 장애가 실제 비즈니스에 가장 큰 영향을 주는지 체계적으로 분석하고, 복구 우선순위(Priority)와 조직별 책임 등을 도출할 것을 권고했다. 장애가 발생해도 사용자가 서비스를 끊김이 없이 이용할 수 있도록 가용성을 높이고, 아키텍처 설계 단계부터 복원력 패턴을 내장한 ‘복원력 중심 설계’를 적용해야 한다고 저자들은 강조했다. 이어 현실적인 복구 목표(RTO)를 달성할 수 있도록 재해 복구 자동화(DR Automation) 도입과 함께 벤치마크·가이드라인·운영 절차 등 복원력 관련 전사 표준화를 추진하는 것도 중요하다고 덧붙였다.