효성인포메이션시스템 SA팀 신상운 매니저

효성인포메이션시스템 SA팀 신상운 매니저
효성인포메이션시스템 SA팀 신상운 매니저

[아이티데일리] 완벽한 IT 시스템이라 해도 재해로 인한 서비스 중단 위험은 항상 존재한다. 이중화, 재해복구 인프라 등을 갖췄음에도 불구하고 IT 시스템 장애나 재해로 서비스가 중단되는 사례가 발생하는 것은, 기술이 발달할수록 시스템 아키텍처가 더 복잡해지고 재해복구 기술이 필요한 시기에 제대로 구현되지 않아 복구 시간이 오래 걸리거나, 데이터 복구 품질이 기대 수준에 미치지 못하기 때문이다.

최근에는 IT 전략 방향이 서비스 가용성과 데이터센터 내 IT 자원의 효율성 및 사용률 극대화에 맞춰지고 있다. 기업들은 보다 완벽한 데이터센터 운영을 위해 대내외 규정을 강화하고, IT 자원의 다운타임을 최소화하기 위한 최적의 솔루션을 찾고 있다.


재해복구 시스템의 기반 ‘안정적 인프라’

재해복구 시스템을 구축하려면 시스템 복구 시간, 복구 범위, 비즈니스 영향, 업무 중요도 등을 종합적으로 고려해야 한다. 모든 서비스가 재해 이전 정상 수준으로 돌아가기 위해서는 데이터를 포함해 애플리케이션, 서버, 네트워크 환경도 복구해야 한다. 만약 RTO(Recovery Time Objective; 복구 목표 시간)가 3시간, 24시간 등으로 정해진 핵심 업무의 데이터를 복구해야 한다면 그 시간 안에 모든 관련 인프라도 함께 복구돼야 한다.

데이터 복구 대책을 세운 후에는 시스템 복구도 고려해야 한다. 비용과 난이도가 높더라도 기업 핵심 업무에는 데이터를 실시간 이중화로 복제해 재해 발생 시 즉시 대체나 전환 가능한 미러 사이트 또는 핫 사이트급 복구 정책이 요구된다. 따라서 재해복구 인프라를 염두에 두고 데이터센터를 구성한다면, 어떤 미션 크리티컬한 환경에서도 안정적으로 운영이 가능한 고가용성 스토리지를 선택해야 한다.


재해복구 목표는 ‘RPO 제로’

데이터센터에 피해가 발생할 경우 기준이 되는 것이 RTO로, IT 시스템이 장애나 재해로 서비스가 중단됐을 때 서비스를 원상 복구하는 데 걸리는 최대 허용 시간을 말한다. 그리고 RTO에 영향을 미치는 중요 요인은 RPO(Recovery Point Objective, 복구 목표 시점)다. RPO는 재해 발생 후 운영 재개를 위해 백업 스토리지에서 복구해야 하는 파일의 최대 백업 주기를 의미한다.

RPO 시간이 빈 만큼의 데이터는 수기나 다른 시스템에 저장된 데이터로 복구하기 때문에 절차가 복잡하고 시간이 많이 소요되며 RTO에도 영향을 미친다. 따라서 많은 기업이 ‘RPO 제로’를 목표로 시스템을 구축하며, RPO 제로 목표에 필수 불가결한 요건이 실시간 동기화를 통한 데이터 이중화다.

RPO 제로에 가장 이상적인 데이터 복제 방식은 동기식이다. 하나의 서버와 별도로 두 개로 분리된 스토리지에 데이터를 두고 원본과 복제본을 만든다. 다만, 원본과 복제본에 쓰기가 완료될 때까지 서버 애플리케이션이 대기해 물리적 거리에 따라 애플리케이션 응답 지연이 발생할 수 있다. 때문에 원본과 복제본 간 거리를 2km 이내로 가깝게 배치한다.

액티브-액티브 미러링(Active-Active Mirroring) 방식도 많이 활용되고 있다. 원본과 복제본을 구분하지 않고 두 개 스토리지 모두 읽기/쓰기를 동시에 지원한다. 두 개 스토리지 볼륨을 하나로 인식하기 때문에 어느 하나에 장애가 발생해도 다른 스토리지에서 서비스를 지속할 수 있다. 액티브-액티브 미러링은 RPO=0 목표를 충족해 가장 이상적인 재해복구 모델로 활용된다.


다양한 복제 방식으로 선택 폭 확대

메인 스토리지 저장과 별개로 백그라운드에서 데이터를 원격지에 복제해 동기 방식의 성능 저하 문제를 해결한 비동기식 복제 방식도 있다. 원격지에 복제하는 방식은 원격 스토리지 거리 제한 문제는 해소되지만 솔루션에 따라 수 초에서 10분 이상 RPO와 데이터 손실 가능성이 있다.

3데이터센터 재해복구 구성
3데이터센터 재해복구 구성

일반적인 비동기 방식은 수 분 이상의 정합성을 위해 배치 기반 데이터 전송을 취하지만, 동기식과 유사하게 실시간 전송을 지원하는 솔루션도 있다. RPO를 최소화하고 100km 이상의 원격 복제 동기화 환경에서도 응답 성능을 보장한다.

동기 및 비동기 복제의 단점을 극복한 하이브리드 복제 방식도 있다. 이는 3곳의 데이터센터에서 동시에 데이터를 동기화하는 3 데이터센터 복제 방식으로, 근거리는 동기식으로 이중화하고 원거리는 비동기식으로 운영하는 제3의 데이터센터를 둔다. 정전, 침수, 화재 등이 발생하면 근거리의 동기식 복제로 데이터를 복구한다. 전쟁, 지진 등 광범위한 재해가 발생하면 수백 km 이상 떨어진 데이터센터의 동기화 복제본을 통해 복구 가능하다. 3 데이터센터 구성 중 액티브-스탠바이로 불리는 동기식과 비동기식 결합 방식은 예전부터 사용돼 왔으며, 최근 액티브-액티브 미러링과 비동기식을 혼합한 구성이 증가하고 있다.


서비스 무중단 보장하는 DR 포트폴리오 확장

효성인포메이션시스템은 갈수록 민첩해지는 IT 환경에 맞춰 재해복구 프로세스에 최적화된 솔루션 포트폴리오를 확장하고 있다. 효성인포메이션시스템 스토리지 전 제품군에는 동일한 SVOS(Storage Virtualization Operating System) 운영체제(OS)가 적용됐다. 미드레인지와 하이엔드 간 완벽한 재해복구 솔루션 호환성을 확보하고 AI 기반 통합관리 소프트웨어 옵스센터(OpsCenter)도 제공한다.

효성인포메이션시스템의 재해복구 솔루션 핵심 요소
효성인포메이션시스템의 재해복구 솔루션 핵심 요소

특히 실시간 액티브-액티브 이중화 솔루션인 스토리지 미러링 툴 ‘GAD(Global Active Device)’를 적용해 셀프 무중단 마이그레이션 기술을 지원한다. GAD는 다른 두 개의 스토리지를 하나의 볼륨처럼 관리하는 미러링 기법을 활용해 장애가 발생해도 서비스 무중단을 보장하는 차세대 DR 기술이다.

비즈니스 연속성과 데이터 보호를 위한 재해복구(DR)의 중요성에 대한 인식이 갈수록 높아지고 있다. 재해 발생 시 재해복구 시스템 구축 여부에 따라 희비가 극명하게 갈리기 때문이다.

데이터 인프라의 재해는 기업의 자산 손실과 매출 감소를 넘어 서비스 사용자 또는 사회 전반으로 불편과 혼란을 가져올 수 있다. 재해복구 환경과 요구 조건이 복잡할수록 오랜 경험과 구축 사례를 보유한 전문 벤더의 검증된 기술을 선택하는 것이 현명한 방법이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지