퀀텀코리아 시스템 컨설턴트 유서명 차장

[아이티데일리] 데이터가 생활의 모든 측면에서 더 중요해지고 미래에는 훨씬 더 큰 역할을 할 것으로 예상됨에 따라 디지털 데이터의 끊임없는 증가는 불가피할 것으로 보인다. 향후 3년 동안 생성되는 데이터의 양이 지난 30년 동안 생성된 데이터를 초과할 것으로 예상된다. 이러한 데이터의 대부분은 그 잠재적 가치가 실현되기를 기다리는 대기 상태로 쌓여만 가고 있고, 이러한 데이터들은 ‘콜드 데이터(Cold Data)’라고 불리고 있다.

이러한 변화는 COVID-19의 세계적인 대유행으로 재택 근무가 급증하면서 가속화됐다. 특히 데이터 양의 폭증은 영상 관제, 클라우드 및 엣지 컴퓨팅, 고성능 컴퓨팅(HPC), 사물 인터넷(IoT), 소셜 미디어, 엔터테인먼트 등을 포함하는 새로운 세대의 인프라와 인터넷 기반 애플리케이션의 산물이다. 그리고 이러한 데이터의 거의 80%가 아카이브 또는 콜드 데이터로 저장돼 있다.

이에 방대한 데이터를 효율적으로 관리하기 위한 지능형 데이터 관리 소프트웨어와 고가용성 스케일 아웃 하드웨어의 고급 기능 등을 포함하는 새로운 스토리지 기술과 아키텍처가 요구되고 있다. 또한 다행히도 콜드 데이터를 위한 새로운 차원의 오브젝트 스토리지도 출시되고 있다.

퀀텀코리아 시스템 컨설턴트 유서명 차장
퀀텀코리아 시스템 컨설턴트 유서명 차장

콜드 스토리지 운영은 데이터 폭증에 대비하는 것

대부분의 하이퍼스케일 데이터센터(HSDC)와 엔터프라이즈 규모에서는 예산 낭비, 데이터센터 과밀도, 에너지 및 탄소 배출량 문제 발생을 일으키는 디스크 팜이 감당할 수 없을 정도로 증가해 아카이브와 콜드 데이터를 보다 비용 효율적인 테이프 솔루션으로 마이그레이션해야 하는 상황에 직면해 있다.

클라우드 아카이브 스토리지 서비스는 상대적으로 저렴하지만, 전송되는 데이터 양이 증가하면 클라우드 데이터 검색 및 전송(대역폭) 비용이 빠르게 상승한다.

시너지(Synergy) 리서치 그룹의 최근 연구에 따르면 전 세계에는 약 600개의 하이퍼스케일 데이터센터가 있으며, 이는 5년 전의 2배 수준에 이르는 것으로 나타났다.

업계의 많은 연구 기관들이 2021년 말까지 전 세계 데이터 총량이 설치 용량을 기준으로 8제타바이트(ZB)를 약간 넘을 것으로 예상하고 있다. 따라서 다가오는 엔터프라이즈 및 하이퍼스케일 콜드 스토리지를 효율적으로 관리하는 것이 얼마나 중요한 과제인지를 알 수 있다.


콜드 데이터로 100년 이상 보관, 테이프 방식 오브젝트 스토리지가 안전성과 경제성 제공

아카이브 및 콜드 데이터는 대부분 비정형 데이터이며, 가장 빠르게 성장하고 있고 데이터 분류에서 가장 큰 부문이다. 대부분의 데이터는 일반적으로 생성일로부터 90일에서 120일 정도 이후에 콜드 데이터로 보관된다. 데이터가 처리되지 않은 정적 상태로 유지되는 시간이 길수록 콜드 데이터가 되어가고, 데이터 보존 기간은 100년 이상에 이르는 것이 보편화되고 있다. 일부 데이터는 생성 후 보관된 다음 참조 또는 추가 분석을 위해 몇 년 동안 대기할 수도 있다. 현재는 이러한 데이터의 대부분이 HDD에 저장된다. 그러나 HDD에 콜드 데이터를 장기간 보관하는 것은 비용이 많이 들고 많은 에너지를 소모해 비효율적이다.

콜드 데이터를 위한 가장 비용 효율적인 스토리지 솔루션은 액사바이트(EB) 이상으로 쉽게 확장할 수 있고 로컬, 하이브리드 클라우드 및 원격 위치에서 사용되는 고용량 로보틱 테이프 라이브러리다. 최근의 에너지 소비 연구에 따르면 테이프의 탄소 배출량은 동일한 용량의 HDD 시스템보다 최대 87% 더 적다.


콜드 데이터를 저장하는 오브젝트 스토리지, 엔터프라이즈 및 하이퍼스케일 데이터센터에 보편화

데이터의 증가로 인해 기존 스토리지 형식은 비용이 많이 들고 관리하기 어려워졌다. 오브젝트 스토리지는 아마존 S3 클라우드 서비스와 함께 대중화됐으며 클라우드 기반 아카이브 스토리지 서비스의 실질적인 표준 형식이 됐다. 오브젝트 스토리지는 인터넷을 사용해 어느 위치에서나 원하는 양의 데이터를 저장하고 검색해야 하는 필요성으로부터 발전했기에 클라우드 제공업체와 많은 HSDC에 이상적이다. 오브젝트 스토리지의 경우 ‘오브젝트’를 구성하는 데이터 블록과 메타데이터가 함께 저장되기 때문에 대규모 데이터를 효율적으로 관리해야 하는 요구조건을 충족시킨다.

예상을 뛰어넘는 데이터 양의 폭증에 맞춰 콜드 데이터를 효율적으로 관리하고자 단일 네임스페이스에서 수백 페타바이트(PB)까지 빠르게 확장할 수 있는 업계 유일의 무제한 확장 아키텍처를 제공하는 오브젝트 스토리지 도입이 늘어나고 있다. 실제로 오브젝트 스토리지는 매년 35% 이상 성장하며 기존 파일 및 블록 스토리지의 성장률을 능가했고 이러한 추세는 계속되고 있다.


아카이브 및 콜드 데이터를 위한 새로운 차원의 오브젝트 스토리지 도입해야

대규모 아카이브 및 콜드 스토리지의 주요 과제로는 간편한 스케일아웃 확장성, 고가용성, 데이터의 불변성, 메타데이터 관리, 아카이브 데이터의 단일 사본 보유, 낮은 TCO, 위치적인 가용성, 에너지 효율성 등이 있다. 다행히도 현재는 이러한 과제를 효과적으로 해결하고 PB에서 EB 단위의 비정형 및 오브젝트 데이터로 확장할 수 있는 기능이 제공된다.

퀀텀의 S3 지원 액티브스케일(ActiveScale) 콜드 스토리지 지능형 소프트웨어는 콜드 데이터의 대규모 아카이브를 관리, 저장하는 것은 물론 재사용을 통한 가치발견까지를 포함하는 새로운 차원의 스토리지를 정의한다. 액티브스케일을 사용하면 새로운 스토리지 노드가 용량 풀에 추가되고 데이터를 쓸 때는 동적 데이터 배치(DDP) 기술을 적용해 스토리지 리소스 전체에 최적으로 분산된다. DDP 알고리즘은 데이터 배치의 균형을 유지하고 애플리케이션에서 용량을 쉽게 사용할 수 있도록 지원한다. 이러한 작업을 자동화하면 관리해야 할 아카이브 및 콜드 데이터의 양이 증가하더라도 그동안 시간이 많이 걸리고 노동 집약적이었던 스토리지 관리자 작업을 크게 줄일 수 있다.

오브젝트 스토리지는 전체 S3 글래시어(S3 Glacier) 명령 세트를 지원하는 표준 S3 호환 오브젝트 인터페이스를 제공한다. 지능형 아카이빙 전략의 중요한 측면을 지원하는 오브젝트 스토리지를 사용하면 오브젝트를 업로드할 때 사용자 지정 가능한 메타데이터를 설정할 수 있으므로 찾고자 하는 관련 데이터를 훨씬 쉽게 검색하고 찾을 수 있다. 또한 오브젝트 스토리지는 오브젝트 크기가 작은 오브젝트들의 읽기 성능을 최적화하는 소형 오브젝트 정책도 사용한다. 이러한 기능들은 병렬 처리 워크로드가 높은 환경에서 시스템이 더 많은 오브젝트를 동시에 저장할 수 있도록 하고 쓰기 프로세스의 총 대기 시간을 줄일 수 있다.

액티브스케일 콜드 스토리지 - 콜드 데이터를 위한 새로운 차원의 오브젝트 스토리지


온프레미스와 클라우드 인프라를 함께 관리할 수 있는 오브젝트 스토리지 고려해야

오브젝트 스토리지는 일반적인 온프레미스 하드웨어의 구성 외에도, 오브젝트 스토리지 솔루션 세트를 기반으로 하는 액티브 아카이브 및 콜드 데이터를 위한 새롭고 혁신적인 PB 규모의 스토리지 관리 서비스를 제공할 수 있어야 한다. 이러한 새로운 서비스는 대기업, 정부 기관, 클라우드 서비스 제공업체 및 연구 기관을 위해 특별히 제작된다. 두 가지의 서비스 클래스와 데이터 액세스 비용이 없는 이러한 완전 관리형 서비스는 액티브 아카이빙 및 콜드 데이터 스토리지 모두를 위한 매우 비용 효율적인 온프레미스 솔루션으로서 진지하게 고려돼야 한다.


오브젝트 스토리지, 지리적 분산(Geo-Spread) 시스템 구성을 통해 높은 가용성 제공해야

하이퍼스케일 데이터센터(HSDC)는 고가용성 보호 장치를 만들기 위해 지리적으로 분산된 데이터센터에 서버와 스토리지를 물리적으로 배치하는 경우가 많다. 이러한 방식은 화재, 홍수, 허리케인 또는 데이터센터의 가동 중단을 초래할 수 있는 기타 상황 등을 포함하는 재해 발생 시 비즈니스 연속성을 제공하기 위함이다. 이에 최신 오브젝트 스토리지는 RAIL(여러 라이브러리의 연계구성 - 퀀텀에서 도입)을 사용해 지리적으로 분산된 데이터센터 3곳(3-Geo)에 배포함으로써 구성 요소 및 사이트 장애를 견딜 수 있는 오브젝트 저장소 데이터 레이크를 생성해 안전성을 높인다.

지오 스프레드(Geo Spread) 기능으로 이레이저 코딩과 함께 오류 수정을 사용해 노드 및 여러 지역에 걸쳐 데이터를 중단 없이 배포한다. 오브젝트 데이터는 여러 노드에서 병렬로 액세스할 수 있으므로 데이터 전송 대역폭에 대한 성능이 향상된다.

한 사이트를 사용할 수 없게 되면 3-지오(3-Geo) 시스템에서 오브젝트를 복구할 수 있어야 하므로 단일 데이터센터에 데이터의 1/3 이상이 있을 수 없다. 각 레벨에 대해 DDP의 계층적 확산을 활성화하면 시스템은 3개의 데이터센터에 걸쳐 18개 이상의 드라이브에 분산 저장된다.

최신 오브젝트 스토리지에서 사용된 이레이저 코드 스토리지 정책에서 18/8의 예를 들면, 데이터 복구를 위한 패리티가 8개인 18개의 디스크 드라이브에 오브젝트가 분산된다. 이중 10개 이상의 디스크만 살아있다면 저장된 데이터를 읽어올 수 있다. 중요한 데이터 및 애플리케이션의 이중화를 위해 단일, 하이브리드 또는 여러 클라우드 서비스 제공업체에 복제할 수 있다. 장애가 발생하면 온프레미스 데이터센터는 가용성을 유지하기 위해 하이브리드 클라우드 복제 중 하나로 페일오버한 다음 문제가 해결되면 페일백할 수 있다.

퀀텀 액티브스케일 독립 라이브러리의 중복 배열(RAIL)
퀀텀 액티브스케일 독립 라이브러리의 중복 배열(RAIL)

RAIL(중복배열) 및 이레이저 코딩으로 고급 하이퍼스케일 아카이브 및 콜드 스토리지 아키텍처 정의

RAIL(중복배열)과 유사한 RAIT(독립 테이프의 중복 배열)는 서로 다른 테이프 카트리지 간에 데이터를 스트라이핑하지만 다른 라이브러리에 존재하도록 한다. RAIL은 고도화된 이레이저 코딩을 통해 데이터센터의 전체 운영 중단 또는 자연 재해 발생 시 지리적 복구성을 높이고 가용성을 극대화한다. RAIL은 대용량 아카이브를 위해 내구성, 고가용성, 보안 및 저비용 스토리지 아키텍처를 가능하게 하며 하이퍼스케일 데이터센터를 위한 콜드 데이터를 지원한다.

특히 HSDC 및 대규모 데이터센터에서는 여러 복사본을 생성하는 RAID 보다는 좀 더 비용 효율적인 이레이저 코딩 및 RAIL 아키텍처로 전환이 가속화되는 추세다. 기존의 RAID 기술에서는 장애가 발생한 HDD를 재구축하는 데 1주일 이상 걸리는 경우가 있고, 이러한 장기간의 데이터 리빌드는 데이터 손실의 위험성이 높다.


퀀텀 액티브스케일, 테이프 및 RAIL 아키텍처를 사용해 원격지 데이터 저장 및 관리

퀀텀의 오브젝트 스토리지인 액티브스케일은 동적 데이터 배치(DDP)를 통해 가용성이 극대화되도록 데이터가 세 위치에 분산돼 있는 진화된 이레이저 인코딩(HDD 기반) 및 RAIL(테이프 기반) 구성 또한 지원한다. 하나의 데이터센터가 중단된 경우에도 3개 사이트 구성은 지속적인 데이터 가용성과 지속적인 운영을 제공한다. 오브젝트 스토리지는 데이터 무결성 감사 및 자동화된 복구 기능을 수행해 잠재적인 미디어 성능 저하를 해결하고 시스템 관리자에게 알림을 보내는 동적 데이터 복구(DDR)를 구현할 수 있다. 에이전트는 관리를 위해 노드에 설치되고 지속적인 백그라운드 무결성 검사 및 복구를 수행한다. 시스템 모니터링 작업에는 추가 수준의 가용성을 제공하기 위한 디스크 상태 통계뿐만 아니라 온도, 팬 등 환경 매개변수가 포함된다.

액티브스케일 콜드 스토리지 시스템은 오브젝트를 페타바이트에서 엑사바이트로 확장하는 동시에 하이퍼스케일 사용 사례에 필요한 가용성, 내구성 및 성능을 제공할 수 있다. RAIL을 사용하는 최신 테이프 아키텍처는 가장 비용 효율적인 확장, 제일 낮은 TCO 및 탄소 배출량, 최고의 안정성, 가장 빠른 처리량 및 에어 갭을 통한 사이버 보안 보호 기능을 제공한다. 대규모 콜드 및 아카이브 데이터 요구 사항이 점점 늘어감에 따라 선호하는 스토리지 기술은 더욱 발전할 것이고, 테이프는 이러한 이점들을 모두 누릴 수 있을 것으로 예상된다.


콜드 데이터의 가치를 높일 수 있도록 유연한 확장과 비용효율적인 오브젝트 스토리지 도입 고려해야

스토리지 수요가 계속 급증함에 따라 탄소 배출량, 에너지 절감 문제를 중심으로 추진하고 있다. 이처럼 성장에 대한 요구가 늘어나는 상황에서 아카이브 및 콜드 스토리지 전략을 재설계해 급격한 데이터 증가를 보다 비용 효율적으로 대응하고 데이터의 숨겨진 가치를 찾아 활용하는 것이 매우 중요하다.

이제 최적의 스토리지 아키텍처를 통해, 데이터 증가 속도에 맞춰 예산을 확장하지 않고도 복잡성을 줄이고 콜드 데이터의 가치를 활용할 수 있도록 지원해야 한다.

엔터프라이즈, 웹스케일 및 하이퍼스케일 규모의 회사 또한 동일한 콜드 스토리지 문제를 갖고 있으므로, 무제한 용량을 제공하는 매우 비용 효율적인 솔루션으로 오브젝트 스토리지 도입을 고려해봐야 한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지