유재근 퀀텀코리아 이사

유재근 퀀텀코리아 이사
유재근 퀀텀코리아 이사

[아이티데일리] 미디어 기업의 가장 귀중한 자산은 바로 디지털 콘텐츠다.

콘텐츠에서 가치와 통찰력을 이끌어내는 것은 오늘날의 비즈니스는 물론 미래 시장과 경제를 주도할 것이다. 파일 및 오브젝트로 저장되는 콘텐츠는 기하급수적으로 증가하고 있으며, 2025년까지 ‘비정형’ 데이터가 지구상 모든 데이터의 80%를 차지할 것으로 예상된다. 콘텐츠 제작자와 관리자는 이러한 데이터를 중요한 자산으로 다뤄야 한다:

이러한 콘텐츠는 수십 년 동안 보관 및 보호되어야 하며, 클라우드는 해결책이 아니다. 특히 데이터는 매우 가치 있는 자산이기 때문에 절대 손실이 생겨서는 안되며, 데이터를 보호하고 여러 곳에 저장하여 재난으로부터 보호해야 한다. 그러나 이러한 데이터 세트는 페타바이트 및 엑사바이트로 빠르게 성장할 수 있으며, 수십 년 동안이 규모의 데이터를 보존하고 보호하는 데 있어 또 다른 복잡성을 가중시킬 수 있다.

하지만 이처럼 데이터를 저장하고 보호하는 것은 콘텐츠 자산 관리를 위한 아주 기본일 뿐이다.

데이터에서 통찰력을 얻고, 보다 빠르게 콘텐츠를 제작하고, 새로운 채널을 사용하여 콘텐츠를 배포하고, 새로운 방식으로 고객과 소통할 수 있도록 데이터 사용자와 애플리케이션이 쉽게 콘텐츠를 검색하고 분석하여 해당 데이터에 액세스할 수 있도록 보장해야 한다.

스타워즈 또는 미키마우스의 원본을 어떻게 저장하고 있나? 미국의 전설적인 타자 베이브 루스가 홈런을 치는 장면을 얼마나 오래 보관할까? 환자 기록, MRI 이미지 및 CAT 스캔, 재판에 사용된 감시 영상, 신약의 설계 및 생산에 사용되는 게놈 시퀀싱 이미지를 얼마나 오래 저장하고 있나?

현재 많은 고객은 이를 ‘영구적 콘텐츠 아카이브’ 문제로 언급하고 있으며, 향후 몇 년 동안 대부분의 스튜디오, 방송사, 포스트 하우스, 광고 대행사 및 기업은 콘텐츠 아카이브 계획이 필요하다.

‘영구적’ 콘텐츠 아카이브 전략을 설계할 때 고려해야 할 사항과 모범 사례를 살펴보자.


워크플로우 생산 단계에서 고려 사항

비디오 콘텐츠를 처음 만들 때는 빠르게 업로드하고 인제스트해야 하는데, 파일이 크기 때문에 초고속 스토리지 시스템이 필요하다. 그 후 사람과 애플리케이션은 한동안 데이터에 대해 작업하며, 데이터가 활발하게 작업되고 있을 때는 일반적으로 파일 형식이다.

오늘날 이러한 ‘빠른’ 스토리지 풀은 NVMe 플래시 스토리지에 구축되며 파일, 블록 또는 오브젝트 인터페이스를 사용하여 해당 데이터에 액세스 할 수 있는 옵션을 갖추고 있다. 주요 요구 사항은 초고속 스트리밍 성능과 워크스테이션, 편집 및 VFX 애플리케이션, 다양한 자산 관리 플랫폼과 미디어 제작 및 포스트 프로덕션 에코 시스템 간의 통합이다.

기존의 스케일 아웃 NAS 설계 및 TCP/IP와 같은 네트워크 프로토콜은 생성되는 데이터 양과 데이터 인제스트 및 공유 속도 측면에서 뒤처지기 시작했다. 렌더링 및 트랜스코딩을 위해 애플리케이션 및 기타 서비스와 통합되는 특수 클라이언트를 갖추고 있으며, NVMe 플래시에서 구동되는 소프트웨어 정의 파일 시스템 클러스터가 점점 더 선호되고 있다.


수십년에 걸친 데이터 보호를 위한 모범 사례

데이터베이스 또는 가상 환경을 백업하는 것은 매우 간단한 제안이다. 서버는 백업 애플리케이션을 사용하여 네트워크를 통해 백업되거나, 지속적인 데이터 보호를 위해 스냅샷이 사용된다. 이 데이터는 규정 준수 목적으로 7년간 보관된 후 만료된다. 수십 년 동안 보관해야 하는 대용량 콘텐츠 아카이브를 보호하는 것은 매우 다른 제안이다.

 

기본 보호 방법으로써의 이레이저 인코딩(Erasure Encoding)

이레이저 인코딩(Erasure Encoding) 또는 이레이저 코딩(Erasure Coding)은 대규모 아카이브를 보호하는 가장 좋은 방법으로 부상했다. 이레이저 인코딩을 통해 오브젝트는 청크(Chunk)로 분할되어 여러 노드에 분산되며 경우에 따라 여러 사이트로 분산되기도 한다. 이레이저 코딩 알고리즘은 보호 및 안전은 물론 스토리지 효율성을 위해 조정할 수 있다.

그림1. 이레이저 인코딩
그림1. 이레이저 인코딩

이레이저 인코딩된 데이터는 보호되므로 백업할 필요가 없다.


3개의 복사본에 대해 가장 효율적인 TCO를 갖춘 분산 배치(Geo-Spread) 이레이저 인코딩

데이터를 ‘영구적’ 콘텐츠 아카이브에 저장하는 가장 좋은 방법은 3개의 데이터 복사본을 세 곳에 보관하여 하드웨어 및 소프트웨어 문제와 로컬 재해로부터 보호하는 것이다. 분산 배치 이레이저 코딩은 지리적으로 분산된 여러 사이트에 이레이저 코드를 배치할 수 있는 소프트웨어를 말한다.

아래 그림은 분산 배치 이레이저 코딩의 효율성을 보여주고 있다.

표1. 가용량을 raw 용량의 %로 비교
표1. 가용량을 raw 용량의 %로 비교

 

랜섬웨어 보호 및 오프라인 스토리지 사본의 필요성

랜섬웨어 공격은 더욱 보편화되고 정교해졌다. 악성코드는 서버에 상주하여 휴면 상태를 유지할 수 있으며 손상된 데이터를 복제하거나 백업하는 것은 도움이 되지 않기 때문에 데이터는 여전히 손상된 상태로 있다.

이러한 이유로 많은 기업들은 랜섬웨어로부터 보호하기 위해 디지털 테이프를 사용하는 검증된 방법을 채택하고 있다. 테이프는 디지털 테이프에 저장된 데이터가 오프라인이거나 네트워크에서 에어 갭(air-gap)이 있다는 점에서 차별적이다. 테이프에 저장된 데이터는 훨씬 더 안전하다.

라이브러리에 저장된 테이프는 네트워크로부터 ‘오프라인’이며 ‘에어 갭(air-gap)’되었다.

그림2. 디지털 테이프 아카이브의 ‘오프라인’ 또는 ‘에어 갭’ 속성
그림2. 디지털 테이프 아카이브의 ‘오프라인’ 또는 ‘에어 갭’ 속성


파일 vs 오브젝트 스토리지 포맷

콘텐츠 아카이브와 관련하여 현재 고려해야 할 사항 중 하나는 데이터, 파일 또는 오브젝트를 저장할 형식이다. 점점 경계가 모호해지고 있으며, 많은 벤더들은 파일 또는 오브젝트 인터페이스를 지원하는 초고속 스토리지와 파일 또는 오브젝트 인터페이스를 갖춘 ‘매우 안전한’ 스토리지를 모두 제공한다.

그림3. 파일과 오브젝트 스토리지의 차이점
그림3. 파일과 오브젝트 스토리지의 차이점

하지만, 장기 보존을 위해 데이터를 오브젝트 형식으로 저장하는 것은 몇 가지 뚜렷한 장점이 있다.

- 대규모 확장 지원: 오브젝트 저장소는 수십억 개의 객체 및 엑사바이트 규모로 쉽게 확장 가능

- 대규모 검색 및 인덱싱 용이: 플랫 네임스페이스 및 메타데이터가 오브젝트의 일부로 포함되어 오브젝트 저장소와 오브젝트 형식을 대규모로 검색하기 용이

- 클라우드 친화적: 사용자가 아카이브에 저장된 데이터에서 클라우드 서비스를 실행할 수 있도록 지원


아카이브 스토리지를 위한 스토리지 기술

아래 표에서는 현재 아카이브 스토리지에 사용할 수 있는 가장 일반적인 대안을 설명하고 있다.

아카이브 스토리지 기술
아카이브 스토리지 기술

위의 표에서 언급했듯이 테이프는 ‘영구적’ 콘텐츠 아카이브를 위해 고려하고 사용해야 하는 핵심 기술이다. 테이프는 Synthetic DNA 저장이 상업적으로나 기술적으로 가능해질 때까지 다른 저장 기술에 비해 많은 뚜렷한 장점을 가지고 있다.


테이프의 장점
- 저비용
- 전력이 거의 필요하지 않음
- 30년 이상의 데이터 수명
- 디스크보다 안정적
- ‘Greenest’ 옵션
- 랜섬웨어로부터 보호하기 위해 에어 갭된 스토리지 사본

또한 테이프 기술(예: 자기 매체)은 영역 밀도를 지속적으로 향상시키기 위한 실행 가능한 기술 로드맵을 가지고 있으며, 이는 하드 드라이브 기술과 달리 보다 적은 공간에 보다 적은 비용으로 더욱 많은 디지털 데이터를 저장할 수 있는 능력을 의미한다.

그림4. 디지털 테이프와 하드 드라이브의 면적 밀도 로드맵 비교
그림4. 디지털 테이프와 하드 드라이브의 면적 밀도 로드맵 비교


데이터 분류 및 태그, 그리고 탄력적 검색

지금까지 다양한 스토리지 기술과 콘텐츠 아카이브 구축 방법의 주요 고려 사항에 대해 알아보았다. 그러나 가장 큰 과제는 아카이브를 액세스하고 검색 가능하게 만드는 방법이며 이를 해결하기 위한 첫 번째 단계는 인제스트에 대한 제로 터치(zero-touch) 실시간 데이터 분류다.

그림5. 일반적인 과제 및 데이터 분류 요구 사항
그림5. 일반적인 과제 및 데이터 분류 요구 사항

아래 그림과 같이 적절하게 설계된 데이터 분류 엔진에는 강력한 실시간 분석, 아카이브 된 콘텐츠에 대한 투명한 액세스 및 확장 가능한 탄력적인 검색 엔진이 포함되어야 한다.

이를 통해 사용자는 인텔리전트 아카이브를 구축하여 필요할 때 온 프레미스와 클라우드 인프라 사이에 데이터를 배치하고 궁극적으로 데이터를 통찰력(이해 및 간파)과 결과물로 빠르게 전환할 수 있는 아카이브를 구축할 수 있다.

그림6. 실시간 데이터 분류 엔진
그림6. 실시간 데이터 분류 엔진


온 프레미스 및 퍼블릭 클라우드 고려 사항

많은 조직에서 백업, 아카이브 및 콜드 스토리지를 위해 퍼블릭 클라우드를 고려하고 사용하고 있다. 또한 퍼블릭 클라우드 공급자는 사용 편의성에 대한 새로운 기준을 설정하는 등 많은 작업을 뛰어나게 수행했으며 궁극적으로 기본 기술에서 사용자를 추상화(abstract)했다.

퀀텀은 미래에 하이브리드 및 멀티 클라우드가 부상할 것으로 보고 있으며, 다음과 같은 몇 가지 주요 고려 사항이 있다.


온 프레미스 및 멀티 클라우드 간 원활한 연결

퍼블릭 클라우드 공급 업체는 본 백서에 앞서 설명된 것처럼 동일한 기본 스토리지 기술을 사용하지만, 근본적인 기술로부터 추상화된 사용자 경험을 개발했다. 또한 콘텐츠 아카이브 관리자들이 활용하고자 하는 뛰어난 서비스로 가득 찬 대규모 시장을 개발했다.

최고의 아키텍처가 대기업, 콘텐츠 제작자 및 콘텐츠 아카이브를 관리하는 모든 사람을 위한 것이라고 생각하는 이유가 바로 이것이다. 보다 뛰어난 경제성은 물론, 클라우드 공급자 간에 데이터를 자유롭게 이동할 수 있는 유연성을 보장한다.

올바른 데이터 분류 엔진과 온 프레미스 및 다양한 클라우드 공급자 간에 데이터를 원활하게 이동할 수 있는 기능을 통해 사용자는 중요한 디지털 자산에 대한 컨트롤, 보안 및 데이터 보호를 유지하면서 최고의 경제성으로 최고의 서비스에 액세스할 수 있다.


결론

요약하면 ‘영구적’인 콘텐츠 아카이브 문제는 많은 CIO, 데이터 사이언티스트, 콘텐츠 제작자 및 보안 통합자가 향후 5~10 년 동안 해결해야 할 주요 문제다.

퀀텀은 거의 20년 동안 고객이 이 문제를 해결하도록 돕고 있다. 좋아하는 영화와 TV 프로그램은 퀀텀에 디지털로 보관된다. 지난 100년 간의 좋아하는 스포츠 장면이 퀀텀에 디지털로 보관되어 있을 확률이 높다. 전 세계의 정부 기관은 국방을 위해 지구와 기후 변화의 영향을 연구하고 우주를 탐험하는 데 도움이 되도록 퀀텀에 디지털 아카이브를 구축했다.

퀀텀은 세계에서 가장 빠른 스토어넥스트(StorNext) NVMe 스토리지 시스템부터 액티브스케일(ActiveScale) 오브젝트 스토리지 소프트웨어, 퀀텀 테이프에서 가장 저렴하고 안전한 ‘콜드’ 스토리지에 이르기까지 이 문제를 해결하기 위해 설계된 기술 포트폴리오를 구축했다. 이러한 기술을 실시간 데이터 분류 및 태깅과 결합하고 이러한 모든 계층에 데이터를 배치하여 하이브리드 및 다중 클라우드에 ‘영구적’인 콘텐츠 아카이브를 구축할 수 있다.

그림7. ‘영구적’인 콘텐츠 아카이브의 핵심인 퀀텀 기술
그림7. ‘영구적’인 콘텐츠 아카이브의 핵심인 퀀텀 기술

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지