[기고] 데이터의 변화와 오브젝트 스토리지의 필요성

권용호 한국IBM 과장

[컴퓨터월드]

변화하고 있는 디지털 데이터의 형태

데이터의 형태가 변화하고 있다. 이에 따라 그 구조와 저장 그리고 보관 방법에도 많은 변화가 예고되고 있다. 어쩌면 이미 이러한 변화 속에 있는지도 모르겠다. 최초에 디지털 데이터는 정형적인 형태로 생산됐다. 데이터는 동일하거나 매우 유사한 방법으로 분류, 조직이 가능했고 이를 통해 원하는 정보를 효과적으로 검색할 수 있었다. 이러한 방식의 데이터 조직 방법은 매우 오랫동안 디지털 데이터를 보관하는 방법으로 사용돼 왔다.

물론 과거에도 비정형 데이터가 존재했으나 이는 매우 적은 양으로, 특히 기업에서는 기업의 활동에 생산적인 자원으로서의 활용성이 낮아 누구도 주목하지 않았다. 그러나 파일의 형태로 계층구조를 가진 저장장치에 저장, 관리하는 것으로 그 목적을 다했던 비정형 데이터는 이제 전체 데이터의 성장을 견인하기 시작했다.

비정형 데이터의 도전

약 10년 전 부터 디지털 데이터는 급증하기 시작했으며 클라우드와 빅데이터, 그리고 근래에 들어서는 사물인터넷(IoT)을 통해 수백만 대의 디바이스에서 매 순간 데이터를 생성하고 있다. 이처럼 급증하는 데이터의 효과적인 저장과 검색, 그리고 효율적인 관리는 커다란 과제가 돼가고 있다. 그리고 이러한 데이터 성장을 견인하는 것은 모두 비정형 데이터라고 해도 과언이 아닐 것이다. 2020년까지 디지털 데이터의 약 80%는 비정형 데이터가 될 것이며 데이터의 양은 약 44제타바이트(ZB)가 될 것이라는 예측이 있을 정도다.

정형 데이터와 비정형 데이터의 검색

앞서 말했듯이 비정형 데이터는 많은 기업들에게 커다란 과제로 다가오고 있다. 그 이유는 무엇일까? 그것은 단지 급격히 늘어나고 있는 크기 때문은 결코 아닐 것이다. 명확히 구분하기 어렵고, 그 개수가 많으며, 종류가 천차만별인데다 크기 또한 크기 때문에 이를 관리하기 위해서는 기존과는 다른 방법이 필요하다.

여행을 예로 들어 보자. 다가오는 여름휴가에 제주도로 여행을 다녀왔다고 가정해 보자. 여행지에서 사용한 현금, 카드 등은 정형 데이터로서 금액, 사용처 등으로 명확하게 분류가 가능하다. 즉, 이러한 정형 데이터는 데이터베이스에 구조화된 데이터 저장이 가능하다는 의미다.

검색 측면에서 이러한 특징은 비정형 데이터와 많은 차이가 있다. 정형 데이터의 검색은 어떠한 추가적인 메타 데이터 없이 단순한 검색이 가능하다. 첫째 날 여행지에서 사용한 식사 금액, 여행에 사용한 모든 교통수단에 대한 금액의 합, 단일 결제로 1만 원 이하의 트랜잭션 등 여러 가지 방법의 검색 결과를 위해 몇 개의 테이블을 조인(join)하고 검색 요구사항에 맞춰 검색어와 조건을 입력하는 것으로 결과를 얻을 수 있다. 검색을 위해 다른 무언가를 기억해내야 하거나, 다른 추가적인 정보를 필요로 하지 않는다.

그렇다면 비정형 데이터는 어떨까? 여행지에서 촬영한 많은 사진과 동영상은 어떻게 저장하는 것이 좋을까? 여행 다녀온 날짜와 장소로 저장하는 것이 일반적일 것이다. 이를테면, ‘2017년 제주도 여행’과 같은 폴더 이름처럼 말이다. 시간이 흐른 뒤, 누군가에게 한라산 정상에서 찍은 사진 한 장을 공유하고자 한다면 어떻게 해야 할까? 이를 찾아내기 위해서는 한라산에서 사진을 촬영한 시기를 기억해내야 한다. 해당 폴더를 찾아야하기 때문이다.

그러나 폴더를 찾아내더라도 결국 검색이 어려운 것은 마찬가지다. 결국은 사진을 일일이 확인해야만 가능하다. 많은 사람들이 SNS에 사진을 게시하면서 해시태그를 입력하는 이유가 바로 이러한 어려움을 극복하기 위함인 것은 모두가 알고 있을 것이다.

한 가지 예를 더 들어 보자. 하드디스크에 저장된 수백, 수천 편의 드라마와 영화 미디어 파일 중 가장 좋아하는 배우가 나오는 장면을 따로 모아 편집하고자 한다면 어떤 일을 해야 할까? 보통 일반적인 하드디스크에는 출연하는 배우를 기준으로 미디어가 분류돼 있지 않기 때문에 일일이 찾아보고, 배우가 등장하는 장면을 골라 편집해야 하는 불편함을 감수해야 할 것이다.

그러나 근래 서비스하는 음원 공유 서비스에는 음악의 특정 부분, 마음에 드는 구절에 초 단위로 코멘트나 해시태그 ‘좋아요’ 등을 덧붙일 수 있도록 서비스하고 있다. 단순히 특정한 게시물, 영상, 음원을 ‘누군가가 좋아합니다’라고 보여주는 것과는 매우 차별화되는 서비스가 아닌가?

데이터로 인한 기업의 도전과제

이러한 예는 엔터프라이즈 기업에게 유사한 형태의 도전으로 다가오고 있다. 바로 이렇게 급격히 증가하는 비정형 데이터의 비용 효율적인 저장과 효과적인 검색 및 활용에 대한 것이다.

비정형 데이터는 같은 종류의 데이터라 하더라도 그 의미는 여러 가지 용도로 해석될 수 있다. 또한 이러한 데이터를 가공해 또 다른 가치를 갖는 새로운 데이터를 창출하는 과정 또한 도전적일 수밖에 없다. 이 모든 과정이 비정형 데이터에서 시작하며, 이것을 어떻게 저장하고 관리하고 있는가에 따라 앞으로 기업의 운명이 달라질 수 있다고 해도 과언이 아닐 것이다.

비정형 데이터에 알맞은 새로운 스토리지의 요구

이러한 비정형 데이터의 거침없는 증가를 능히 수용할, 새로운 스토리지의 아키텍처 조건은 여러 가지가 있다. 전통적인 스토리지로 이러한 조건을 만족하기에는 한계가 있으므로, 이를 위한 새로운 아키텍처가 필요하다. 다음은 새로운 아키텍처가 요구하는 사항들이다.

1. 비정형 데이터의 증가를 손쉽게 감당할 만큼 비용 효과적이어야 한다.
2. 데이터가 불의에, 또는 악의적으로 손상되지 않도록 보호할 만큼 안전해야 한다.
3. 애플리케이션 다운타임이 발생하지 않도록 항시 가동될 수 있어야 한다.
4. 스토리지 인프라의 전면적 리뉴얼과 업그레이드 필요성을 원천 제거할 수 있어야 한다.

오브젝트 스토리지의 이해 (1) - 파일 스토리지

이러한 요구사항을 만족할 수 있는 것이 바로 오브젝트(object) 스토리지다. 오브젝트 스토리지를 보다 명확히 정의하기 위해 파일 및 블록 스토리지에 대해 다시 살펴보자. 우리는 파일 시스템에서 파일이 일반적으로 구조화돼 있다는 것을 알고 있다. 그러나 이는 파일을 구성하는 계층적 방법일 뿐이며 개별 파일은 해당 파일의 경로를 통해 찾을 수 있다. 다른 방법은 존재하지 않는다. 파일과 그 내용을 설명할 수 있는 속성은 파일 시스템의 메타 데이터로 저장된다. NAS를 통해 로컬에서 파일을 효과적으로 공유할 수 있지만 WAN을 통과하는 경우에는 그렇지 않다.

그리고 또 한 가지, 소수의 NAS 스토리지를 관리하는 것은 간단하지만 여러 대의 서로 다른 NAS 제품을 관리하는 것은 매우 어려운 일이다. 파일 스토리지는 수십만, 수백만 개의 파일에서는 문제가 없지만 수십억 개의 파일을 처리하도록 설계돼 있지는 않다. 요약하면, 파일 스토리지는 파일의 개수가 적고, 로컬에서 공유하며, 메타 데이터가 제한적인 경우에는 유용할 수 있으나 그 이상의 요구사항이 있다면 적절치 않다.

오브젝트 스토리지의 이해 (2) - 블록 스토리지

블록 스토리지는 데이터 덩어리이며 적절한 블록이 결합돼 파일을 생성한다. 각 블록에는 주소가 있으며, 애플리케이션은 해당 주소로 SCSI 호출을 작성해 블록을 검색한다. NAS의 경우와 달리, 애플리케이션은 데이터를 저장할 위치와 저장 장치를 구성하는 방법을 결정한다. 블록을 결합하거나 접근하는 방법은 응용 프로그램에 맡긴다.

주소를 제외하고는 블록과 연관된 저장 영역 측의 메타 데이터가 없으며, 논쟁의 여지가 있지만 블록에 관한 메타 데이터는 아니다. 즉, 블록은 그 자체로 의미가 없고 블록 간 연결은 돼있지 않으며, 소유정보가 없는 데이터 덩어리다. 애플리케이션에서 각 블록들의 데이터를 연결, 결합할 때만 비로소 의미가 있다.

애플리케이션에서 이러한 블록 레벨의 제어 기능을 부여하고, 환경에 제약이 없는 좋은 상황일 경우 최상의 성능을 얻을 수 있다. 이것이 블록 스토리지가 성능 중심 애플리케이션의 핵심이었던 이유라고 할 수 있다.

그러나 블록 스토리지는 성능상의 이점 외에 비정형 데이터를 저장·관리하는 데에는 적합하지 않다. 오브젝트를 작은 블록으로 나눠야 하며, 마운트한 운영체제의 파일시스템에 제한되고, 오브젝트에 대한 메타 데이터를 관리하는 것은 불가능하기 때문에 로컬 용도의 정형 데이터에 주로 사용된다.

오브젝트 스토리지는 무엇인가 (1) - 특징

그러면 오브젝트 스토리지에 대해 살펴보자. 우선 오브젝트는 모든 메타 데이터와 함께 정의되며, 메타 데이터와 함께 오브젝트로 묶을 수 있다. 오브젝트는 해당 오브젝트를 대변할 수 있는 ID가 제공된다. 오브젝트 ID는 오브젝트 저장 영역에서 애플리케이션이 검색을 할 수 있는 수단이다.

파일 또는 파일시스템과 달리 오브젝트는 평면 구조로 저장된다. 오브젝트 스토리지는 풀을 가지며, 해당 ID를 통해 필요한 오브젝트를 요청하기만 하면 된다. 오브젝트는 지역 또는 지리적으로 분리돼 있을 수도 있지만, 평면 주소공간에 존재하고 모든 상황에서 동일한 방식으로 검색되기 때문에 오브젝트에 대한 접근 시간도 동일하다.

오브젝트 스토리지는 무엇인가 (2) - 메타 데이터

또한, 오브젝트는 메타 데이터의 유형이나 양에 제한을 받지 않는다. 오브젝트와 연결된 애플리케이션의 종류와 유형, 그 외 여러 가지 형태의 메타 데이터를 제한 없이 지정할 수 있으며, 적용하고자 하는 데이터의 보호 수준, 복제, 삭제 등에 대한 각종 메타 데이터가 파일시스템에서 사용되고 있는 메타 데이터보다 훨씬 방대하다.

이처럼 각 오브젝트별로 사용자가 원하는 대로 메타 데이터를 정의할 수 있도록 허용한다는 것은 매우 큰 의미를 가진다. 이전에 수행할 수 없었던 방대한 양의 분석, 의미 도출을 위한 기초 저장소로 매우 적합하다는 것이며, 이로써 기업이 데이터를 통한 새로운 기회를 창출하는 데 필요하고 적합한 저장소로 활용될 수 있기 때문이다.

이 외에도 오브젝트 스토리지는 많은 양의 클라우드 친화적인 애플리케이션에 쉽게 적용할 수 있도록 설계되고 있으며, API를 통해 오브젝트나 해당 메타 데이터에 접근할 수 있는 유연함도 제공받을 수 있다.

오브젝트 스토리지는 어떻게 사용할 수 있는가

오브젝트 스토리지는 대부분 범용 서버 클러스터를 기반으로 한다. 값비싼 RAID 기술을 사용하지 않아도 EC(Erasure Coding) 기술을 통해 동등 이상의 가용성과 비용 효율적인 저장용량을 제공할 수 있다. 또한 범용 서버를 사용하기 때문에 손쉬운 확장과 리뉴얼에도 매우 유연하게 대응할 수 있다.

오브젝트 스토리지의 특성을 이해하는 데 중요한 또 다른 특징은 블록이나 파일과 달리 HTTP 기반 REST 애플리케이션 인터페이스를 사용해 데이터에 접근한다는 점이다. 이들은 GET, PUT, DELETE 와 같은 간단한 호출이다. 단순한 점은 장점이지만 SCSI, CIFS, NFS 호출을 사용하도록 만들어진 애플리케이션이 오브젝트 스토리지를 사용하기 위해서는 애플리케이션을 변경해야 할 필요가 있다.

이 때 가장 직접적인 방법은 프로그램 코드를 변경해 직접 REST 기반 호출방식으로 변경하는 것이나, 여러 가지 쉽지 않은 점들로 인해 이것이 어려울 경우 호출 방식을 변경해주는 게이트웨이를 사용하는 것으로 해결할 수 있다. 오브젝트 스토리지의 주요 특징을 요약하면 아래와 같다.

1. 데이터는 개별 객체로 저장된다.
2. 디렉토리 계층 구조에 배치되지 않으며 고정 주소 공간에 저장된다.
3. 발렛파킹 서비스에 종종 비교된다. 객체는 차와 같으며 주소는 영수증이다.
4. 사용자 수준이 아닌 응용프로그램 수준에서 액세스하도록 설계됐으므로 운영체제나 통신 프로토콜에 의존성이 없다.
5. REST 기반의 API 호출을 통해 데이터에 접근한다.

▲ 오브젝트 스토리지는 각종 비정형 데이터를 손쉽게 저장하고 안전하게 보관할 수 있다.

IBM 클라우드 오브젝트 스토리지의 우수한 기반 기술

그렇다면 IBM 클라우드 오브젝트 스토리지(Cloud Object Storage, 이하 ‘IBM COS’)는 다른 제품들과 어떤 점이 비교될까? IBM COS는 온프레미스(on-premise), 오프프레미스(off-premise), 하이브리드(hybrid) 등 원하는 모든 방식의 포트폴리오를 보유하고 있다는 점이 가장 큰 차이점이다. 이는 매우 큰 의미를 가지고 있다.

업무의 성격에 따라 달라질 수 있겠지만, 기업의 모든 업무가 클라우드로 전환하기는 어렵다는 대전제를 가정할 때 많은 기업은 하이브리드 방식의 클라우드가 지향점일 것이다. 이 때 스토리지가 부분적인 서비스만 가능할 경우, 서비스 유연성에 영향을 미칠 수 있다. 이러한 유연성은 급변하는 시대에 반드시 확보해야 하는 첫 번째 고려사항이다.

또한, 오브젝트 스토리지의 근간이 되는 EC(Erasure Coding) 기술에 암호화를 내장(Built-in)해 우수한 보안 레벨을 제공함으로써 기업의 보안 규정을 만족시킬 수 있으며, 기업이 원하는 대로 IDA(Information Dispersal Algorithm)를 조정할 수 있다는 것은 비용 효과적으로 유연하게 스토리지를 설계할 수 있다는 측면에서 다른 제품들과 비교되는 우수한 점으로 꼽힐 수 있다.

IBM 클라우드 오브젝트 스토리지의 폭넓은 서비스 범위와 맞춤형 오퍼링

이런 혁신적인 기술을 바탕으로 전 세계 ‘IBM 클라우드(IBM Cloud)’에서 서비스하는 오프프레미스 형태의 IBM 오브젝트 스토리지 서비스의 경우, 데이터를 각 지역 또는 국가 간 분산 저장하는 지역 분산 서비스(Cross Region)와 단일 지역에 데이터를 저장하는 단일 지역 서비스(Regional)로 구분하고 있다.

이는 기업이 업무 형태, 예산, 데이터의 성격, 규제 등에 맞춰 적합한 서비스를 선택할 수 있게 한다. 더불어 값비싼 데이터 사본을 생성하지 않고도 동등 이상의 가용성을 제공함과 동시에 비용 효과적인 서비스를 도입할 수 있도록 해준다.

전 세계 어디에서도 동일한 형태의 서비스를 받을 수 있으며, 온/오프프레미스를 아우르는 폭 넓은 오퍼링, 추가적인 데이터 복제 비용을 지불하지 않고도 값비싼 데이터 사본을 생성하는 오래된 방식 대비 동등 이상의 높은 가용성을 제공한다.

또한 애플리케이션의 데이터 접근 빈도나 예산, 업무 형태에 따라 폭 넓게 제공되는 서비스를 비롯해 심지어 워크로드 타입에 적합한 서비스가 없을 경우에도 효과적으로 사용할 수 있도록 마련된 서비스까지, 방대한 범위에서 준비돼 있는 유일한 서비스가 IBM 클라우드 오브젝트 스토리지라고 할 수 있다.

▲ IBM 오브젝트 스토리지는 다양한 워크로드 패턴에 적합한 서비스를 선택 적용할 수 있다.

마치며

서두에 데이터의 형태가 급격히 변화하고 있음을 언급했다. 이제 데이터는 기업 가치의 원천이며 데이터를 어떻게 저장하고 관리하느냐에 따라 기업의 가치도 변화할 수 있는 시대에 살고 있음을 부정하기 어려울 것이다. 전통적인 스토리지로는 더 이상 효과적인 데이터의 저장과 관리, 새로운 가치의 창출이 쉽지 않다. 앞으로 어떤 방법, 어떤 기술, 그리고 어떠한 서비스를 통해 새로운 모멘텀을 마련할 수 있을지를 진지하게 고민하고 실행해야 할 때다.

권용호 @

다른기사 보기

상단영역

본문영역

[기고] 데이터의 변화와 오브젝트 스토리지의 필요성

권용호 한국IBM 과장

기사 댓글 0

비회원 로그인