EMC 가장 먼저 진입…카링고∙HP∙히다찌∙IBM∙넥산∙썬 등 제품 출시 봇물

미국 정부와 KPMG간의 세금탈루 공방이 세간의 관심 대상이 되고 있다. 연방정부는 KPMG에 대해 1996년부터 2003년까지 부유층 고객들을 위해 세금탈루 기법을 제공한 혐의를 포착했다. 눈길을 끄는 것은 KPMG가 25억 달러의 세금 포탈 혐의나 4억5,600만 달러를 지불해야 한다는 것이 아니다. 이 사건과 관련된 문서가 5~6백만 페이지에 달한다는 것이다. 여기에서 데이터 디지털로 문서를 찾아내는 기능과 데이터 보관이 왜 중요한지 알 수 있다. 잠잠하던 문서 기록 보관 시장이 들끓기 시작할 것으로 예상된다.
컨텐츠를 토대로 문서 관리 및 검색
최근 벤더들이 문서 관리 및 검색 기능의 향상을 위해 CAS(content-addressed storage) 기술을 적극적으로 도입하고 있다. 간단히 말해서, CAS 시스템은 데이터를 디렉토리나 물리적인 주소보다는 주소를 배열로 할당해 위치시키는 것이다. CAS 장비의 경우 데이터가 저장된 하드웨어에서 데이터를 발췌하기 때문에 문서는 스토리지 위치가 아닌 컨텐츠를 토대로 파악된다.
이 시장에 가장 먼저 진입한 업체는 EMC이다. EMC는 2002년 센테라(Centera)를 출시하면서 CAS 기능이 탑재된 장비를 보유해 시장을 선점했다. 현재 경쟁사로는 카링고(Caringo)를 비롯해 HP, 히다치, IBM, 넥산(Nexan), 썬 마이크로시스템즈 등이다. 아울러 ‘완벽한 아카이브 관리 시스템’이라는 명목으로 주요 스토리지 벤더들 역시 CAS 시장에 뛰어들 것으로 전망된다.
CAS 시스템은 데이터가 물리적으로 보관되는 스토리지 노드, 스토리지 노드의 데이터가 위치한 곳에 있는 메타데이터와 정보가 보관되는 액세스 노드로 구성된다. CAS는 컨텐츠 검색은 가능하지만 수정이나 변경 등의 조작은 허용되지 않아 디지털 지문 기능을 제공할 수 있다. 일부 벤더들의 경우 주어진 데이터의 복사판만을 저장하는데 이 기능을 사용하고 있다.
하지만 CAS는 심각한 단점들이 있다. 메타데이터의 표준이 없다는 것이다. 스토리지 네트워킹 산업 협회(SNIA)는 서로 다른 CAS 시스템 사이에서 XML 기반의 메타데이터를 마이그레이션할 수 있게 해주는 표준화 작업을 시도하고 있지만 아직 결실을 맺지 못하고 있다.
디지털 지문 기능 제공…가열되는 시장
기존의 스토리지와 CAS를 구분하는 방법은 그 제공 기술에서 찾을 수 있는데, 아카이빙 전략에 CAS 기술을 추가하는 것에 대해 자세하게 이해하고 있다면 큰 문제는 없을 것이다. 기업의 컴플라이언스에 대한 규제가 강화됨에 따라 원본 데이터를 그대로 보존하며 필요시 언제든지 불러올 수 있게 해주는 CAS는 기업용 데이터의 변경 상황을 추적할 수 있어 데이터가 법적인 규제에 따르도록 바뀌지 않았다는 것을 확인해주는 검증 방법을 제공하며, 개별 파일의 추적을 위해 메타데이터를 사용하기 때문에 필요에 따라 적절한 스토리지 매체에 데이터를 마이그레이션할 수 있도록 해준다. 또한 효율적으로 검색이 가능하고 데이터를 복제할 필요성도 없애주어 디스크 공간도 절약할 수 있다.
>> 변화 추적(Change tracking): 변화 추적 기능을 사용할 경우 기업들은 문서의 변경 사항을 보여줄 수 있다. 법적인 상황에 연루될 경우 유용하게 사용될 수 있다. 변화 추적 및 컨텐츠 주소들은 디지털 서명이나 해시 테이블, 분석용 압축 텍스트 등에서 사용되는, 크기가 변하는 텍스트를 크기가 고정된 것으로 전환해주는 알고리즘인 해시(hash)에 의해 만들어진다. 하지만 과거의 해싱 알고리즘이 시대에 뒤떨어졌다는 비판을 받게 됨에 따라 거의 모든 CAS 시스템은 새로운 해싱 알고리즘을 적용하고 있다. 해싱 기능은 성능 측면에서 볼 때 CAS 시스템의 주요 병목 현상의 원인이 되지만 많은 벤더들의 경우 사용량이 적은 시점을 통해 백그라운드를 실행하거나 해싱 기능을 하드웨어에 적용시키고 있다.
>> 메타데이터: 기업들이 풍부한 메타데이터 환경을 보유하고 있다면 중요한 데이터의 검색과 범주화, 마이닝은 원하는 대로 확장할 수 있다. 위치에 따라 주소를 부여하는 운영 체제는 아카이빙에 유용한 충분한 메타데이터를 저장할 수 없다. CAS는 아카이빙 운영이 실행될 수 있도록 하는 토대 역할을 제공한다. CAS는 미디어의 부패(rot)와 같은 장기적인 아카이빙 고유의 문제를 해결해준다. 미디어 부패는 물리적인 스토리지 매체의 품질 저하만을 의미하는 것이 아니라 기술의 ‘단명’도 의미한다. CAS는 디스크이건 광매체이건 테이프이건 상관 없이 데이터를 한 저장소에서 다른 저장소로 쉽게 이동시켜주어 미디어 부패 문제를 거의 해결해줄 수 있다.
>> 중복 검사(De-duplication): 특정 파일의 한 카피만이 스토리지 시스템에 보관될 경우 데이터 중복 검사는 아직 CAS 장비에서 보편적으로 이용할 수 없다. 스토리지의 효율적인 사용과 비용 절감을 위해서는 아쉬운 부분에 해당된다.
비록 이 기술이 등장한 지는 수년이 지났지만 CAS 제품은 비교적 초기 단계에 머물러 있다. 스토리지 가상화와 같이, 실제 기업에게 혜택을 주는 스토리지가 아니라 전용 CAS 스토리지 시스템과 연동하는 소프트웨어이다. 향후 CAS는 비용 차원에서 보았을 때 대기업과 특정 업종에 국한되어 도입될 것으로 전망된다.
InformationWeek Steven J. Schuchart Jr.
저작권자 © 아이티데일리 무단전재 및 재배포 금지