병렬파일시스템, 가상화의 선봉에 서다

데이터 관리 가상화의 필수 요건, 온 디맨드 비즈니스를 위한 IT 인프라의 기초

2002년에 샘 팔미사노 IBM 회장은 21세기를 온 디맨드 비즈니스의 시대로 정의하고, 그 물리적 기반이 되는 IT 인프라도 온 디맨드 환경으로 변신해야 한다고 주창했다. 그러한 온 디맨드 운영환경은 크게 가상화, 자동화, 통합의 과정을 거쳐 완성될 수 있는데, 그 중에서도 가상화는 온 디맨드 인프라를 위한 첫 번째 단계이자 필수 조건이라고 할 수 있다. 즉, 가상화를 거치지 않고 자동화와 통합으로 이행하는 것은 기초가 허약한 사상 누각을 짓는 일이 될 수 있다. 그럼에도 불구하고 시장에서는 아직도 사용자의 궁극적인 자산이라고 할 수 있는 데이터 관리 가상화를 위해 안심하고 의지할 수 있는 완성도 높은 솔루션을 찾기는 쉽지 않은 형편이다.

한편 효율적인 데이터 관리는 접근성과 확장성, 이 두 가지 모두를 보장하기 위해 끊임없는 노력을 요구한다. 특히 파일시스템 수준에서 일반 문서, 멀티미디어 자료, 데이터베이스 그리고 애플리케이션 데이터 등에 대한 접근을 제공하는 것은 사용자가 늘어나고 저장 용량이 증가함에 따라 점점 더 어려워진다. 또한 급증하는 데이터 처리를 위해 즉각적이고 투명하게 대응할 수 있는 확장성을 보장하기 위해서는 일반적으로 고가의 하드웨어와 소프트웨어 비용이 소요되며 더욱 더 큰 관리 부담을 안겨주게 된다

따라서 흔히 폴더 또는 디렉토리라고 불리는 데이터 저장소의 논리적인 구조 변경 없이 디스크 스토리지 확장이 가능하고, 그러면서도 성능을 보장하는 안정적인 병렬파일시스템은 데이터 관리 가상화를 위한 필수 요건이 되고 있으며, 온 디맨드 비즈니스를 위한 IT 인프라의 기초로 주목을 받고 있다.

1. 데이터관리 시장 동향
데이터를 생성, 관리, 검색, 보호하는 것은 오늘날 모든 비즈니스에 요구되는 필수 업무이다. 그러나 많은 비즈니스에서 나날이 증가하는 데이터는 자산이기도 하지만 동시에 부담이라고 할 수 있다. 많은 요인들이 데이터 증가에 기여하고 있는 가운데, 특히 현실 세계 시스템과 프로세스의 디지털 표현, 다양한 디지털 콘텐츠 제작, 글로벌 시장을 위한 콘텐츠 제공이라는 세 가지 주요 경향이 디지털 데이터의 폭발을 주도하는 주요 요인으로 여겨지고 있다.

더욱이 이러한 경향을 이끄는 엔진 역할을 하는 애플리케이션들은 제품 생명 주기 관리(PLM), 서비스 생명 주기 관리(SLM), 정보 생명 주기 관리(ILM), 주문형 비디오(VOD), 디지털 비디오 감시(DVS), 애니메이션 렌더링, 에너지 탐사, 제약 설계 및 약물 분석, 디지털 의료 시스템, 웹 2.0 및 서비스 지향 아키텍처 등 셀 수 없이 많은 분야에서 확산되고 있는 추세이다. 우선 몇 가지 대표적인 분야에서 고객들의 업무 환경과 당면 과제들을 살펴보자.

1.1 자동차 산업의 제품 생명 주기 관리
오늘날의 자동차 제조 산업은 심각한 도전에 직면하고 있다. 경쟁 압박은 기업들이 제품 개발 주기를 더 단축하도록 요구하고 있고, 새로운 것을 찾는 기존 고객들과 더 젊어진 구매층을 만족시키기 위해 종종 전자장비와 임베디드 소프트웨어를 통한 차별화를 모색하고 있다. 또한 개발과 운영비용 절감을 위한 압력은 기업들이 다양한 시험용 자동차 모델의 제작을 감당할 수 없는 정도에 이르렀고, 품질 향상과 무상 서비스에 따른 재정적 부담은 더 효율적인 프로세스를 요구하게 되었다.

이러한 도전을 극복하기 위해, 자동차 제조사들은 가상 디자인 시스템과 시험 시스템을 도입하고 있으며, 이러한 과정에서 분석 결과가 규정 조건을 만족하고 있는지도 검증해야 한다. 가상 시스템에서의 복잡한 물리적인 표현들을 신속하게 탐색하고 문제를 해결하기 위해서는 기본적으로 데이터 관리, 설계 표현, 모델 분석, 결과 저장 등의 주요 업무를 수반하게 되며, 이들 중 데이터 관리는 주로 데이터베이스 영역에 속한다고 볼 수 있지만 네 가지 업무 모두 파일시스템에 저장된 대용량 콘텐츠와 연관될 수밖에 없다.

1.2 금융 서비스
금융 서비스 산업에서도 시스템 간의 데이터 공유 필요성이 심각하게 증가하고 있으며, 이를 해소하기 위해 효율적으로 데이터를 공유하는 그리드 환경을 구축하는 사례가 늘고 있다. 금융 시장과 보험 통계 부서에서 널리 쓰이는 각종 분석 도구들이 이러한 애플리케이션 유형에 속하는데, 이러한 업무들은 데이터를 요구하는 전체 시스템의 수가 막대하게 증가할 수는 있으나 각각의 시스템이 요구하는 데이터 량은 적정 수준에서 머무를 수 있다. 이런 경우에는 NFS와 같이 운영체제에 내장된 기능을 통해서도 충분히 서비스가 가능할 수 있다. 그런 업무의 예로는 공유 데이터 접근이 필요하지만 데이터 처리량보다 연산 량이 많은 거래 분석, 그와 비슷한 특성의 보험 분석, 그리고 지점망 시스템 등을 들 수 있다.

그러나 각각의 단말기를 통해 요구되는 데이터 량은 많지 않으나 그런 단말기와 사용자 접점의 수가 늘어남에 따라 각각의 서비스에 대한 데이터 전송 대역폭을 확보하고 시간적 지역적 자원의 가용성을 확보할 필요성이 증가하게 되면, 결국 그리드 환경을 위한 병렬파일시스템이 필요하게 된다.

1.3 전자 설계 자동화
전자제품 및 반도체 기업들은 더 튼튼하고 세련된 전자제품을 요구하는 소비자의 요구를 만족하기 위해 지속적인 설계 환경의 도전에 직면하고 있다. 즉, 기업들은 제품 소형화, 수율 개선, 글로벌 협업 개선 그리고 통상 6개월 내지 9개월 간격의 신제품 출시를 위한 시간 단축, 엔지니어링 및 제조 비용 절감 등을 위한 난제들을 해결해야 한다.

이러한 도전들을 극복하기 위해, 기업들은 EDA(Electronic Design Automation)를 위한 컴퓨팅 시스템 용량, 설계 팀 규모, 그리고 데이터 량의 급격하고 중대한 증가를 경험하고 있다. 글로벌 설계 팀은 전세계에 퍼져있는 컴퓨팅 시스템에 분산되어 있는 대용량 데이터에 대해 고대역폭, 고가용성의 실시간 접근을 요구한다. 이러한 데이터 공유 요구를 충족하기 위해서는 클라이언트용 산업 표준 파일서비스와 데이터 저장용 병렬파일시스템을 이용하는 것이 효과적이면서도 경제적이다.

실제 환경 구축 시에는 다양한 EDA 업무 유형에 따라 최적화해야 한다. 예를 들어, 하드웨어와 소프트웨어 기능 검증 업무는 통상 수천명의 엔지니어들이 조금씩 생성한 데이터를 담은 100MB 정도의 작은 파일들을 무수히 많이 처리해야 하므로, 작은 파일 쓰기 성능과 단위 시간당 처리 회수가 중요하다. 즉, 검증 작업의 특성상 선행 결과에 따라 지속적으로 작업 재 정의와 우선 순위 변경이 일어나므로, 병목없이 정확한 데이터가 정확한 컴퓨팅 자원에 정확한 시간에 공급되도록 하는 것이 관건이다. 이에 반해, 물리적 설계 및 테이프아웃(tape-out workloads) 업무는 일반적으로 입출력 처리량보다 고성능 연산 위주이며 큰 파일들이 이용된다. 그러므로, 대형 파일 읽기/쓰기 성능과 스트리밍 입출력 성능이 좋은 스토리지로 구성하는 것이 유리하다.

1.4 통신 및 디지털 미디어
아날로그에서 디지털 콘텐츠 시대로 바뀌면서 데이터의 양과 파일의 수는 가히 폭발적으로 증가하고 있다. 오늘날 통신 및 디지털 미디어 분야의 대부분의 고객들은 10Gbps를 상회하는 데이터 입출력 성능을 필요로 하고 있고, 이들 분야는 공통적으로 다중 소스로부터 생성되는 데이터를 하나의 파일에 쓰거나, 하나의 파일에 있는 데이터를 다수의 애플리케이션이나 사용자가 읽어 들인 것과 같은 극단적인 1:N 비대칭 입출력 요구에 대해서도 항상 고성능이 확보되어야 한다.

그러나 이러한 단일 파일 성능은 백엔드에 있는 스토리지 장비에서 데이터 스트라이핑을 위해 가용한 디스크의 수에 의해 제한되므로, 아무리 고성능 장치라 하더라도 한 대의 장비로 이러한 성능 요구를 만족하기는 거의 불가능하다. 그와 같은 성능을 만족하기 위해서는 결국 하나의 파일을 최대한 많은 디스크와 컨트롤러 또는 파일 서버에 펼칠 수 있는 솔루션이 필요하게 된다.

물론 데이터를 수 많은 파일로 쪼개어 여러 개의 독립적인 파일 서비스 장비에 분산하여 처리할 수도 있다. 그런 경우에는, 각각의 파일 서비스 장비가 병목점이 되며, 단일 작업에 연관된 파일입출력 성능을 기대 수준만큼 내기 위해서는 여러 개의 장비가 다시 결합되어야 한다. 불행하게도 그런 방식은 엄청난 수의 파일 백업과 관리 측면에서 곤란을 겪게 된다. 일반적으로 그렇게 많은 파일들은 여러 개의 이름공간(namespace)으로 나뉘게 되며, 결과적으로 관리 부담과 장비 간의 입출력 수요 불균형에 의한 자원 활용률 저하 등의 부작용을 낳게 되고, 하부의 복잡한 구조가 사용자와 애플리케이션에게도 그대로 노출되어 분할된 데이터의 생성과 사용에 따른 생산성이 떨어지게 된다.

1.5 제약 산업 및 생명 과학
대부분의 제약 회사들은 각종 정부 규정을 준수하기 위해, 간혹 30년 또는 그 이상 장기간에 걸쳐, 다양한 유형의 데이터를 저장해두어야 하며, 그러한 데이터는 보통 여러 대의 파일저장 장치에 걸쳐 분산되어 있다. 이 경우 파일서비스 솔루션 디자인을 위해 가장 중요한 것은 개별 장비의 성능이나 용량보다는 각각의 장비에 있는 파일들을 어떻게 효율적으로 관리하고, 장기 아카이브 시스템과 연동하고, 재난 대응과 데이터 검색과 같은 기능을 지원할 것인가이다.

또한 생명 과학 분야에서는 유전체 정보 데이터베이스 검색, 전염병 확산 연구 등을 위해 다양한 자료의 병렬 처리가 중요하며, 클러스터 또는 그리드 환경에서 대용량 고성능 파일입출력 성능을 제공하기 위한 병렬파일시스템들이 필요하게 된다.

1.6 기타 산업 분야
이 외에도 파일 기반의 데이터 량이 급속도로 증가하고 있는 항공, 국방, 화학 및 석유, 의료 산업 분야에서도 고성능, 고가용의 파일시스템 가상화가 요구되고 있다. 양키 그룹의 2007년 보고서에 따르면 이미 전체 데이터의 65% 내지 80%가 파일 기반의 데이터이며 그 규모도 매년 50%내지 70%씩 증가하고 있다고 한다. 따라서 날로 더 거대해지는 분산 환경에서의 데이터 처리 가상화 솔루션에 대한 수요도 점차 높아질 것으로 전망된다.

2. 병렬파일시스템의 재인식
소규모 파일공유 솔루션으로는 널리 보급되어 있고 쉽게 설치할 수 있는 NAS를 들 수 있다. NAS는 관리가 용이하고, 단순한 인터페이스와 저비용의 장애 복구 기능을 제공하며 어느 정도의 성능 확장성을 보장하므로, 운영체제 수준의 NFS에 비해 관리 기능 및 성능 측면에서 우수하다고 하겠다.

그러나 이런 장점에도 불구하고 부서 단위 이상의 대규모 용량을 처리하기에는 몇 가지 제약 사항이 있다. 우선 장비 하나의 용량 한계가 곧 파일시스템의 한계가 되며, 애플리케이션이 성능 확장성을 요구할 경우 이를 만족하기가 어렵다. 또한 용량 증가를 위해 단순히 NAS 장비를 추가할 경우, 폴더 또는 디렉토리의 추가에 따른 데이터 단편화가 발생하며 장비간의 성능 분배와 활용율 균형 유지가 어렵다. 이러한 단편화는 복잡한 워크플로우나, 규정 준수 시스템, ILM 요구 등이 있을 경우 더욱 악화되며, 여러 독립적인 장비 간에 정책을 적용하고 개별 관리해야 하는 부담이 커진다.

일정 정도의 규모를 넘어서는 대용량 파일 처리가 필요한 고객들은 공유파일 솔루션을 위해 다음과 같은 사항들을 요구하게 되었다: 동적으로 용량 증가가 가능할 것, 단일화된 글로벌 콘텐츠 경로명을 제공할 것, 대역폭을 늘리고 지연 시간을 단축할 것, 데이터 생명 주기 관리가 가능할 것, 그리고 다운 시간을 최소화할 것.

결국, 과거에는 슈퍼컴퓨터와 같은 고성능 연산 시스템의 병렬처리환경에서 대용량 데이터 처리를 위한 고속의 대역폭과 고빈도의 입출력 성능을 안정적으로 제공했던 병렬파일시스템이 상용 환경에서도 중요한 가상화 솔루션으로 재인식 되기에 이르렀다.
IT 인프라의 서버 환경이 점차 분산 또는 스케일아웃 구조로 가면서 전통적인 단일 장비 위주의 공유파일시스템에서 스케일아웃 구조의 병렬파일시스템으로 진화하는 것은 어쩌면 당연하다고 하겠다.

문수영/한국IBM 딥컴퓨팅사업부 실장 ~~~~~~~~~~~

다른기사 보기

상단영역

본문영역

병렬파일시스템, 가상화의 선봉에 서다

데이터 관리 가상화의 필수 요건, 온 디맨드 비즈니스를 위한 IT 인프라의 기초

기사 댓글 0

비회원 로그인