고강혁 퀀텀코리아 부장

▲ 고강혁 퀀텀코리아 부장

[컴퓨터월드] 데이터가 디지털 세계를 주도하고 있다. 우리는 빠르게 진화하는 기술과 빅데이터 전망에 대한 수많은 글들을 봐왔다. 특히 데이터 용량은 기하급수적으로 증가하고 있으며 이는 사회 각 분야에 엄청난 영향을 끼치고 있다.

IDC는 2025년까지 전 세계 데이터가 163조 기가바이트(GB)에 이를 것이라고 전망했다. 운송에서부터 제조, 의료, 소비자 제품, 금융 서비스, 연구 개발에 이르기까지 모든 산업 분야에서 아처럼 증가하는 데이터를 활용할 수 있는 새로운 방법을 모색하고 있다.

과학자들은 데이터가 통찰력, 발견, 혁신을 촉진시키는 연료라는 점을 잘 알고 있다. 예를 들어, 암 연구소(Institute of Cancer Research, 이하 ICR)는 빅데이터 분석이 암 치료제 발견에 중요한 역할을 한다고 밝혔다. 과학자들은 환자 샘플, 게놈 시퀀싱, 의학 이미지, 실험실 결과, 실험 데이터, 약리학 데이터 및 기타 여러 출처에서 방대한 양의 데이터를 분석하고 있다.

ICR의 데이터 과학 책임자인 비산 알-라지카니(Bissan Al-Lazikani) 박사는 더 많은 데이터가 더 유용하다면서 “우리가 수집하는 데이터가 많을수록, 그리고 우리가 프로파일링하는 환자가 많을수록 컴퓨터 알고리즘은 더 스마트해지며, 암 치료제 발견에도 더 많은 도움이 된다”고 말했다.


대용량 데이터의 급증

DNA 시퀀싱 솔루션의 선두 제조업체인 일루미나(Illumina)에 의하면, 2006년 인간 게놈 시퀀싱에 30만 달러가 들었다고 한다. 오늘날, 하이엔드 시퀀서를 사용하면 비용이 1,000달러로 낮아지고 새로운 세대의 머신을 사용하면 결국 100달러까지 가격이 낮아진다.

게놈 시퀀싱의 가격이 낮아지고 속도가 빨라짐에 따라, 연구원들은 더 많은 시퀀싱 작업을 수행하게 되고 더 많은 데이터가 생성되고 있다. 예를 들어, 1998년에 설립된 비영리 단체인 스위스 생물 정보학 연구소(이하 SIB)는 스위스 선두의 연구기관으로 60명의 서비스 그룹 및 생물정보학 연구원, 스위스의 고등 교육 및 연구 기관에서 온 약 700명의 과학자들이 소속되어 있다. 이 연구소는 전산 방법론 및 대규모 데이터 분석을 게노믹스, 프로테오믹스, 기타 바이오인포매틱 연구에 적용하고 있다.

SIB는 6개의 서로 다른 시퀀싱 센터에서 진행 중인 연구팀(현재 약 300개)의 프로젝트를 지원한다. 이 조직은 일주일에 약 5개의 개별 프로젝트를 처리하며, 한 주에 30테라바이트(TB)까지 생성되는 시퀀싱 작업으로 데이터는 매우 빠르게 증가하고 있다.

또 다른 예로, 괴팅겐(Göttingen) 대학과 막스플랑크협회(Max Planck Society)가 공유하는 컴퓨팅 센터인 GWDG(Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen)에서도 데이터 용량이 꾸준히 증가하고 있다. 현재 이 센터는 연구 및 교육에 종사하는 약 40,000명의 사용자를 지원하고, 수십억 개의 파일을 관리하며, 약 7페타바이트(PB)의 데이터를 관리하고 있다.

연구 기관의 경우, 더 많은 데이터를 수집·분석할 수 있는 능력은 획기적인 발견에 더 필수적인 요소가 되고 있다. 그러나 대용량 데이터를 처리하는 것은 쉬운 일이 아니다.

 

페타바이트급 데이터 운영

데이터는 유동적이다. 그리고 라이프 사이클이 있다. 데이터는 성장해가며, 관리되어야 한다. 일단 데이터가 생성되면, 저장되어야 하고, 컴퓨테이션 분석 및 협업을 위해 액세스되어야 하며, 향후 사용을 위해 보관되고, 유실 위험으로부터 모든 단계별로 보호받아야 한다. 연구 기관의 과학 데이터 용량이 늘어남에 따라, 이러한 작업은 더욱 어려워진다.

연구에서 ‘고성능’은 매우 중요한 요소이다. 보다 빠른 컴퓨팅 성능을 통해 더 많은 데이터를 더 짧은 시간에 분석할 수 있고, 연구 프로세스를 가속화시킬 수 있기 때문이다. 스토리지 인프라는 컴퓨팅 환경의 성능에 중요한 역할을 한다. 고성능을 위해서는 병목현상 없이 빠른 I/O 작업이 가능한 인프라가 필요하다. 스토리지 용량이 멀티 페타바이트 수준에 이르면, 고성능 액세스를 유지하는 것이 어려워진다.

연구 기관에서 또 다른 필수적인 요소는 ‘협업’이다. 기술 발전으로 인해 수백 명의 과학자들이 공동의 프로젝트를 수행하고 정보를 공유하고 있다. 그러나 모든 과학자들이 동일한 클라이언트 운영 플랫폼을 사용하거나, 같은 위치에 거주할 수는 없다. 어떤 이는 리눅스(Linux)를 사용하고, 또 어떤 이는 맥(Mac) OS 또는 마이크로소프트 윈도우(Microsoft Windows)를 사용할 수 있다.

일부는 SAN을 통해 스토리지 인프라에 연결할 수 있고, 다른 일부는 LAN 또는 NAS를 통해 연결할 수도 있다. 데이터 파일 및 연구 결과에 대한 액세스를 공유하기 위해서는 데이터 파일에 대한 동시 액세스를 지원하고, 여러 액세스 방법 및 운영 체제를 지원하는 스토리지 인프라가 필요하다.

스토리지 크기가 커지면 데이터 백업 절차도 바뀌어야 한다. 데이터가 PB급 수준에 이르면, 기존의 데이터 백업 작업은 더 이상 이 같은 용량을 처리할 수 없다. 그러면서도 여전히 데이터는 하드웨어 오류로부터 보호되어야 한다. 데이터 복제를 목적으로 보조 스토리지 어레이를 설치하는 것은 데이터를 백업하는 한 가지 방법이다. 그러나 이는 비용이 많이 든다는 단점이 있다.


다양한 스토리지 계층

증가하는 대용량 과학 데이터 처리를 위한 스토리지 인프라를 구축하기 위해 연구 기관은 서로 다른 스토리지 기술을 혼합할 수 있는 방법을 찾아야 한다. 고성능 컴퓨팅 요구사항을 충족시키기 위해서는 플래시 또는 고속 디스크와 같은 고성능 스토리지가 필요하다. 그러나 데이터의 일정 부분만 자주 사용하는데도, 전부를 고성능 미디어에 저장해야 한다. 자주 사용하지 않는 파일을 동일한 미디어에 저장하는 것은 불필요하고 비용도 많이 든다.

보다 효과적인 방법은 다계층 스토리지를 구축하는 것이다. 다계층 환경에서 모든 스토리지 용량은 다양한 형태의 미디어로 나뉘게 된다. 자주 사용하는 파일은 고성능 디스크 또는 플래시 스토리지에 저장하며, 이 파일들은 액티브 프로젝트의 일부이거나 컴퓨테이션 분석을 수행하는 파일이다. 나머지는 테이프 또는 클라우드 스토리지로 구성된다.

어떤 연구 기관들은 이러한 접근 방식을 성공적으로 실현했다. 예를 들어, GWDG는 다계층 스토리지 인프라를 사용하고 있다. 조직에서 관리하는 7PB의 데이터 중에서 2.5PB만 디스크에 저장하고 나머지 4.5PB는 테이프에 저장한다. 테이프 스토리지는 디스크보다 경제적이기 때문에 GWDG는 저렴한 비용으로 필요한 성능과 용량을 활용할 수 있다.


다계층 스토리지 환경에서의 데이터 관리

다계층 스토리지 환경에서 가장 큰 이점을 얻을 수 있는 핵심 요소는 데이터 관리 프로세스이다. 앞서 언급한 것처럼, 데이터에는 라이프사이클이 있다. 평균적으로 저장된 데이터 파일의 약 70~80%는 자주 사용되지 않는다. 파일이 오래되거나 비활성 상태가 되면 고가의 스토리지에서 저렴한 미디어로 옮겨 보관해야 한다.

복잡한 스토리지 환경에서의 데이터 관리는 번거로운 일이다. 다행히 데이터 관리 프로세스를 자동화할 수 있다. 파일 레벨에서 정책을 수립할 수 있으며, 연구원들의 개입 없이도 파일이 아카이브로 이동될 수 있다. 이 방법으로 데이터를 관리하면 데이터 파일은 저장 위치에 관계없이 연구원의 관점에서 동일하게 보여진다. 결과적으로 필요할 때 파일을 볼 수 있고 액세스할 수 있게 된다.

다계층 스토리지 환경에서의 데이터 관리는 데이터가 보호되도록 보장한다. 여러 계층을 활용하여 중요한 데이터 세트를 다른 디스크 어레이나 테이프 또는 클라우드와 같은 다른 미디어 포맷에 복사할 수 있도록 정책을 수립할 수 있다. 이렇게 하면 데이터가 보호되기 때문에 하드웨어 장애 발생 시에 신속하게 복구할 수 있으며, 연구 프로세스에 영향을 미치지 않는다.


고성장 환경에서 데이터를 사용할 수 있도록 유지

과학 데이터가 많을수록 연구원들이 새로운 사실을 발견하는 데 더 많은 도움이 된다. 그러나 더 많은 데이터가 생성되고 데이터 스토리지 환경의 규모가 커질수록, 연구 기관들은 가장 경제적인 방법으로 최상의 성능을 발휘하기 위해 스토리지 인프라의 성장을 어떻게 관리해야 할지 고민해 봐야 한다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지