10.27
주요뉴스
뉴스홈 > 칼럼
[기고] 빅데이터 시대, 현대적 데이터 분석 인프라가 곧 기업의 경쟁력배성호 퓨어스토리지코리아 지사장

[아이티데일리] 빅데이터의 등장은 가히 혁명이라고 일컬어질 정도로 생활과 산업 전반을 빠르게 변화시키고 있다. 스마트폰을 비롯한 수많은 장치와 센서들이 실시간으로 데이터를 수집하고 있으며 방대한 데이터 속에서 발견된 새로운 지식들은 의료, 교통, 금융 등 우리 삶의 모든 분야를 획기적으로 변화시키고 있다.

   
▲ 배성호 퓨어스토리지코리아 지사장

이와 같은 변화는 여러 대의 컴퓨터를 하나로 묶어 빅데이터를 처리하는 기술, ‘하둡(Hadoop)’의 등장으로 시작됐다. 하둡 기술이 발전함에 따라 2000년대에는 여러 하둡을 하나의 클러스터로 묶은 ‘데이터 레이크(Data Lake)’를 통해 데이터를 활용하고자 하는 기업들이 생겨났지만 기존 네트워크 및 스토리지 기술의 한계로 많은 기업들이 데이터를 활용하지 못하고 ‘데이터의 늪(Data Swamp)’에 빠지는 경우가 종종 발생했다.

그러나 오늘날에는 스토리지 기술의 발달과 클라우드 환경의 부상, 그리고 인공지능(AI) 기술의 현실화로 빅데이터 분석 환경이 커다란 전환점을 맞이하고 있다. 빅데이터 시대를 주도하는 각 트렌드와 함께 현대적인 데이터 분석을 성공적으로 수행하기 위해 필수적인 스토리지 플랫폼의 특징에 대해 살펴보자.


데이터에 대한 접근, 관리 및 이용 방식을 혁신한 올플래시 스토리지

하드디스크드라이브(HDD) 기반의 스토리지에 비해 월등한 데이터 처리 속도 및 저장 능력을 자랑하는 올플래시 스토리지는 기업의 데이터 관리 및 활용 방식을 획기적으로 변화시키고 있다. 올플래시 스토리지로 인한 성능 향상으로 방대한 데이터를 위한 로컬 데이터 스토리지의 필요성이 크게 줄어든 것이다.

이와 더불어 컴퓨팅 엔진과 스토리지의 분리를 통해 플래시 스토리지의 경제적인 이점을 극대화할 수 있게 됐다. 컴퓨팅과 스토리지가 항상 같이 연결돼 확장될 필요는 없으며, 이는 열차에 차량이 늘어날 때마다 엔진을 추가로 더 달아야 할 필요가 없는 것과 같다. 필요에 따라 저장 공간을 자유롭게 증설하고, 분산된 컴퓨팅 리소스로 데이터를 빠르게 처리할 수 있는 플랫폼은 빅데이터 분석을 위한 최적의 성능을 제공한다.

퓨어스토리지는 이와 같이 컴퓨팅과 스토리지 리소스의 효과적인 운영을 위해 설계된 올플래시 스토리지, ‘플래시블레이드(FlashBlade)’를 통해 기업들의 데이터 혁신을 지원하고 있다. 플래시블레이드를 활용할 경우 데이터 레이크, 데이터웨어하우스, 스트리밍 애널리틱스 및 인공지능 클러스터를 하나의 데이터 허브에 통합할 수 있어 데이터 사일로로 인한 복잡성을 줄이고 데이터를 보다 원활하게 공유할 수 있다.


클라우드의 비용과 복잡성 문제를 해결한 구독형 스토리지 서비스

한편, 기술의 발전과 함께 가상의 서버를 통해 물리적인 저장 공간의 한계성을 뛰어넘는 클라우드 서비스가 새롭게 등장하며 많은 각광을 받고 있다. 하지만 ‘클라우드 우선(cloud-first)’ 전략을 채택한 많은 기업들이 데이터의 양에 따라 급격하게 증가하는 비용의 문제와 운영의 복잡성으로 인해 예상치 못한 어려움을 겪고 있다. 이와 동시에 급변하는 비즈니스 환경에 맞춰 IT 인프라를 유연하게 확장하기 위해서는 구축 초기 단계부터 비용과 간소성을 고려한 아키텍처를 도입하는 것이 필요하다.

이에 퓨어스토리지는 손쉬운 구독을 통해 다양한 스토리지 서비스를 클라우드에 구축하고 사용한만큼만 비용을 청구하는 ‘서비스형 퓨어(Pure as-a-Service)’ 모델을 제공하고 있다. 출시 1여년만에 매출이 37% 증가할 만큼 많은 기업들의 관심을 받고 있는 서비스형 퓨어는 하나의 합리적인 구독 프로그램으로 멀티 및 하이브리드 클라우드 등 여러 환경을 통합적으로 관리할 수 있는 기능을 제공한다.


인공지능과 머신러닝의 발전을 가속하는 통합 데이터 분석 플랫폼

그동안 실험적 단계에 머물러 있던 인공지능 및 머신러닝 분야가 점차 현실로 다가오며 이에 따른 데이터 스토리지 및 분석 환경도 변화하고 있다. 머신러닝은 아주 높은 데이터 정확성을 필요로 하며, 머신러닝의 정확성을 위해서는 많은 양의 데이터가 필요하다. 동시에 정확성 없는 예측 분석은 기업에서 원하는 비즈니스적 이점을 제공하지 못한다. 이는 효과적인 학습을 위해서 머신러닝 기능과 모델 훈련을 데이터가 있는 곳으로 가져와야 한다는 것을 시사한다.

일반적으로 데이터 분석은 데이터 웨어하우징과 인공지능의 중간 지점에 있다고 할 수 있는데, 이는 대부분의 환경에서 사일로를 만들어 낸다. 맞춤형 분석, 인공지능 및 인프라스트럭처 등 각 사일로에 걸쳐 데이터의 중복이 발생해 복잡성과 비용 증가의 문제도 발생시킨다. 또한, 지금까지의 데이터 파이프라인은 각각 고유의 워크로드 프로파일(workload profile)을 가지고 있어 데이터의 이동이 어려웠으며 성능이 저하되는 문제를 지니고 있었다. 하나의 플랫폼으로 다양한 성능을 지원하기 위해서는 다양한 애플리케이션이 필요했기 때문에, 애플리케이션 벤더들이 기업에게 맞춤형 DAS 환경을 권했던 이유이기도 하다.

하지만 이제는 컴퓨팅과 스토리지가 조금씩 분리되고 있다. 데이터의 유형 또는 크기와 관계없이 병렬 구조를 기반으로 방대한 처리량 및 짧은 대기시간을 제공하도록 설계된 플래시블레이드는 인공지능에 최적화된 성능을 제공하고, 기업이 경험하는 있는 현대적 데이터 경험을 개선해 나가고 있다. 실례로 퓨어스토리지는 플래시블레이드와 빅데이터 분석 솔루션인 버티카(Vertica)와의 협력 모델을 통해 데이터 사일로를 방지하고 자율주행차 및 의료 등 다양한 분야의 타임-투-인사이트를 가속화하는 성과를 달성했다.

빅데이터를 중심으로 전개될 앞으로의 시대는 데이터를 가장 효율적으로 분석 및 활용할 수 있는 기업에게 주도권이 주어질 것이다. 데이터의 잠재력을 현실화하고 비즈니스 생산성 및 경쟁력을 향상하기 위해 기업은 현대적인 데이터 분석을 위한 올플래시 성능, 데이터 스토리지를 위한 경제적 클라우드 모델, 인공지능에 최적화된 성능을 필수적으로 확보해야 할 것이다.

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오