‘아마존 레드시프트’ 및 엘라스틱 서치 위한 ‘웜 스토리지’ 제품군 공개

[아이티데일리] 아마존웹서비스(AWS)는 ‘AWS 리인벤트 2019’에서 방대한 데이터를 간편하게 처리할 수 있도록 지원하는 최신 분석 기술들을 6일 발표했다고 밝혔다.

AWS는 대규모 데이터 스토리지, 데이터 웨어하우스, 운영 데이터베이스 처리 시 대폭 향상된 쿼리 성능과 유연성을 제공하는 최신 ‘레드시프트(Redshift)’ 기술을 선보이고, 또 아마존 엘라스틱 서치 서비스를 위한 고도로 확장가능하고 비용절감효과가 있는 혁신적인 웜(Warm) 스토리지 제품군을 새롭게 공개했다. AWS가 공개한 데이터 분석 기술은 다음과 같다.


‘아마존 레드시프트 RA3 인스턴스’

‘아마존 레드시프트 RA3(Amazon Redshift RA3) 인스턴스’는 컴퓨트와 스토리지의 개별적 확장을 통해 데이터 웨어하우스 최적화를 가능하게 해준다. ‘아마존 레드시프트 RA3 인스턴스’ 사용 고객은 데이터 웨어하우스 워크로드의 성능에 따라 인스턴스 물량을 결정하고 관리형 스토리지는 사용량에 따라 비용을 지불하게 된다.

레드시프트 관리형 스토리지는 고속 로컬 스토리지를 위해 아마존 레드시프트 RA3 인스턴스에서 대용량, 고성능 SSD를 사용하고, 장기적이고 견고한 스토리지를 위해 아마존 S3를 사용한다. 인스턴스 데이터가 대형 로컬 스토리지 용량을 초과하면, 레드시프트 관리형 스토리지는 초과 용량을 아마존 S3에 자동으로 오프로드한다.

즉, 미사용 분에 대한 비용 낭비가 없다. 고 스토리지 용량, 저 컴퓨트 용량의 경우 인스턴스 추가나 추가 비용 지불 없이 데이터 웨어하우스 스토리지 용량을 자동 확장할 수 있다. 레드시프트 관리형 스토리지는 다양한 관리 기술을 이용해 데이터를 효과적으로 아마존 S3에 오프로드하거나 회수할 수 있게 한다.

또한, ‘AWS 니트로 시스템’을 기반으로 구축돼, 대역폭이 커서 데이터 저장 및 회수 시간이 최소화된다. 관리형 스토리지 기능이 탑재된 최신 아마존 레드시프트 RA3 인스턴스의 이와 같은 성능들은 타 클라우드 데이터 웨어하우스 대비 3배 빠른 성능을 제공하고, 덴스 스토리지 인스턴스를 사용하는 아마존 레드시프트 사용자들은 같은 비용으로 2배 빠른 성능과 2배 큰 스토리지 용량을 사용할 수 있다. ‘RA3 16xlarge 인스턴스’는 6일부터 시판되는데, PB급 데이터를 지원하고, 내년 초부터 ‘RA3 4xlarge 인스턴스’도 출시된다.


‘아마존 레드시프트용 아쿠아’

‘아마존 레드시프트용 아쿠아(AQUA)’는 아마존 레드시프트를 위한 새로운 분산형 하드웨어 가속 캐시로 스케일이 다른 데이터 증가 속도에 발맞춰 성능과 혁신 면에서 새로운 차원의 솔루션을 제공한다. ‘아쿠아’는 스토리지 레이어에 컴퓨트를 탑재해 데이터가 이 둘 사이를 거치지 않아도 돼 레드시프트가 타 클라우드 데이터 웨어하우스 대비 10배 빠른 속도로 작동할 수 있게 한다.

특히, ‘아쿠아’는 아마존 S3상에 구현된 대규모 고속 캐시 아키텍처로, 많은 노드의 데이터를 동시에 확장하고 처리할 수 있다. 각 노드는 데이터 압축, 암호화, 데이터 처리(필터링, 집계 포함)을 획기적으로 가속화하는 AWS 분석 프로세서로 구성돼 있다. 이 새로운 아키텍처는 기존 클라우드 데이터 웨어하우스 보다 훨씬 더 빠르게 쿼리를 실행해 로우 데이터(raw data)를 직접 쿼리할 수 있어, 최신 대시보드를 제공하고, 개발 시간을 단축하며, 유지보수를 쉽게 할 수 있게 한다.

‘아쿠아’로 구현된 아마존 레드시프트는 현재의 아마존 레드시프트 버전과 100% 호환 가능해 기존 데이터 웨어하우스를 코드 변경 없이 마이그레이션 할 수 있다. ‘아쿠아’는 새로운 차원의 분석 성능 혁신을 새로운 규모의 데이터와 함께 제공하며, 2020년 중반 출시될 예정이다.


‘아마존 레드시프트 데이트 레이크 엑스포트’

‘아마존 레드시프트 데이터레이크 엑스포트’는 고객이 데이터를 분석에 최적화된 오픈 데이터 포맷(아파치 파케이)으로 아마존 레드시프트에서 아마존 S3로 엑스포트 하도록 지원한다. 고객들은 이제 아마존 레드시프트에서 실행한 쿼리 결과를 자신의 데이터레이크에 오픈 포맷으로 저장해, 데이터를 아마존 세이지메이커, 아마존 아테나, 아마존 EMR 등과 같은 타 분석 서비스와 함께 분석할 수 있다.


‘아마존 레드시프트 페더레이티드 쿼리’

‘아마존 레드시프트 페더레이티드 쿼리’는 고객들이 아마존 레드시프트 데이터 웨어하우스, 아마존 S3 데이터레이크, 아마존 RDS, 아마존 오로라(PostgreSQL) 운영데이터베이스 전반의 라이브 데이터에 대해 아마존 레드시프트로 쿼리를 실행할 수 있는 기능을 제공한다. 고객들은 익숙한 SQL 명령어를 사용해 다양한 데이터 저장소의 데이터를 통합할 수 있어 애플리케이션 개발 과정을 단순화할 수 있다.

이로써 ‘아마존 레드시프트 페더레이티드 쿼리’를 통해 운영데이터베이스에서 시의적절한 최신 데이터를 추출해 향상된 인사이트와 결정을 도출할 수 있다. 최상의 성능을 위해서, 레드시프트 쿼리 옵티마이저(optimizer)가 최대한 많은 작업을 기본 데이터베이스에 지능적으로 분배한다.


‘아마존 울트라웜’

AWS는 아마존 엘라스틱서치 서비스에 활용될 수 있는 새로운 스토리지 제품군인 ‘울트라웜(UltraWarm)’을 개발했다. 엘라스틱서치 사용 고객은 웜 스토리지 제품군에 방대한 양의 데이터를 비용 효율적인 방식으로 저장하고 기존의 엘라스틱서치가 제공했던 빠르고 인터랙티브한(interactive) 경험도 누릴 수 있다.

‘울트라웜’은 자주 사용되는 데이터에는 분산 캐시를 제공하는 한편 고급 배치(placement) 기술을 통해 활용 빈도가 낮은 데이터 블록을 파악해 캐시 바깥의 아마존 S3으로 오프로드 한다. 또한 ‘울트라웜’은 고성능 EC2 인스턴스를 사용해 S3에 저장된 데이터와 상호작용하며 경쟁사의 웜 제품군 솔루션 대비 50% 빠른 쿼리 실행 속도를 제공할 뿐 아니라 고객이 로그 데이터를 사용할 때 동일한 수준의 인터랙티브한 분석 경험을 제공한다.

‘울트라웜’은 기존 엘라스틱서치 대비 동일한 양의 데이터를 저장할 때 최대 90%의 비용 절감 효과가 있으며, 타사의 관리형 엘라스틱서치 제품에 활용되는 웜 제품군 스토리지 대비 80% 낮은 가격으로 제공된다. ‘울트라웜’ 사용 고객은 최대 3PB의 로그 데이터를 단일 아마존 엘라스틱서치 서비스 클러스터에서 관리할 수 있으며, 다수의 클러스터에서 쿼리할 수 있는 역량을 활용해 현재 및 과거 로그 데이터를 크기에 상관없이 효과적으로 보관해 추후 인터랙티브 운영 분석이나 시각화에 활용할 수 있다.

라주 굴라바니(Raju Gulabani) AWS 데이터베이스 서비스 부문 부사장은 “고객들은 PB나 심지어 EB에 달하는 데이터를 주기적으로 처리해야하는데 기존 분석 시스템으로는 이와 같이 방대한 양의 데이터를 처리할 수 없다. 고객들은 데이터 웨어하우스와 데이터레이크 전반에 위치한 로우 데이터를 빠르게 분석하고, 비즈니스 운영에 도움을 줄 수 있는 정보를 보존하기 위해 방대한 양의 로그 데이터를 비용 효율적으로 다루고 싶어 한다”며 “AWS는 고객이 이 모든 것들을 구현하고, 방대한 데이터도 부담 없이 처리할 수 있게 지원할 것”이라고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지