4개 주요 경쟁 제품과 성능 대비 비용 비교…동급 대비 최대 5.5배 저렴

[아이티데일리] 클라우데라는 대표적인 글로벌 하둡(Hadoop) 배포판 벤더로, ‘클라우데라 엔터프라이즈(Cloudera Enterprise)’ 시리즈를 통해 빅데이터 분석 생태계를 리드해왔다. 최근 몇 년 사이에는 ‘클라우데라 데이터 플랫폼(CDP, Cloudera Data Platform)’을 출시하며 엔터프라이즈 데이터 통합 플랫폼 전문기업으로 변화하고 있다. 클라우데라가 제공하는 플랫폼 위에서 기업들은 다양한 소스에서 발생하는 데이터들을 통합 저장하고 관리할 수 있다.

특히 클라우드 네이티브 데이터 웨어하우스인 ‘클라우데라 데이터 웨어하우스(CDW, Cloudera Data Warehouse)’는 우수한 성능과 편리한 사용성으로 좋은 평가를 얻고 있다. 최근에는 업계를 대표하는 데이터 웨어하우스들과의 벤치마크 테스트를 통해 ‘클라우데라 데이터 웨어하우스’의 뛰어난 가성비가 알려졌다. <편집자 주>

개요

‘클라우데라 데이터 웨어하우스(CDW, Cloudera Data Warehouse)’는 사용자로 하여금 뛰어난 민첩성, 더 나은 격리 및 확장성, 더 낮은 관리 오버헤드로 분석 워크로드를 실행할 수 있도록 한다. 낮은 고정 비용과 관리 비용에 언제든 신속하게 프로비저닝 할 수 있는 클라우드 데이터 웨어하우스의 운영 비용은 사용하는 플랫폼의 가격 정책에 좌우된다. 종량제 방식으로 고성능을 제공하는 플랫폼은 더 빠른 결과물과 직접적인 비용 절감이라는 혜택을 사용자에게 제공한다.

CDW는 아파치 임팔라(Apache Impala)와 아파치 하이브(Apache Hive)의 SQL 엔진 기술을 클라우드 네이티브 기능과 결합해 확장성이 뛰어나며, 동급 최고의 가격 대비 성능을 제공한다. 맥나이트 컨설팅 그룹(McKnight Consulting Group)은 최근 CDW의 가성비를 4개의 클라우드 데이터 웨어하우스 공급사와 비교한 제3자 벤치마크 연구를 발표했다. 결과적으로, CDW는 TPC-DS 벤치마크의 전체 99개 쿼리 세트에서 가장 우수한 가성비를 보였다.

주요 DW 가성비 비교

위 차트는 CDW와 4개의 주요 경쟁 제품의 비용을 비교한 결과다. 성능 테스트는 업계 표준인 TPC Benchmark DS(TPC-DS)로 진행했으며, 30TB 규모의 99개의 쿼리를 분석 후 발생한 가격을 비교했다. 스노우플레이크(Snowflake)는 아마존 웹서비스(AWS)에서, 빅쿼리(BigQuery)는 구글 클라우드 플랫폼(GCP)에서 각각 구동됐다. 결과적으로 아마존 레드시프트(Amazon Redshift), 애저 시냅스 애널리틱스(Azure Synapse Analytics), 스노우플레이크는 CDW 대비 각각 19%, 43%, 79% 더 높은 비용을 나타냈다. 특히 빅쿼리는 CDW 대비 5.5배나 더 높은 비용을 나타내면서 CDW는 주요 경쟁 제품 대비 가장 우수한 가성비를 보였다.


클라우데라 데이터 웨어하우스(CDW) 소개

CDW는 쿠버네티스(Kubernetes) 기반의 컨테이너 아키텍처를 사용하고 아파치 임팔라 및 아파치 하이브 SQL 엔진을 기반으로 한 클라우드 네이티브 데이터 웨어하우스다. 보다 광범위한 서비스를 제공하는 클라우데라 데이터 플랫폼(CDP, Cloudera Data Platform)을 구성하는 여러 서비스 중 하나다.

CDW의 장점은 대부분 기본 SQL 엔진의 높은 성능에 비롯된다. CDW는 아파치 임팔라 또는 하이브 엔진에서 쿼리 실행을 지원하며, 벤치마크 테스트에서는 임팔라 엔진을 사용했다. 임팔라는 높은 성능 및 병행처리, 상호작용 쿼리의 짧은 지연 속도, LLVM 기반의 동적 코드 생성을 통한 C++ 백엔드의 CPU 효율성으로 오랜 명성을 갖고 있다. 임팔라는 높은 성능을 보장하기 위해 지속적인 혁신을 이루고 있다. 최근에는 아래와 같은 최적화를 완료했다.

■ 새로운 다중 스레딩 모델
■ 원격 읽기 최적화
  - IMPALA-8341: 원격 읽기용 데이터 캐시
  - IMPALA-8428: S3에서 파일 핸들 캐싱 지원 추가
  - IMPALA-7928: 원격 스캔 범위의 일관된 배치
  - IMPALA-8690: LIRS 캐시 제거 알고리즘 추가
■ 임팔라 KRPC 사용
■ 일반적인 백엔드 개선 사항
  - IMPALA-5444: 비동기 코드 생성
  - IMPALA-9655: HDFS 스캔을 위한 동적 노드 내 밸런싱
  - 파켓 페이지 인덱스
■ 계획 개선
  - IMPALA-10099: 설정 작업에서 DISTINCT 후입 선출
  - IMPALA-9983: 분석 정렬 연산자에 대한 후입 선출 제한
  - IMPALA-1270: 세미 조인에 고유한 집계 추가
  - IMPALA-9183: 결합 술어를 결합 정규형으로 변환

CDW는 코어 SQL 엔진에서 이러한 모든 최적화의 이점을 누리면서 다음과 같은 추가적인 클라우드 네이티브 기능 세트와 결합해 벤치마크에서 동급 최고의 성능을 증명했다.

■ 빠른 클러스터 프로비저닝을 위한 쿠버네티스 컨테이너 구축
■ 오토스케일링 등 탄력적 리소스 관리로 워크로드 요구 사항에 따른 리소스 크기 조정
■ 로컬 캐싱을 통한 읽기, 쓰기 경로 최적화로 로컬 저장소 로드 없이 워크로드 직접 실행
■ 사용자 정의 조정 없이도 ‘즉시 사용 가능한’ 성능의 기본 구성
■ 테넌트 간 경합을 방지하기 위한 컴퓨팅 격리

강력한 성능 외에도 CDW에는 다음과 같은 매력적인 여러가지 차별화 요소를 갖고 있다.

■ 온프레미스, 프라이빗/퍼블릭 클라우드 구축 경험으로 하이브리드 클라우드 지원
■ 컴퓨팅과 스토리지를 완전히 분리하고 완전히 개방된 표준 데이터 형식(Apache Parquet 및 Apache ORC)을 사용해 클라우드 개체 저장소의 데이터에 대한 직접 쿼리를 실행
■ CDP의 일부인 CDW는 CDP의 SDX(Shared Data Experience)에서 관리하는 중앙 집중식 보안 및 거버넌스 모델을 적용해 일관된 보안 및 메타데이터 아키텍처를 제공


벤치마크 테스트 상세 설명

벤치마크의 세부 사항은 보고서에 자세히 설명되어 있으며, 핵심 사항은 다음과 같다.

■ 업계 표준 TPC-DS 벤치마크에서 파생된 데이터 세트 및 쿼리 사용
■ 데이터의 크기는 30TB로 TPC의 표준 데이터 생성 도구를 사용해 생성
■ 데이터에는 TPC-DS 2.13을 만족하는 총 99개의 쿼리가 포함되며, 그 중 4개(쿼리 14, 23, 24, 39)는 두 파트로 나뉘어 실질적으로 103개의 쿼리를 포함
■ 각 공급사의 클러스터 구성은 가능한 범위 내에서 유사한 시간당 비용을 달성하도록 선택(CDW 테스트에는 64개의 노드를 사용, 타사의 정보는 보고서에서 찾을 수 있음)
■ 각 공급사 마다 103개 쿼리에 대한 3번의 테스트를 실행(보고서에 기재된 결과는 3번의 실행 중 가장 빠른 실행의 총 실행 비용)
■ CDW 테스트의 경우 벤치마크별 조정 없이 진행(기본 설정으로 64노드 지정)
■ CDW 테스트는 S3에서 쿼리 실행 전 로컬 데이터 로드 단계 불필요(아마존 레드시프트는 명시적 데이터 로드 단계 필요하지만 해당 소요 시간은 테스트 시간에 포함하지 않음)


상세 결과

개요에 소개된 차트는 CDW가 전체 99개 쿼리 워크로드를 실행하는 데 가장 낮은 총 비용을 갖는다는 사실을 강조했다. 벤치마크 개별 쿼리에 대한 결과에서도 흥미로운 요소를 발견할 수 있다. 보고서는 각 공급업체에 대한 쿼리 별 비용을 설명하는 자료를 포함한다.

CDW 쿼리별 실행 시간 및 비용
CDW 쿼리별 실행 시간 및 비용

개별 쿼리 실행 시간과 비용을 확인할 수 있는 위 차트를 통해 CDW가 벤치마크에서 대부분의 쿼리에 대해 상호작용 성능을 제공하며 쿼리의 3분의 2가 15초 이내에 완료된다는 것을 확인할 수 있다. (CDW의 시간당 클러스터 비용은 123.26 달러로 15초는 50센트에 해당함)

주요 DW 50센트 미만으로 처리된 쿼리 비율 비교
주요 DW 50센트 미만으로 처리된 쿼리 비율 비교

위 차트와 같이 개별 쿼리 비용이 50센트 미만으로 실행되는 쿼리 비율을 비교하면, 어떤 공급사가 쿼리당 비용을 일관되게 낮춰 높은 가성비를 구현하려 하는지 확인할 수 있다.

주요 DW 최대 비용 쿼리 비교
주요 DW 최대 비용 쿼리 비교

마지막으로, 가장 긴 쿼리 실행 시간으로 가장 높은 비용이 발생한 쿼리를 비교해 각 공급사의 쿼리 실행 능력을 살펴볼 수 있다. CDW는 쿼리를 빠른 시간안에 실행하는 능력과 어려운 쿼리 실행에서도 빠른 처리속도를 제공한다.


요약

성능은 클라우드 데이터 웨어하우스를 선택할 때 고려해야 할 중요한 속성이다. 운영 비용은 실행 시간과 비례하기 때문에, 고성능 플랫폼 일수록 더 빠른 결과와 직접적 비용 절감이라는 두 마리 토끼를 모두 제공한다. 클라우드 네이티브 아키텍처에 최적화된 고성능의 아파치 임팔라와 아파치 하이브를 기반으로 온프레미스와 프라이빗/퍼블릭 클라우드 구축을 모두 지원하는 CDW는 이번 벤치마크 보고서를 통해 주요 경쟁 제품 대비 동급 최고의 가성비를 증명했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지