[클라우드 데이터 플랫폼①] 데이터 관리 역량 부족 및 소비 패턴 변화 요인
‘클라우드 기반 데이터 플랫폼’으로 쉽고 빠르게 데이터 분석
[아이티데일리] 데이터 활용 없이 기업의 경쟁력 향상은 불가능하다. 이는 곧 기업의 성장은 상당 부분 데이터 활용에 달려있다는 것을 의미한다. 기업들이 데이터 분석 환경을 갖추기 위해 IT자원에 투자를 아끼지 않는 것도 데이터 활용을 통한 경쟁력 향상을 위해서다.
최근 들어 기업 경쟁력과 직결되는 데이터 분석 플랫폼의 인프라가 바뀌고 있다. 그동안 직접 서버를 구매해 데이터 분석 환경을 구축하던 형태에서 벗어나 클라우드 인프라 상에서 데이터 분석할 수 있는 플랫폼을 구현하기 시작한 것이다. 이러한 수요에 대응하고자 클라우드 서비스 제공사(CSP)와 클라우데라와 같은 플랫폼 기업들은 클라우드 기반으로 데이터 플랫폼을 제공하거나, 각 서비스들을 모아 데이터 분석 프로세스를 만들어주는데 집중하고 있다. 1부에서는 AWS, 2부에서는 네이버클라우드, 3부에서는 구글 클라우드와 MS, 클라우데라, 클루커스의 전략 및 솔루션을 게재한다.
[클라우드 데이터 플랫폼①] 데이터 관리 역량 부족 및 소비 패턴 변화
[클라우드 데이터 플랫폼②] 4가지 분석 과정…다양한 인프라 환경 연동
[클라우드 데이터 플랫폼③] 구글 클라우드, MS, 클라우데라, 클루커스 전략 및 솔루션
데이터 관리 역량 부족 및 소비 패턴 변화 요인
클라우드 기반 데이터 플랫폼이 주목받고 있다. 클라우드 기반 데이터 플랫폼이 부상하고 있는 이유는 편리성 외에도 데이터 양과 종류가 늘어나면서 겪는 관리 역량 부족 문제를 해결할 수 있고, 정형화된 환경이 아닌 데이터 소비 패턴의 변화에 대응할 수 있으며, 실시간으로 데이터를 활용할 수 있기 때문이다.
먼저 클라우드 기반 데이터 플랫폼은 환경을 구성할 때 편의성이 높다. 그동안 데이터 플랫폼은 온프레미스 환경으로 구축해 사용됐다. 이 경우 매우 복잡한 절차를 거쳐야 했다. 비정형 데이터를 분석해야 할 경우 ‘하둡’, 검색 엔진으로는 ‘엘라스틱 서치’, DB는 ‘몽고DB’ 등 데이터 분석에 필요한 모든 환경들을 하나하나 직접 설치하고 구성해야 했다. 또 플랫폼을 만들 때 데이터양에 따른 사이즈도 고려해, 최소 수십TB(테라바이트)에서 수십PB(페타바이트)까지 디스크와 메모리 등 스토리지 환경도 구축해야 했다. 특히 컴퓨팅 노드 환경을 구성하는 난이도 높은 클러스터링 작업도 데이터 분석을 위해 필요했다.
온프레미스 환경으로 데이터 플랫폼을 구축할 경우 이러한 어려운 작업을 거쳐야 하는 것 외에도 많은 비용과 시간이 필요했다. 시스템 규모에 따라 차이가 있지만 평균 6개월에서 1년 정도가 소요된다.
그러나 클라우드 기반 데이터 플랫폼을 이용할 경우 복잡할 뿐 아니라 많은 비용과 시간이 필요한 작업들을 콘솔에서 클릭만으로 쉽게 구성할 수 있다. 스토리지 환경과 DB 그리고 ETL(추출·변환·적재, Extract·Transform·Load) 등을 클릭만으로 선택해 서비스를 받을 수 있는 것이다. 수십 분 혹은 수 시간 안에 클라우드 콘솔을 통해 클라우드 기반 데이터 플랫폼 환경을 만들어낼 수 있다.
클라우드 데이터 플랫폼은 데이터 양과 종류에 상관없이 쉽게 관리할 수 있다. 최근 사물인터넷(IoT)나 에지단에서 수집되는 데이터의 양이 증가하고, 그 종류도 다양해지고 있다. 실제 기업들은 사진, 동영상, 텍스트, 음성 등 다양한 데이터를 구조화해 분석·활용해야 하지만, 각종 규제와 보안 문제 등으로 쉽지 않은 상황이다.
클라우드를 이용할 경우 이런 문제를 상당부분 해결할 수 있다. 클라우드 기반에서 관리하고 분석?활용할 경우 데이터를 클라우드 데이터 플랫폼 내 수집 장소로 전송하게 만들 수 있고 클라우드 데이터 분석 아키텍처를 설계해 저장소는 어디로, 데이터 마스킹(데이터 가리기)은 어떻게 할지 자동으로 지정할 수 있다. 데이터 양과 종류에 상관없이 효율적인 관리가 가능하다는 얘기다.
데이터 소비 패턴이 변화하고 있다는 점 역시 기업들로 하여금 클라우드 기반 데이터 플랫폼에 관심을 갖게 만들고 있다. 과거 데이터를 활용하는 사람은 대부분 데이터 과학자였다. 일반 부서에서는 활용하고자하는 데이터를 IT관련 부서에 요청해 받아보는 게 일반적이었다.
하지만 최근에는 마케팅, 영업, 디자인 등 다양한 부서의 직원들이 데이터를 직접 사용하려는 움직임을 보이고 있다. 데이터를 소비하는 주체가 다양해지기 시작한 것이다. 이에 따라 데이터에 쉽게 접근할 수 있는 도구가 필요해지기 시작했으며 여기에 가장 적합한 도구가 바로 클라우드 기반 데이터 플랫폼이다.
AWS의 경우 ‘AWS S3’라는 스토리지 서비스를 중심으로 쉽게 접근할 수 있는 빅데이터 도구들이 연결돼있다. 이 도구들을 이용할 경우 데이터를 쉽게 가져오거나 활용할 수 있다.
클라우드 기반 데이터 플랫폼은 실시간으로 데이터를 활용함으로써 빠른 의사결정을 가능하도록 해준다. ‘키네시스 데이터 스트리밍’, ‘클라우드 펍섭’, ‘애저 스트림 애널리틱스’ 등 CSP의 실시간 데이터 처리 서비스를 활용할 경우 직접 시스템을 구축해 사용하는 것보다 훨씬 더 빠른 의사결정이 가능하다.
클라우드 데이터 플랫폼 제공사별 솔루션 특장점
고객 데이터 활용에 초점 맞춘 클라우드 데이터 플랫폼 제공
AWS는 국내·외를 통틀어 가장 많을 클라우드 서비스를 제공하고 있다. 클라우드 인프라 위에서 구동할 수 있는 데이터 분석 서비스 역시 가장 많다. AWS는 고객 활용에 맞춰 가용할 수 있는 서비스를 조합해 클라우드 기반 데이터 플랫폼을 공급하고 있다.
AWS의 데이터 플랫폼 내 서비스로는 데이터 레이크를 구축하기 위한 ‘AWS 레이크 포메이션’과 데이터 웨어하우스 서비스 ‘아마존 레드시프트’, 온프레미스의 절반도 안 되는 비용으로 페타바이트 규모의 데이터를 분석할 수 있는 ‘스파크 온 아마존 EMR’, 데이터 마트와 데이터 레이크에서 손쉽게 데이터를 결합하고 이동 및 복제할 수 있는 ‘AWS 글루’, 이러한 데이터 플랫폼 내 인프라 기반이 되는 ‘아마존 EC2’ 등이 있다.
LG전자와 대한항공, 웅진씽크빅, 쿠팡 등이 이러한 서비스를 활용하고 있다. LG전자의 가전브랜드 ‘LG씽큐(ThinQ)’는 사물인터넷(IoT)에서 수집되는 데이터를 분석하기 위해 AWS의 클라우드 기반 데이터 플랫폼을 활용하고 있다. 처음 AWS는 LG씽큐의 디바이스에서 발생하는 데이터를 저장하는 방법에 대해 고민했다.
이와 관련, AWS의 한 솔루션즈 아키텍트는 “데이터 종류에 따라 DB를 다르게 구성했다. 데이터관리 시스템 ‘아마존 RDS’와 과거 사용되던 관계형DB, 키 값(Key-Value) 형태는 ‘다이나모 DB’, 네이티브 저장방식으로는 ‘아마존 S3’를 사용했다. 각각의 DB를 하나의 데이터 허브에 연결해 단일 접점을 구성했고, 여기에서 데이터를 추출할 수 있도록 데이터 플랫폼을 구성했다. 특히, 이 과정에서 LG씽큐는 용도에 맞게 DB에 데이터를 저장했고, 데이터 허브 역할을 하는 ‘데이터 레이크’를 구성했다”고 설명했다.
오픈소스 ‘아파치 스파크’, ‘아파치 하이브’, ‘아파치 H베이스’, ‘아파치 플링크’, ‘프레스토’ 등이 호스팅된 하둡 프레임워크인 ‘아마존 EMR’을 사용했고, ‘아마존 레드시프드’와 ‘아마존 글루’를 연계해 연결 접점인 ‘데이터 레이크’를 만들었다. 이렇게 데이터 플랫폼을 통해 데이터 분석이 완료된 데이터는 고객들의 스마트폰 애플리케이션으로 전달됐다.
김기완 AWS 솔루션즈 아키텍트는 “AWS의 미션은 지구상에서 가장 고객 중심적인 회사가 되는 것”이라며, “이러한 관점에서 고객들의 피드백을 듣고 있다. 피드백을 받아 서비스팀과 협력해 고객들의 요구가 반영된 서비스를 지속적으로 생산해 내고 있다. 이러한 서비스들을 결합시킨 플랫폼은 당연히 고객의 비즈니스 방향을 반영하고 있다고 할 수 있다. 특히 AWS는 데이터를 어떻게 분석할지보다 데이터로 인사이트를 꺼내는 방법과 이 인사이트를 비즈니스에 어떻게 반영할건지에 집중하고 있다”고 설명했다.
Q. 클라우드에서 구현한 데이터 플랫폼의 강점은.
A. 여러 가지가 있지만 가장 특별한 장점이라면, 데이터 플랫폼의 각 단계에 대한 풀 매니지드 서비스가 가능하다는 점이다. HW인프라와 그 윗단의 SW(하둡 에코시스템) 등이 업데이트된다면 각각에 전부 반영해줘야 한다. 예를 들어, AWS에서는 하둡이면 하둡, DW면 ‘아마존 레드시프트’ 등 서비스가 업데이트되면 이를 고객에게 가이드로 제시해 손쉽게 반영할 수 있도록 안내하고 있다. 관리 측면에서 클라우드를 유연하게 활용한다면, 비용 절감으로도 이어지게 된다.
Q. 고객 사례를 소개해달라.
A. 대한항공과 웅진씽크빅, 쿠팡 등이 있다. 먼저 대한항공은 과거 오라클 기반의 데이터 웨어하우스를 통해 데이터 플랫폼을 구현했다. AWS 클라우드로 옮기기 위해 오라클 DB를 AWS의 ‘AWS EC2’ 위로 올렸고, ‘AWS S3’ 스토리지 서비스에 데이터를 카피, ‘AWS 글루’를 통해 데이터 카탈로그를 저장했다. 이를 토대로 ‘레드시프트’와 ‘S3’에서 데이터를 꺼내 분석하고 있다.
웅진씽크빅은 데이터를 만드는 WAS가 IDC에 있던 사례였다. IDC에 있는 데이터를 실시간으로 데이터 스트림 서비스인 ‘키네시스’를 통해 ‘AWS S3’로 복제했다. 이후 스파크를 활용해 분석했고 그 결과를 ‘오로라 DB’에 저장했다. 저장된 데이터를 사용할 때에는 ‘RDMS’로 조회해 사용하고 있다.
쿠팡은 발생하는 모든 데이터들이 ‘AWS S3’에 저장된 사례다. ‘AWS S3’에 저장된 데이터를 EMR 하둡 기반으로 분석했고, 엘라스틱 서치 엔진 등을 연동했다. 특히 쿠팡은 자체적으로 제작한 여러 데이터 애플리케이션을 통해 분석하고자 했다. 이를 위해 쿠팡에 적용할 수 있는 특별한 아키텍처를 설계했다. AWS는 하나의 정형적인 아키텍처를 제안하기보다 애플리케이션의 상황과 고객의 데이터 분석 니즈에 따라 유연하게 제안하고 있다.
Q. 멀티 클라우드 환경에 구축하려는 고객들이 최근 늘어나는데, 조언한다면.
A. 멀티 클라우드 환경에서 데이터 플랫폼을 구축하기 위해서는 비용과 기술력 측면을 고려해야 한다. 각각의 CSP 할인 프로그램이 조금은 다르겠지만, 보통 ‘티어 스토리지 구조’를 따른다. 서비스 사용량이 증가할수록 할인을 많이 해준다는 얘기다. AWS의 사용량이 늘면 그에 대한 많은 비용을 할인해주지만, 타 CSP로 사용량이 분산될 경우 비용 할인 폭이 줄어들게 된다. 이러한 점도 염두에 두면 좋을 것 같다.
다음으로는 클라우드 기술력을 확보해야만 한다는 점이다. CSP 별로 데이터 플랫폼과 관련된 기술이 다르다. 기업이 데이터와 관련된 기술력을 확보하고 있다면 크게 문제가 되진 않지만, 작은 규모의 기업의 경우 기술력을 확보하기 힘들다. 제한된 기술 인력들이 많은 기술 역량을 확보해야만 한다면 여기에서 업무 비효율이 발생하게 된다.
그렇다고, AWS의 데이터 플랫폼이 온프레미스 환경이나 타 CSP와 연계할 수 없다는 것은 아니다. 연동은 가능하다. 온프레미스의 경우 고객 IDC와 AWS 전용선 네트워크를 연계해 사용하고 있는 고객들도 있다. 타 CSP 역시 마찬가지다. VPN을 통해 네트워크 전용선을 연결하게 되면 클라우드 데이터 플랫폼에 타 CSP의 서비스를 연계해 사용할 수 있다.