아마존웹서비스(AWS), 단일 데이터 레이크의 중요성 강조

[아이티데일리] 오늘날 전 세계 모든 기업들은 데이터 중심적인(data driven) 비즈니스 프로세스를 구축하는 것을 중요한 목표로 삼고 있다. 업계를 가리지 않고 폭발적으로 증가하고 있는 데이터들을 효과적으로 수집하고 이를 비즈니스에 활용하고자 하는 것은 모든 기업들이 당면하고 있는 목표다.

유통업계의 경우 고객을 이해하고 더 다양한 서비스를 제공하기 위해 온라인·오프라인을 가리지 않고 민첩하게 고객 데이터를 확보해 분석하고 있으며, 금융업계에서는 사기 행위 등을 탐지하고 막아내기 위해 실시간으로 수많은 데이터들을 확인해야만 한다.

이러한 문제는 비단 새롭게 생성되는 데이터에 대해서만 일어나는 것은 아니다. 오랜 역사를 가지고 있는 기업들은 그동안 축적된 데이터에서 새로운 인사이트를 찾을 수는 없는지 끊임없이 탐구하고 있으며, 그동안 역량 부족으로 분석할 수 없었던 데이터들을 활용하기 위해 머신러닝이나 인공지능(AI)과 같은 최신 기술을 도입하고 있다.

이에 본지에서는 글로벌 DBMS 벤더들을 중심으로 효과적인 데이터 저장에 대한 취재를 진행해, 데이터 중심적인 비즈니스 프로세스 구축을 지원하기 위한 벤더들의 전략에 대해 들어봤다.

 

< 아마존웹서비스(AWS) >
최적의 인사이트를 얻기 위한 단일한 데이터 레이크 전략

AWS는 자사 고객들이 저장하는 데이터의 양이 매년 2배씩 늘어나고 있다는 점을 먼저 지적했다. 데이터는 이미 폭발적으로 증가하고 있다. 이들은 금융권의 거래 데이터, 유통업계에서 생성되는 고객의 주문 데이터, CCTV나 위성 등에서 생성되는 이미지 데이터, IoT 센서 등에서 생성되는 스트리밍 데이터 등 저장해야 하는 데이터의 종류 역시 다양해지고 있다.

데이터의 수집뿐만 아니라 분석과 활용 면에서도 다양화가 이뤄지고 있다. 과거에는 전문적인 역량을 갖춘 직원만이 데이터를 다룰 수 있었지만, 오늘날 데이터의 소비자는 매우 다양해졌다. 이들은 비즈니스 사용자 및 분석가, 데이터 분석가와 데이터 과학자 등으로 분류되며, 소비자의 종류에 따라 원하는 데이터와 접근 방식이 달라질 수 있다.

가령 비즈니스 사용자와 분석가의 경우, 데이터 웨어하우스(DW)를 활용하는 것이 가장 친숙하다. 이들은 대시보드나 BI 도구를 활용해 DW에 저장된 데이터를 분석하며, 저장소의 부하를 줄이면서 쿼리를 날리고 최대한의 정보를 빠르게 만들어내는 것을 목표로 한다. 반면 데이터 분석가나 데이터 과학자의 경우, 복잡하고 정제되지 않은 데이터도 능숙하게 다루며 머신러닝 모델을 적용하거나 AI 시스템을 구축하기를 원하기 때문에 오히려 기존의 관계형 DBMS(RDBMS)가 더 유리하다.

▲ AWS는 ‘아마존 S3’와 ‘아마존 글루’ 등을 활용한 데이터 레이크 중심의 전략을 강조한다.

그렇다면 데이터가 수집되는 측과 사용되는 측을 모두 고려해야하는 데이터 저장소는 어떤 형태를 취해야 하는가? 이에 대해 AWS는 모든 데이터를 ‘아마존 S3(Amazon Simple Storage Service, Amazon S3)’과 같은 데이터 레이크로 보내고, ‘아마존 글루(AWS Glue)’를 활용해 적절한 데이터 거버넌스를 구축함으로서 활용도를 높이는 방법을 찾아야 한다고 조언한다. 데이터 레이크는 종류를 가리지 않고 모든 데이터를 단일한 저장소에 담아 데이터의 중복 저장을 방지하고 최신 상태로 유지한다. 여기에 저장소에 담긴 데이터에 대한 정보를 관리할 수 있는 서비스 레이어를 생성해 단일한 접점에서 기업의 모든 데이터를 활용할 수 있도록 구성한다는 전략이다.

‘아마존 S3’는 데이터의 수집 및 저장 단계에서 데이터의 성질을 정의하지 않고 그대로(raw data) 저장함으로써 해당 단계에 소요되는 시간을 최소화할 수 있다. 이는 빠르고 대량으로 생성되는 데이터들을 실시간으로 저장할 수 있도록 하며, 데이터가 활용될 때 분석가가 원하는 형태로 정의됨으로서 활용도를 높인다. 또한 기존의 인프라에서 데이터를 빠르게 가져올 수 있는 다양한 방법론들을 제공한다.

 

<인터뷰>
크레이그 스타이어스(Craig Stires) AWS APAC지역 데이터&분석 총괄

Q. 단일한 저장소의 중요성을 강조하는 이유는?
데이터를 저장하는 데에 있어 산업계와 기업의 특색을 막론하고 항상 최선의 방법이 존재하는 것은 아니다. 가령 데이터가 생성되는 곳에 데이터 저장소를 구축한다면 새롭게 만들어지는 데이터를 포착하고 이상행위를 탐지하는 점에서는 유리할 수 있지만, 데이터를 분석하는 역량은 조금 떨어질 수 있다.

특히 유통기업이 이러한 데이터 저장소에 전적으로 의지한다면, 거래 데이터를 많이 수집할 수 있는 대신 많은 분석가들이 복잡한 쿼리를 수행했을 경우 시스템 과부하를 일으켜 퍼포먼스가 떨어질 수 있다. 그러므로 오프라인 매장과 같이 데이터 생성되는 지점과 IT 조직이 접근할 수 있는 데이터 저장소는 명백히 분리돼야 하며, 그렇게 해야만 확장성도 유지할 수 있다.

하지만 AWS는 그동안 고객들을 관찰하며 발견한 가장 중요한 트렌드가 바로 단일한 데이터 저장소라고 판단했다. ‘아마존 S3’와 같은 단일한 저장소와 ‘아마존 글루’와 같은 데이터 카탈로그 레이어를 더하면 기업의 모든 사용자들은 항상 일관성있게 데이터에 접근할 수 있다. 복잡하게 산재된 데이터를 관리하는 데에 낭비되는 비용을 줄이고, 모든 사용자들이 모든 데이터에 접근할 수 있도록 지원하기 위해서는 단일한 데이터 저장소 전략이 요구된다.

물론 우리는 고객들에게 특정한 서비스를 반드시 이용해야 한다고 강요하지 않는다. AWS의 미션은 고객들에게 가장 활용성이 높고 효과적인 도구를 제공하는 것이며, 이를 위해 고객들의 요구를 분석해 165개 가량의 보안·저장·분석·IoT 등 다양한 서비스를 출시했다. 하지만 오늘날 데이터를 저장하고 활용함에 있어 고객들이 원하는 요구사항에 가장 잘 들어맞는 것은 데이터 레이크에 기업의 모든 데이터를 저장하고 이를 활용할 수 있는 별도의 서비스 레이어를 두는 것이라고 생각한다.


Q. 클라우드는 인프라에 투자할 자금이 충분치 않고 비즈니스 여건 역시 빠르게 변화하는 스타트업들에게 유용한 대안으로 여겨지고 있다. 이러한 기업들에게 필요한 조언이 있다면?
AWS는 그동안 많은 스타트업과 함께 해왔다. 넷플릭스나 에어비앤비, 핀터레스트 등 이제 글로벌 대기업으로 성장한 많은 스타트업들이 AWS와 함께했다. 이 과정에서 우리는 아주 작게 시작했으나 매우 빠르게 성장하는 기업들의 이야기를 들을 수 있었고, 그들이 100% 관리 가능하면서 설계하기 쉬운 서비스를 이용해 운영비용을 낮추고자 한다는 것을 알게 됐다.

오늘날 AWS가 제공하는 클라우드 서비스들은 별도의 인프라 구매 없이도 스트리밍 서비스를 제공하거나 몇 번의 클릭만으로 데이터 분석을 수행할 수 있다. 특히 서버리스(Serverless) 서비스를 활용하면 기업이 클라우드 상의 인프라조차 신경쓰지 않고 필요한 만큼 탄력있게 비즈니스를 운영할 수 있다. 저렴하고 작은 규모로 시작해서 쉽게 확장해나갈 수 있는 인프라가 필요하다면 AWS가 최선의 서비스를 제공할 수 있을 것이다.

특히 중소기업이나 스타트업들은 규모에 상관없이 새로운 비즈니스에 몰두해야 하는 경우가 있다. 이와 같이 제한적인 리소스를 가지고 있는 기업들을 위해 AWS는 ‘레이크 포메이션(AWS Lake Formation)’ 서비스를 출시할 예정이다. ‘레이크 포메이션’은 기업들이 머신러닝을 기반으로 자동적으로 데이터를 추출 및 분석하고, 데이터 레이크를 능동적으로 활용할 수 있도록 돕는다.

< 구축사례 >
NAB, 코어뱅킹 시스템 이전 및 통합된 데이터 저장 전략 수립

내셔널오스트레일리아은행(National Australia Bank, NAB)은 지난해 12월 AWS를 장기적인 전략적 클라우드 제공업체로 선정하고, 2019년까지 코어 뱅킹 시스템을 비롯한 300여 개의 애플리케이션을 AWS로 이전하기로 결정했다.

그동안 NAB는 페타바이트 규모의 방대한 데이터들이 각 은행 전역에 흩어져있다는 문제를 갖고 있었다. 산재돼있는 데이터에서 고객의 선호사항과 같은 인사이트를 얻어내기 위해서는 수 개월의 시간과 많은 자원이 소요됐다. 이를 해결하기 위해 NAB는 ‘아마존 S3’와 ‘아마존 레드시프트(Amazon Redshift)’, ‘아마존 아테나(Amazon Athena)’ 등을 활용한 클라우드 상의 데이터 레이크를 구축했다. 방대한 데이터들을 클라우드 상에서 통합하고 일관된 관리체계를 갖출 수 있게 됨으로서 NAB는 비즈니스 인사이트를 창출하는 작업을 수 분 이내로 완료할 수 있게 됐다.

아울러 NAB는 AWS 상에서 ‘NAB 서비스 클라우드(NAB Services Cloud)’, ‘NAB 데이터 허브(NAB Data Hub)’, ‘NAB 디스커버리 클라우드(NAB Discovery Cloud)’ 등 3가지 새로운 전략 플랫폼을 개발하고 있다. 이를 통해 보다 효율적으로 데이터를 수집하고 활용하며 고객 경험에 대한 정확한 시각에 기반해 생산성을 높이겠다는 전략이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지