본지, ‘헤이즐캐스트 서밋 인 코리아 2017’ 세미나 개최

▲ 본지 컴퓨터월드/IT DAILY와 헤이즐캐스트가 ‘헤이즐캐스트 서밋 인 코리아 2017’ 세미나를 개최했다.

[컴퓨터월드] 디지털 트랜스포메이션(Digital Transformation) 시대를 맞아 데이터의 중요성은 점점 더 커지고 있다. 빅데이터가 대두된 이후 데이터의 크기(volume)와 다양성(variety), 그리고 속도(velocity) 등 소위 ‘3V’가 강조돼 왔으나, IT부서는 폭발적으로 증가하는 데이터를 더욱 더 빠르게 처리해야만 하는 힘겨운 도전에 직면하고 있다. 인메모리(In-Memory) 컴퓨팅과 분산형 데이터 그리드(Data Grid) 등 실시간 빅데이터 처리 관련 기술들이 주목받고 있는 이유다.

지난 5월 11일, 미국의 오픈소스 IMDG((In Memory Data Grid) 솔루션 전문기업 헤이즐캐스트(Hazelcast)와 본지 컴퓨터월드/IT DAILY가 공동으로 ‘헤이즐캐스트 서밋 인 코리아 2017(Hazelcast Summit in Korea 2017)’ 컨퍼런스를 개최했다. ‘ICT의 새로운 지평(New Horizons to ICT)’이란 주제 아래 열린 이번 컨퍼런스는 헤이즐캐스트 한국지사가 설립된 이후 처음으로 고객과 직접 만나는 자리였다.

한국 시장에서의 본격적인 출발에 힘을 싣기 위해 그렉 럭(Greg Luck) 헤이즐캐스트 CEO와 라훌 굽타(Rahul Gupta) 시니어 솔루션 아키텍트가 방한, 새로운 IT트렌드 속에서 IMDG로 열어가는 데이터 분석의 새로운 지평을 소개했다.

▲ 그렉 럭 헤이즐캐스트 CEO

인메모리 컴퓨팅의 발전과 IMDG 트렌드
  – 그렉 럭 헤이즐캐스트 CEO

이번 컨퍼런스는 그렉 럭 헤이즐캐스트 CEO의 ‘IT 및 IMDG 트렌드와 미래 기술(IT/IMDG trending and future plan)’을 주제로 한 오프닝 세션으로 시작됐다. 인메모리 컴퓨팅의 과거와 현재, 그리고 전 세계 IT트렌드와 헤이즐캐스트의 IMDG 관련 현황 및 전망을 공유했다.
그렉 럭 CEO는 우선 ▲어드레스 스페이스(address space) 부족 ▲병목현상으로 인한 성능 저하 ▲CPU의 성능 향상 둔화 등이 한동안 인메모리 컴퓨팅 분야의 성장을 가로막고 있었다고 설명했다.

오늘날, 인메모리 컴퓨팅의 가장 큰 문제였던 어드레스 스페이스 부족 문제는 CPU의 어드레스 버스(address bus)가 확장되면서 해결됐다. 64비트 시스템에서는 최대 32엑사바이트에 달하는 어드레스 스페이스를 지원할 수 있어 어드레스 스페이스 부족으로 인한 인메모리 컴퓨팅의 성능 제약은 대부분 사라진 상태라고 볼 수 있다.

병목현상으로 인한 성능 저하 역시 32비트 시스템에서 64비트 시스템으로 바뀌면서 일부 개선되는 모습을 보였다. 근본적인 출력 상의 문제는 여전히 남아있었지만 이 역시 인텔이 자사의 펜티엄Ⅱ 프로세서에 프론트 사이트 버스(Front Side Bus, FSB) 아키텍처를 적용함으로써 개선됐다.

이후 AMD는 FSB에 남아있는 병목현상을 제거한 다이렉트 커넥트 아키텍처(Direct Connect Architecture)를 공개했고, 인텔은 각 프로세서가 별도의 메모리 컨트롤러를 가지는 컬럼 아키텍처 누마(NUMA)를 사용함으로써 병목현상 문제는 거의 사라지게 됐다.

CPU의 성능 향상 둔화는 멀티코어로의 트렌드 변화로 해결됐다. 싱글코어의 성능만이 향상되던 시기에는 실리콘 낭비와 자체 성능 향상의 한계 등에 부딪혔지만, 멀티코어로 트렌드가 변하면서 이 문제도 해결됐다는 설명이다. 각 세대 아키텍처별로 사용 가능한 코어의 숫자는 꾸준히 증가해왔으며, 현재는 단일 장비에서 24코어까지 사용 가능하다.

그렉 럭 CEO는 헤이즐캐스트가 현재 2개 장비를 활용해 48개 코어를 사용 중이며, 하이퍼스레딩을 사용해 이론상 96개 코어와 동일한 성능을 낼 수 있다고 자신했다.

과거에 문제점으로 고려되지는 않았지만, 램 가격의 지속적인 하락 역시 인메모리 컴퓨팅의 발전에 도움이 되고 있다. 시장조사기관 가트너의 조사에 따르면 18개월마다 평균 40%의 램 가격 하락이 일어나고 있으며, 이는 더 작은 나노미터 공정의 도입과 적층 레이어를 통한 공간적 효율 확보로 가능한 일이다. 차세대 메모리로 언급되고 있는 NV램(Non-volatile random-access memory)이 상용화되면 램 가격 하락과 성능 향상으로 인한 인메모리 컴퓨팅 분야의 발전은 더욱 가속화될 것으로 보인다.

그렉 럭 CEO는 마지막으로 네트워크 속도 향상이 인메모리 컴퓨팅에 미치는 영향에 대해 설명했다. 헤이즐캐스트는 그리드(Grid) 시스템을 활용하고 있으며, 이는 대규모 연산을 위한 초고속 네트워크를 전제로 하기 때문에 네트워크 속도의 향상에 직접적인 영향을 받는다. 헤이즐캐스트가 2년 반전에 벤치마크를 진행한 결과, 40기가비트 네트워크 환경에서는 엔터프라이즈 데이터 센터에서 사용되는 인피니밴드(InfiniBand)보다도 더 빠른 속도를 보였다.

40기가비트 네트워크 환경에서는 평균 70마이크로세컨드의 지연이 발생했으며, 이는 오늘날 네트워크를 활용하는 것이 로컬 하드를 활용하는 것보다 더 빠르다는 것을 의미한다.

그렉 럭 CEO는 “오늘날 디지털 트랜스포메이션 시대를 맞아 기업들이 IMDG 솔루션을 활용해 디지털 업무를 자동화하고, 이슈에 실시간으로 빠르게 대응할 수 있는 시스템을 구현할 수 있기를 기대한다”면서, “이를 위해서는 빠르고 확장성 있는 아키텍처가 필수적이며, 이러한 요구를 충족하는 헤이즐캐스트의 비전은 데이터를 처리할 때 인메모리 그리드 컴퓨팅을 사용, 이론상 기존의 DB보다 1000배 이상 속도를 향상시킬 수 있다는 것”이라고 자사 솔루션을 소개했다.

▲ 황상환 헤이즐캐스트 한국지사장

신속한 스케일 조정으로 트래픽 집중에 유동적인 대처 
  -  황상환 헤이즐캐스트 한국지사장
키노트 발표에서는 황상환(샘 황) 헤이즐캐스트 한국지사장이 자사 솔루션을 활용한 중국 위뱅크의 사례 등을 들어 비용 절감과 속도 향상 측면의 장점에 대해 보다 더 상세한 발표를 이어갔다.

2015년에 텐센트가 설립한 중국 위뱅크는 개인과 스몰엔터프라이즈를 대상으로 24시간 모바일 서비스를 제공한다. 2015년 설에는 하루 동안 모바일 서비스를 활용한 거래 기록이 13억 5천만 건에 달했으며, 1년 만에 가입자는 2억 명으로 늘어났다. 특히 국내에서 2천만 명, 5천만 개의 계좌를 구축할 수 있는 시스템으로 이 같은 대규모 처리가 가능한 시스템을 구축했다는 점에서 주목받았다.

지난해 9월, 경주에서 발생한 지진으로 인해 국민안전처 홈페이지가 다운되는 상황이 발생했다. 국민안전처 측은 재발 방지를 위해 서버 용량을 8배로 증설하고 트래픽 처리 용량을 최대 80배까지 향상시켰다고 밝혔지만, 같은 달 19일에 발생한 지진에 8만5천 명의 접속자가 발생하자 또다시 다운되고 말았다.

이는 높은 IT비용을 들여 인프라를 확장한다고 해서 그에 정비례하는 성능 향상이 일어나지는 않는다는 것을 보여주는 사례다. 위뱅크는 특정 이슈로 인한 트래픽 집중에 대처하기 위해 인메모리 테크놀로지를 적용했으며, IMDG 구간에서 스케일 조정을 통해 대응하는 현실적인 대안을 제시했다.

시스템을 확장하는 데에 필요한 시간 역시 중요한 이슈로 제시됐다. IMDG의 목적은 최대한 빠른 시간에 데이터 처리 성능을 제공하는 것이며, 헤이즐캐스트는 위뱅크의 사례를 통해 실시간 스케일 조정 기능을 통한 유동적인 데이터 처리 성능 확보를 보여준 바 있다. 헤이즐캐스트의 솔루션을 활용하면 어떠한 클라우드 플랫폼에서도 15분이면 구축이 완료되며, 실시간 운영 중에도 마우스 클릭 몇 번으로 스케일 확장이 가능해 갑작스런 트래픽 집중에도 효과적으로 대응할 수 있다.

황 지사장은 “경주 지진 때 2만 5천 명의 동시접속자가 몰리며 국민안전처 홈페이지가 다운된 후, 여진이 이어짐에 따라 통합전산센터는 서버 용량을 8배로 증설했다. 그러나 수치상으로라면 20만 명의 동시접속이 가능했어야 함에도 8만 5천 명이 접속하자 두 번째 시스템 다운사태가 발생했다. 이는 단순히 투자를 늘린다고 해서 퍼포먼스가 선형적으로 증가하지 않는다는 것을 보여주고 있다. 이런 상황에서 현실적인 대안은 인메모리 테크놀로지를 적용하는 것이다. 중국 위뱅크는 IMDG 기술을 통해 구정 하루 13억 5천만 건에 달하는 송금 거래를 추가 시스템 구축 없이 성공적으로 소화해냈다”고 강조했다.


▲ 김명신 한국마이크로소프트 기술에반젤리스트
클라우드의 핵심 가치 제공하는 ‘MS 애저’
  - 김명신 한국마이크로소프트 기술에반젤리스트
첫 번째 세션에서는 헤이즐캐스트의 글로벌 파트너인 한국마이크로소프트(MS)의 기술에반젤리스트인 김명신 부장이 자사 클라우드 플랫폼 ‘MS 애저(Azure)’와 양사간의 파트너십에 대해 이야기했다.

2017년 현재 ‘애저’ 사용자는 지속적으로 증가하는 추세이며, MS 역시 ‘애저’ 서비스 확대를 위해 나서고 있다. 포츈 500대 기업의 90%가 직간접적으로 ‘애저’를 사용하고 있고, 전 세계 38개의 데이터센터가 비즈니스 고객의 지근거리에서 빠른 속도를 제공한다. 특히 국내에서는 지난 2월부터 서울과 부산 2개 지역에서 데이터센터가 가동 중이다.

김 부장은 ‘애저’가 제공하는 핵심 가치를 4가지로 요약했다. 먼저 서비스에 대한 ‘신뢰’로, 실물 장비가 없이 서비스만을 제공하는 클라우드의 특징상 고객에게 안정적인 서비스를 제공한다는 믿음을 주기 위해 노력해야 한다는 것이다.

갑작스런 서비스 중단 혹은 낮은 보안 수준으로 인한 공격 위협 등을 방지하고 고객의 신뢰를 얻기 위해 MS는 인공지능 기술을 활용해 ‘애저’ 클라우드 서비스를 보조하는 ‘인텔리전트 클라우드’를 도입했다. 인텔리전트 클라우드는 보안상 문제가 발생할 수 있는 시스템 상 허점을 자동으로 탐지하고 피드백을 제공하며, 이를 통해 필요 이상으로 오픈돼있는 포트나 악성 쿼리가 포함될 가능성이 있는 프로세스 등을 알아낸다. 이를 바탕으로 고객은 보다 안정적인 서비스를 제공받을 수 있다.

다음으로 ‘오픈 및 하이브리드’다. MS는 예전에는 필요한 기능이나 API를 직접 만들어 썼는데, 수 년 전부터는 오픈소스를 적극적으로 수용하고 있다. MS에 맞춰서 기존의 언어나 시스템을 수정하는 게 아니라, 기존에 쓰던 것 그대로 애저에서 활용할 수 있도록 지원한다. 하이브리드 역시 애저는 강력한 기능을 제공한다. 온프레미스에서 사용하던 시스템을 클라우드에서 그대로 쓸 수 있는 것은 물론, ‘애저 스택(Azure Stack)’을 활용하면 클라우드에서 쓰던 기능도 온프레미스로 가져와서 쓸 수 있다.

세 번째는 ‘앱 이노베이션’이다. MS의 기본 목표는 온프레미스 환경에서 사용하던 앱들을 ‘애저’ 클라우드 환경에서 그대로 사용할 수 있도록 제공하는 것이지만, 경우에 따라서는 클라우드 환경에 최적화된 서비스 수정이 불가피할 때도 있다. 이에 따라 MS는 신규 앱의 클라우드 최적화를 위한 기술적 지원을 제공하며, 도커 기반의 호스팅, 릴라이브 호스팅의 통합 제공, 서버리스(serverless) 아키텍처 구성을 위한 ‘애저 펑션 앱’ 역시 제공하고 있다.

마지막으로 강조한 것은 ‘데이터 인텔리전스’다. 매일 감당할 수 없을 만큼 많은 데이터가 쏟아져 나오는 데이터 폭발의 시대에는 효율적인 데이터 분류, 분석, 저장, 시각화 등에 대한 요구가 증가하며, ‘애저’는 정형과 비정형을 가리지 않고 데이터 처리를 위한 기본적인 기술을 모두 제공하고 있다.

김명신 부장은 “MS는 헤이즐캐스트와 같은 오픈소스 기술을 적극적으로 수용하고 있다. 특히 MS의 환경에 맞춰 오픈소스를 수정하는 게 아니라, 기존에 쓰던 것 그대로 ‘애저’에서 활용할 수 있도록 지원한다”면서, “특히 온프레미스 애플리케이션을 클라우드 환경에서도 그대로 쓸 수 있는 것은 물론, ‘애저 스택’을 활용하면 클라우드에서 쓰던 기능도 온프레미스로 가져와서 쓸 수 있어 하이브리드 환경에도 유리하다”고 설명했다.

▲ 오정수 국립낙동강생물자원관 선임연구원

클러스터 알고리즘 성능 향상과 간편한 사용법에 기대
  - 오정수 국립낙동강생물자원관 선임연구원
두 번째 세션에서는 국립 연구기관인 국립낙동강생물자원관의 오정수 선임연구원이 헤이즐캐스트 솔루션을 과학연구에 활용한 사례를 공개했다. 오정수 선임연구원은 지속가능한 생물 다양성의 보존을 위해 IT기술을 활용 중이며, 이미 5~6년 전부터 자체적인 연구를 위해 헤이즐캐스트의 기술을 활용해왔다고 밝혔다.

특히 미생물에 대한 생태 연구를 진행하기 위해 DNA 염기서열을 비교해 군집화(alignment)하는 과정에서 IT 기술을 활용한 클러스터 알고리즘을 사용했다는 설명이다. 문제는 정확도가 높아지면 높아질수록 비교 횟수가 늘어나고 훨씬 많은 연산 성능을 요구해 속도가 떨어진다는 점이었다. 이에 가장 일반적이라고 생각되는 병렬 처리, 분산 처리에 대한 요구가 발생했고, 분산처리의 방법으로써 MPI(message passing interface)와 맵리듀스(MapReduce)를 우선적으로 고려하게 됐다.

그러나 MPI는 사용이 까다롭고 특정 OS나 머신이 제공하는 환경에 의존적이라 일반 사용자가 사용하기에는 어렵다는 문제점이 있었다. 맵리듀스 역시 모든 업무에서 항상 높은 성능을 보장하는 것은 아니며, MPI와 마찬가지로 특정 환경이 미리 설치돼있어야 구동되는 까다로움이 존재했다. 이에 IMDG를 기반으로 하는 헤이즐캐스트 솔루션에 자연스럽게 관심을 보이게 됐다.

당시 기술 자료도 부족하고 국내 지사도 없었던 상황에서 오정수 선임연구원은 직접 많은 소스를 구해 목적에 맞는 클라이언트 서버 아키텍처를 구성했다. 리눅스와 윈도우 환경에서 헤이즐캐스트 솔루션은 문제없이 구동됐고, 전력 공급이나 네트워크 환경이 불안한 상황에서도 데이터 소실 없이 분산처리 작업을 수행해 냈다. 또한 생물학 연구를 위해 20년 이상 사용돼 온 ‘블래스트(BLAST, Basic Local Alignment Search Tool)’와 IMDG 기술을 연결해, ‘IMDG-BLAST(가칭)’라는 툴을 개발하기도 했다.

오 선임연구원은 “미생물에 대한 생태 연구를 진행하면서 군집화를 위해 DNA 염기서열을 비교하는 작업에 헤이즐캐스트의 IMDG 기술을 활용했다. 정확도가 높은 클러스터 알고리즘을 사용할 때 속도가 떨어지는 문제를 해결하기 위한 선택이었다”면서, “헤이즐캐스트는 고가용성, 확장성, 성능, OS 및 플랫폼으로부터의 독립성, 다양한 환경 지원, FT(Fault Tolerance) 및 페일오버(Failover) 지원, 예산문제로 인한 오픈소스 환경을 모두 만족했으며 무엇보다 개발하기에 심플하고 사용하기 쉬운 솔루션이라는 점이 선택에 가장 큰 요인으로 작용했다”고 말했다.


▲ 최상희 데이타벅스 상무
캐시-DBMS 간 데이터 불일치 해결하는 ‘스트림’
  - 최상희 데이타벅스 상무
이어진 오후 세션에는 스트림(Striim)의 국내 총판을 맡고 있는 데이타벅스의 최상희 상무가 ‘스트리밍 및 인메모리 컴퓨팅 스트림 핫캐시 온 헤이즐캐스트’를 주제로 데이터 관리의 미래에 대해 발표했다. 스트림의 ‘핫 캐시’는 헤이즐캐스트 엔터프라이즈 에디션에 플러그인으로 장착돼 CDC(Change Data Capture: 변경 데이터 캡처) 기능을 제공한다.

인메모리 컴퓨팅에서는 신속한 데이터 처리를 위해 DBMS가 가지고 있는 인벤토리 목록을 메모리 캐시 영역에 구현한다. 따라서 DBMS의 데이터를 가져오는 과정에서 발생할 수 있는 병목현상을 방지하고 성능 향상을 기대할 수 있다.

하지만 이 과정에서는 또 다른 문제가 발생하게 되는데, DBMS에서 별도의 배치 프로그램이 돌아가거나 캐시 영역을 거치지 않고 직접 DB에 영향을 미치는 프로세스가 있을 경우 DBMS와 캐시 영역 사이에 데이터 불일치가 일어날 수 있다는 것이다.

일정 주기마다 DB에서 새로이 인벤토리 목록을 받아오더라도 해당 주기 동안에는 여전히 데이터 불일치 문제가 발생하며, 주기적으로 데이터를 읽어오는 동안 성능 저하 문제가 발생한다. 또한 트리거를 사용해 DBMS의 변화를 감지하는 방법으로 대체할 수도 있지만, 트리거 자체가 DB 성능 저하의 원인이 된다는 점을 감안하면 바람직한 선택은 아니다.

따라서 메모리 캐시 영역을 활용한 인메모리 컴퓨팅을 효과적으로 활용하기 위해서는 DBMS의 성능에 영향을 주지 않으면서도 DB의 변화를 감지하고 데이터 불일치 문제를 해결할 수 있는 방법이 필요하다. 스트림이 제공하는 CDC 기능은 DBMS가 데이터 변경 기록을 남기는 트랜잭션 로그파일을 분석함으로써, DBMS의 성능에 영향을 주지 않으면서도 실시간으로 데이터 변경을 감지할 수 있다. 또한 주기적으로 전체 인벤토리 영역을 불러오는 게 아니라 변경된 일부 데이터만 실시간으로 교체함으로써 성능 저하 문제를 해결했다는 설명이다.

최상희 상무는 “애플리케이션 성능 향상을 위해 인메모리 캐시를 활용하는 경우에는 DBMS와의 데이터 불일치 문제가 발생할 수 있다”고 짚으면서, “이를 해결하기 위한 가장 좋은 방법은 DBMS 성능에 영향을 주지 않으면서도 실시간으로 데이터 변경을 감지하고 동기화하는 것이다. 스트림은 스트리밍 인티그레이션 및 인텔리전스 솔루션으로, DBMS가 생성하는 트랜잭션 로그파일을 소스로 삼음으로써 DBMS의 성능에 영향을 주지 않으면서 실시간으로 데이터 변경을 감지하고 캐시를 최신화한다”고 설명했다.

▲ 라훌 굽타 헤이즐캐스트 시니어 솔루션 아키텍트

맵리듀스보다 40배 향상…빅데이터보다 신속한 데이터 필요
  - 라훌 굽타 헤이즐캐스트 시니어 솔루션 아키텍트
마지막 세션에서는 라훌 굽타 헤이즐캐스트 시니어 솔루션 아키텍트가 신제품인 ‘헤이즐캐스트 제트(Hazelcast JET)’에 대해 발표했다. ‘헤이즐캐스트 제트’는 빅데이터 처리를 실시간 영역으로 끌어올 수 있는 제품이다. 라훌 굽타 시니어 솔루션 아키텍트는 빅데이터가 몇 년째 큰 이슈가 되고 있지만, 실시간 분석을 통해 가치를 추출해낼 수 있는 ‘신속한 데이터’를 만들어내지 못한다면 빅데이터 역시 무의미하다고 설명했다.

‘헤이즐캐스트 제트’는 빅데이터 프로세스를 실시간 영역으로 가져온다. 스파크나 SNS 등 다양한 소스로부터 대량의 데이터를 변환해 가져올 수 있으며, 헤이즐캐스트의 연산 영역을 활용해 해당 데이터를 실시간으로 처리해 결과를 보여준다.

이어 라훌 굽타 시니어 솔루션 아키텍트는 파일 내 특정 단어의 등장 횟수를 세는 ‘워드카운드(word count)’ 작업을 예시로 들었다. 백만 개의 단어로 구성되는 1GB의 데이터를 기준으로 했을 경우 ‘헤이즐캐스트 제트’는 일반적인 맵리듀스 방식보다 40배 빠르고, 아파치 스파크보다 2배, 플링크보다 2배 빠르다고 강조했다. 이는 텍스트를 작은 단위로 쪼개는 토큰화를 거친 후 여러 개의 스레드가 동시다발적으로 병렬처리함으로써 성능을 향상시키는 방식이다.

IMDG 기술은 대형통신사나 유통 분야에서 성능이 입증된 바 있고, ‘헤이즐캐스트 제트’는 IMDG 위에서 구현된다. 현재는 자바 클라이언트를 지원하고 있으며, 향후 더 다양한 클라이언트에서 지원될 예정이다.

라훌 굽타 시니어 솔루션 아키텍트는 “예를 들어 현재 신용카드 결제를 하게 되면 카드사의 서버에 거래에 대한 수백, 수천 개의 비즈니스 룰 검토 요청이 들어가고, 일반적으로 사용자는 이에 대한 결과를 3초 이내에 받게 된다. 그러나 ‘헤이즐캐스트 제트’를 사용하면 이 시간이 밀리세컨드(ms) 단위로 단축된다”고 설명했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지