국내 관심도 빠르게 확대…기업별 도입 목적 고려해 최적의 방법 찾아야

[컴퓨터월드] 스트리밍 데이터 처리에 대한 수요가 급격하게 증가하고 있다. 그동안 국내에서는 통신사나 포털, 게임사 등을 중심으로 한정된 기업에서만 활용되고 있었지만, 올해 들어 많은 기업들이 스트리밍 데이터 처리 솔루션에 대한 문의와 PoC를 요청하고 있다. 솔루션 벤더사들은 급격하게 증가한 수요에 어리둥절하면서도 자체 솔루션 업데이트와 홍보에 나서는 등 발빠르게 시장의 변화에 대처해나가고 있다. 국내 스트리밍 데이터 처리 시장의 현주소를 짚어본다.


숨어있는 인사이트와 비즈니스 민첩성 잡아야
스트리밍 데이터는 데이터 소스에서 연속적으로 발생돼 데이터 처리 환경으로 유입되는 데이터를 말한다. 모바일이나 웹 애플리케이션을 사용하는 고객이 생성하는 로그 파일, 전자 상거래 구매, 게임 내 플레이어 활동, 소셜 네트워크의 정보, 주식 거래소, 지리공간 서비스, 연결된 디바이스의 텔레메트리, 데이터 센터의 계측 등 다양한 데이터가 포함될 수 있다. 이를 클라우드 환경이나 하둡 등을 통해 실시간으로 분산 저장·처리하는 것을 스트리밍 데이터 처리라 한다.

과거의 기업들은 비즈니스에서 발생하는 이벤트들을 일정 주기를 두고 확인할 수 있었다. 가령 일일 보고를 하는 기업들의 경우 쏟아지는 하루치 데이터를 모아서 분석한 후 보고서를 만들어 다음날 아침 회의에서야 확인하는 식이다. 이는 이벤트가 발생하는 시점과 비즈니스 조직이 이를 인식하는 시간에 적지 않은 차이를 만들어 신속한 움직임을 방해하는 걸림돌로 작용했다.

▲ 배치 처리 방식만으로는 빅데이터의 가치를 살릴 수 없다. (출처: KT넥스알)

기업의 외부 환경이 빠르게 변화함에 따라 기업은 동일한 데이터를 더 이른 시점에 받아보고자 하며, 이를 통해 최신 정보 활용능력을 향상시키고 실시간 추천 서비스나 이상 징후 탐지 등의 차별화된 비즈니스를 수행하고자 한다. 배치 처리를 통해 정기적인 보고서로 만들어내던 이벤트를 발생 즉시 처리해, 더 이른 시점에 분석이나 비즈니스 결정에 활용할 수 있기 때문이다.

민원 고객 상담을 진행하는 과정에서 고객의 서비스 정보와 장애 원인을 실시간으로 파악하고, 이에 대한 대응도 선제적으로 나설 수 있다면 고객 만족도 향상에도 기여할 수 있다. 만약 기업이 기존에 가지고 있던 배치 처리 파이프라인의 일부를 수정해 데이터를 스트리밍화 하고 분산 처리가 가능한 프레임워크를 통해 처리할 수 있다면 이러한 민첩한 비즈니스 대응이 가능해질 것이다.

또한 스트리밍 데이터 처리를 통해 그동안 미처 발견하지 못했던 인사이트를 포착할 수 있다. 수백만 건의 데이터에 묻혀 미처 발견해내지 못한 이상 징후를 탐지한다거나, 고객의 위치를 실시간으로 파악해 인근 상권에 대한 정보나 즉시 사용 가능한 쿠폰을 전달함으로써 추가적인 비즈니스 기회를 창출하는 것 등이 이런 경우에 속한다.


도입으로 얻고자 하는 가치 명확히 해야
어느 기술을 도입하든 마찬가지겠지만, 스트리밍 데이터 처리 프로세스 도입을 위해서는 먼저 확실한 비즈니스 목적성이 있어야 한다. 도입해 얻고자 하는 가치를 명확히 해야 한다는 말이다. 이는 빅데이터에서 말하는 7V를 정의 하는 것으로부터 시작된다. 일반적인 속도(Velocity), 크기(Volume), 다양성(Variaty) 뿐만 아니라 가치(Value), 비전(Vision), 가시화(Visualization), 그리고 신뢰성(Veracity)을 종합적으로 판단해야 한다.

예를 들어, 한 업계 관계자는 스트리밍 데이터 처리를 도입하려는 기업들이 대부분 가시화에 대해 강하게 요구한다고 설명했다. 그동안 흘러가는 채 버려지고 있던 데이터를 가시적으로 확인함으로써 새로운 인사이트를 확보하려는 목적이다. 만약 데이터 가시화에 대한 니즈를 가진 기업이 스트리밍 데이터를 순차적으로 생성되는 그리드 형태로 확인하게 된다면 많은 실망을 하게 될 것이다. 이런 경우에는 데이터 테이블 보다는 초단위로 변화하는 액티브한 대시보드가 더욱 유용하며, 데이터가 나타내는 비즈니스의 흐름을 직관적으로 파악할 수 있는 구성이 요구된다.

기술적인 관점으로 본다면, 실시간 처리 환경을 구성하는 각종 컴포넌트들이 제공하는 특징을 고려해야 한다. 처리량 증가에 대응 할 수 있는 확장성과 분산 환경으로 빠르게 데이터를 처리할 수 있는 분산 처리 능력 등을 신중하게 살펴야 하며, 이런 컴포넌트를 직접 구성했을 경우 운영환경에서 쉽게 배포하고 유지보수 할 수 있는지 여부도 생각해야 한다.

특히 스트리밍 데이터 처리는 크게 두 가지로 나누어 볼 수 있는데, 첫 번째는 유입되는 단일 이벤트에 대한 처리를 수행하고 저장하는 이벤트 단위 처리 방식이다. IoT 데이터같이 유입 속도가 빠른 데이터의 경우 데이터를 정형화 시키거나 부가 정보를 덧붙이는 등의 간단한 처리를 빠르게 수행하고 다음 처리 체인으로 전달할 필요가 있다. 처리 과정에서 지연을 최소화할 수 있기에 스트리밍 데이터 처리의 정의에 부합하는 방식이다.

두 번째는 일정양의 데이터를 모았다가 아주 짧은 주기에 맞춰 데이터를 처리하는 방식이다. 이는 엄밀히 말해 실시간(Real-time)이라기보다는 준실시간(Near Real-time)이며, 작은 배치처리를 빠르게 반복하는 마이크로배치(micro-batch)의 형태로 볼 수 있다. 이런 방식은 이벤트에 대한 간단한 상태 처리부터 기업이 가지고 있는 마스터 데이터와의 병합처리도 할 수 있다. 가령 유입된 이벤트의 정보와 기존의 고객 정보를 결합해 고객 성별을 이벤트에 덧붙이는 포스트바인딩(post-binding)이나 간단한 프리프로세싱(pre-processing)이 가능하다. 기존에 배치 형태로 유입되던 데이터도 짧은 간격으로 연속적인 유입이 가능하도록 만들 수 있다면 이와 같은 방식의 스트리밍 데이터 처리로 볼 수 있을 것이다.

두 가지 스트리밍 데이터 처리 유형은 고유의 장점을 가지고 있어 비즈니스에 따라 적합한 방식을 선택해야 하며, 필요한 경우 두 가지를 병행하는 것도 가능하다. 이벤트 단위로 빠르게 처리만 하면 되는지, 상태 처리나 마스터 데이터 병합 등의 추가적인 요건을 수행해야 하는지 고민하고 그에 적합한 솔루션을 도입해야 한다. 물론 어느 쪽을 선택하더라도 낮은 지연 시간(low latency)과 일정한 응답속도(regularities)를 보장해야하는 것은 당연하다.


하둡 생태계, 스트리밍 데이터 처리의 중추
스트리밍 데이터 처리를 위해 가장 많은 관심을 받고 있는 것은 단연 아파치 하둡(Apache Hadoop)의 다양한 컴포넌트들이다. 스트리밍 데이터 처리를 위한 프레임워크 스파크(SPARK), 스톰(STORM), 플링크(Flink) 등은 물론이거니와, 로그성 데이터 수집이 가능한 카프카(Kafka), 플럼(Flume) 등 다양한 하둡 생태계(ecosystem)의 컴포넌트들이 국내외 기업들의 스트리밍 데이터 처리 솔루션의 중요한 부품으로 사용되고 있다.

▲ 하둡 생태계의 스트리밍 데이터 처리 컴포넌트 (출처: 클라우데라)

하둡 초창기부터 배치 처리를 작은 단위로 반복함으로써 이벤트를 빠르게 받아보려는 많은 시도가 있었다. 수많은 사용자들이 달라붙었음에도 당시 하둡 생태계에 갖춰진 기술력으로는 부하를 충분히 잡아낼 수 없었고, 작업을 한 번 시도하는 데에 걸리는 지연도 상당했다. 클러스터 규모가 커지면 아무리 빨라도 수십 초 단위의 지연이 발생했기에 실제 비즈니스에는 사용할 수 없는 수준이었다.

또한 플럼 등 스트리밍 처리 전문이 아닌 컴포넌트를 이용해서 스트리밍 데이터 처리를 구현하려는 시도도 있었지만, 설정이 바뀌면 처리 모듈을 재시작 해야 한다든지 성능이 부족해 배치 작업 실행에 따른 시간 지연이 발생하는 등의 문제가 있었다. 이에 따라 하둡은 한동안 배치 처리를 위한 도구로만 사용돼왔다.

시간이 지나고 스트리밍 데이터 처리를 전문으로 수행할 수 있는 스파크나 스톰, 플링크 등이 출시되면서 하둡 기반의 스트리밍 데이터 처리가 각광받기 시작했다. 이들은 밀리세컨드 수준의 빠른 데이터 처리 성능을 가지고 있으면서도 뛰어난 안정성을 보여줬다.

또한 처리 프레임워크 앞단에서 민첩하게 데이터를 수집하고 전달해주는 문제도 뛰어난 분산 메시지큐(message queue) 기능을 통해 성능과 안정성을 확보한 카프카, 손쉽게 다룰 수 있으면서도 수많은 소스·싱크와 연계할 수 있으며 높은 확장성을 가진 플럼 등을 통해 해결됐다. 특히 플럼과 카프카는 서로의 단점을 보완할 수 있는 플라프카(Flafka) 형태로 구성함으로써 성능과 안정성, 확장성 등을 모두 갖출 수 있게 됐다.


기술적 어려움 배제해 사용자 접근성 확보
특히 스파크는 인메모리 기반의 고속 클러스터 컴퓨팅 플랫폼으로, 하둡 생태계에서 대표적인 스트리밍 데이터 처리 컴포넌트로 꼽힌다. 스파크 코어(Core)를 중심으로 SQL, 스트리밍, 그래프X(GraphX), 머신러닝 라이브러리(MLlib) 등 다양한 API로 구성돼 있으며, 국내외 많은 기업들이 자사 스트리밍 데이터 처리 솔루션에 스파크 스트리밍을 핵심적인 엔진으로 활용하고 있다.

스파크 스트리밍 기반의 솔루션으로는 KT넥스알의 ‘린 스트림(Lean Stream)’이 대표적이다. 린 스트림은 하둡 파일시스템(HDFS)과 자원 관리를 위한 얀(YARN), 스파크 스트리밍 등 다양한 하둡 프레임워크들을 린 스트림 상에서 동작하도록 한다. 기업은 각 컴포넌트에 대한 별도의 접근 없이, 린 스트림 만으로 쉽게 스트리밍 데이터 처리를 위한 시스템을 설치·유지할 수 있다.

이영호 KT넥스알 R&D2팀장은 “린 스트림의 가장 중요한 콘셉트는 사용자를 복잡한 기술에서 분리하는 것”이라고 말했다. 사용자는 데이터에 대한 스키마를 지정하고 SQL을 활용해 손쉽게 스트리밍 데이터 처리 프로세스를 구축할 수 있다. 스트리밍 프로세스의 작동 여부를 확인하기 위해서는 스파크 UI를 참조해야하지만, 린 스트림은 이를 별도의 모니터링 화면으로 구성해 실행 및 중지, 모니터링이 가능하도록 했다. 이 과정에서 스파크를 비롯해 기술적으로 복잡하고 어려운 내용은 모두 숨겨져 있다. 린 스트림은 사용자 친화적인 드래그&드롭 중심의 GUI와 코딩이 아닌 SQL 중심의 접근 방식을 제공하며, 사용자에게 어려운 기술적 지식을 요구하지 않는다.

▲ KT넥스알 ‘린 스트림’의 장점
또한 기반이 되는 컴포넌트들을 일반적인 처리 환경에서 필수적으로 요구되는 것들로 선정해 탑재함으로써 아키텍처의 복잡함 역시 제거했다. 이영호 팀장은 “고객에게 수십 개의 선택지를 제시하면 오히려 부담감을 느끼는 경우가 많다”며, “린 스트림은 스파크, 카프카, HDFS, 엘라스틱서치(Elasticsearch) 등 스트리밍 데이터 처리를 위해 핵심적인 컴포넌트들로 구성해 사용자가 선택에 대한 어려움을 겪지 않도록 했다”고 설명했다.

물론 충분한 역량을 가진 사용자를 위한 확장성 역시 갖추고 있다. 다양한 컴포넌트들과 연동할 수 있는 커스텀 방식을 제공하며, 고급 설정 기능을 통해 고유의 설정값을 적용해 해당 기업에 특화된 시스템을 구축하는 것도 가능하다. 스트리밍 처리를 거친 데이터를 위해 부가적인 검색 엔진과 OLAP 분석 도구도 활용할 수 있다.

한편 린 스트림은 최근 2.0버전으로의 업데이트가 진행됐다. 해당 업데이트에서는 스파크 2.3 메이저 버전을 반영하는 등 구성 컴포넌트의 버전 향상이 주가 됐으며, 이를 통해 많은 성능 향상을 거뒀다는 설명이다. 또한 KT넥스알은 올해 안으로 린 스트림의 영역을 확장한 ‘린 스택(Lean Stack, 가칭)’을 출시한다는 계획이다. 린 스택은 배치와 스트리밍, AI와 머신러닝, 전문 업체와의 협업을 통한 BI 기능 등이 추가되며, 린 스트림은 린 스택의 스트리밍 분야 모듈로 활용된다. KT넥스알은 린 스택을 통해 기업의 빅데이터 처리 환경 전체를 지원하는 한편, 인피티니 AI 루프(Infinity AI Loop)라는 컨셉 아래 기업의 체계화된 머신러닝 활용 아키텍처 구축을 지원한다는 방침이다.


데이터 전반에 대한 높은 이해로 빈틈없는 서비스 지원
인포매티카의 ‘빅데이터 스트리밍(Informatica BigData Streaming, BDS)’ 역시 스파크 스트리밍을 처리 엔진으로 사용하는 대표적인 스트리밍 데이터 처리 솔루션이다. 인포매티카의 다른 빅데이터 관련 솔루션들과 함께 ‘인텔리전트 데이터 플랫폼(Informatica Intelligent Data Platform)’에서 구현되므로, 단일한 플랫폼 내에서 배치와 스트리밍을 포함한 포괄적인 데이터 처리 프로세스를 구축할 수 있다. 기존의 배치 매핑을 활용 및 확장해 스트리밍 데이터 처리로 전환하는 것도 가능하다.

▲ 인포매티카 ‘BDS’ 아키텍처

인포매티카는 다양한 데이터 소스와 타깃에 대해 높은 이해도를 보유하고 있으며, 데이터 통합 과정에서의 품질 관리에도 뛰어난 기술력을 자랑한다. BDS는 이처럼 인포매티카가 가진 엔터프라이즈 데이터 통합 기업으로써의 역량에서 많은 강점을 얻으며, 스파크 스트리밍이나 카프카와 같은 하둡 생태계의 기술과 인포매티카의 데이터 통합에 대한 역량이 결합해 시너지를 발휘한다. 가령 단순히 데이터를 수집해 적재하는 것만이 아니라 실시간으로 데이터의 성격과 품질을 측정하고 의미있는 데이터로 파싱하거나 기준에 위배되는 데이터를 정제하는 것도 가능하다.

스트리밍 과정에서 데이터를 변환하고자 하는 경우에도 필터나 집계, 유니온, 룩업 등 다양한 변환 함수를 지원한다. 데이터를 준실시간으로 집계할 경우 윈도우 트랜스폼(Window Transform) 변환 로직도 사용할 수 있다. 아울러 데이터를 단순히 대시보드에 표현하기만 하는 것이 아니라, 특정 수치를 가진 데이터가 발생했을 경우 실시간 알림을 전달할 수 있는 CEP(Complex Event Processing) 도구 ‘룰포인트(RulePoint) CEP’를 보유하고 있어, 스트리밍 데이터 상에서 의미 있는 데이터를 신속하게 추출해 비즈니스 결정에 활용하고 사고를 미연에 방지할 수 있다.

데이터 소스로 카프카와 아마존 키네시스(Amazon Kinesis)를 지원하며, 고객사가 갖춘 인프라에 따라 하둡 기반의 카프카와 AWS 상에서 이용할 수 있는 키네시스를 선택해 제공할 수 있다. 또한 카프카를 통해 IoT 센서 등에서 발생하는 스트리밍 데이터를 수집하는 것은 물론, 기존의 RDB에서 발생하는 데이터를 자사 변경 데이터 캡처(Changed Data Capture, CDC) 솔루션인 ‘PWX CDC 퍼블리셔 포 카프카(PowerExchange CDC Publisher for Kafka)’로 추출해 카프카로 전달함으로써 전사적인 데이터 수집 프로세스를 실시간으로 처리하는 것도 가능하다.

이에 대해 김덕하 한국인포매티카 차장은 “배치와 스트리밍을 단일 플랫폼에서 구현할 수 있는 것은 물론, 추출이나 통합, 처리, 품질 관리 등에서 CEP나 CDC 등의 요소 기술을 가지고 있다는 것이 인포매티카의 장점”이라고 밝혔다.


최적의 TCO와 손쉬운 실시간 대시보드 제공
“스트리밍 데이터 처리의 핵심은 데이터가 생성되는 즉시 수집하고 처리해서 이상 징후를 탐지하고 즉시 사용 가능하도록 만드는 것이다. 이를 위해서는 꾸준한 부하를 견딜 수 있는 높은 안정성·가용성과 인메모리 기술 기반의 뛰어난 처리 성능이 필수적으로 요구된다.”

한편 국내 기업인 데이터스트림즈는 자체 개발한 실시간 전송 기술을 적용한 인메모리 기반의 IoT 빅데이터 플랫폼 ‘테라스트림BASS(Terastream Bigdata Archiving and Searching System)’를 보유하고 있다.

테라스트림BASS는 자체 개발한 수집 도구를 활용해 다양한 장비에서 발생하는 데이터를 빠르게 수집하고, 스트리밍 처리를 위한 메모리와 데이터 로그를 축적하기 위한 디스크 영역에 각각 데이터를 전송한다. 이를 통해 스트리밍과 배치 처리를 동시에 지원할 수 있는 것은 물론, 다양한 데이터를 여러 개의 수집 API를 통해 병렬 수집하는 동시에 실시간 처리가 요구되는 데이터를 메모리에 분산해 빠르게 처리하고 HDFS에 저장함으로써 대량의 데이터에 의한 디스크 부하를 완충하는 버퍼 역할을 수행하게 된다.

▲ 데이터스트림즈 ‘테라스트림BASS’ 아키텍처

또한 데이터 안정성을 높이고 무중단 서비스를 구현하기 위해 서버 및 노드 이중화를 지원하며, 슬레이브노드의 데이터를 서로 다른 서버에 3중 복제(replication)하는 방식으로 99.9%의 가용성을 확보했다. 업무 증가에 따라 필요할 경우 스케일아웃 구조로 무제한 확장 역시 가능하다.

아울러 SQL 기반의 데이터 시각화 및 분석이 가능해 높은 접근성을 제공한다. 웹 UI 상에서 자체 쿼리 분석기를 통해 데이터를 조회하거나 다양한 형태의 차트 등 시각화 자료로 표현할 수 있으며, 작성된 시각화 자료를 조합해 손쉽게 대시보드를 구성할 수 있다. 이를 위해 별도의 코딩이 필요하지는 않으며, GUI 상에서 원하는 데이터를 선택하거나 간단한 SQL 명령을 통해 실시간 데이터 조회 및 피보팅이 가능하다.

국산 솔루션으로써 갖는 뛰어난 기술지원 환경과 경제적인 비용 역시 테라스트림BASS의 장점이다. 박시영 데이터스트림즈 DI팀장은 “테라스트림BASS는 최적의 TCO로 초당 100만 건에 이르는 실시간 인덱싱이 가능한 것은 물론, 장기적으로 사업이 확장되더라도 별도의 아키텍처 변화나 서비스 중단 없이 유연한 확장이 가능하다. 또한 다양한 소스에서 쏟아지는 데이터를 자체 BDI API를 통해 안정적으로 처리할 수 있는 최적의 솔루션”이라고 밝혔다.


성능과 데이터 일관성 사이의 트레이드오프
수집이나 처리 과정에서 데이터가 유실되는 것은 중대한 문제다. 파편화 돼있거나 결함이 있는 데이터는 정확성이 떨어지게 마련이고, 분석 결과의 신뢰성을 떨어트린다. 하지만 스트리밍 데이터 처리 솔루션을 제공하는 기업들은 이러한 데이터 유실이 충분히 있을 수 있는 일이라고 설명했다. 스트리밍 데이터 처리는 일부 데이터가 유실되거나 불완전한 데이터를 만들 수 있지만, 이러한 단점이 스트리밍 데이터 처리의 유용함을 훼손하지는 않는다는 설명이다.

예를 들어 자사 홈페이지의 최근 한 시간 내의 방문자 수를 확인하고 싶다고 하자. 첫 번째 방법은 단 한 명의 오차도 없는 정확한 방문자 수를 집계할 수 있지만, 결과를 내일 아침에야 받아볼 수 있다. 다른 방법은 지금 즉시 결과를 확인할 수 있지만, 10,000명 당 1명의 오차가 발생할 수 있다. 이 경우 약간의 오차를 감수하더라도 후자를 택해 ‘지금 당장’ 방문자 수를 확인하려는 경우가 많을 것이다.

이영호 KT넥스알 R&D2팀장은 “만약 실시간으로 생성되는 모든 데이터를 정확히 확인하고 처리해야 된다면 절대 데이터가 유실되지 않는 정밀한 시스템이 필요하고, 이는 보다 복잡한 체계를 요구한다. 그런데 홈페이지 방문자수와 같은 데이터는 12억 명이나 12억1천 명이나 큰 차이가 없으며, 이러한 경우 오차를 줄이기보다는 빠르게 데이터를 확보하는 것이 유리하다”면서, “이는 성능과 데이터 일관성 간의 트레이드오프(trade off)다. 데이터의 중복이나 유실이 큰 문제를 일으키지 않는 경우, 무시할 수 있을 정도의 오차를 감안하고 최대한 빠르게 데이터를 처리·확인할 수 있는 체계를 확보하는 것”이라고 설명했다.

이는 배치 처리와 스트리밍 데이터 처리를 병행하는 것으로도 보완이 가능하다. 데이터 처리 프로세스를 이중으로 구성해 스트리밍 단에서는 오차를 감안한 빠른 처리를 우선시하고, 배치 단에서는 데이터의 정확도를 우선시하는 것이다. 이를 통해 스트리밍 데이터 처리로 비즈니스에 민첩함을 더하면서도 장기적으로는 정확도 높은 데이터를 축적할 수 있다. 따라서 스트리밍과 배치를 함께 수행할 수 있는 체계를 갖추는 것이 유리하다.

이와 더불어 스트리밍 처리를 일부 위험성이 높은 도메인에 적용하는 것에도 사전에 충분한 검토가 필요하다. 가령 사용자의 위치를 실시간으로 파악해 인근 가게의 쿠폰을 날려주는 시스템은 쿠폰을 날리지 않아도, 엉뚱한 쿠폰을 날려도 큰 문제가 발생하지는 않는다. 그러나 자율주행자동차가 중앙관제시스템에서 실시간으로 지시를 받아 주행할 경우, 아주 작은 데이터 유실이나 네트워크 지연만으로도 큰 사고가 일어날 수 있다. 이런 분야에서는 성능과 데이터 일관성을 저울질해서는 안 되며, 반드시 뛰어난 정확도를 갖춘 시스템을 도입해야 한다.

박시영 데이터스트림즈 DI팀장은 “이상 데이터가 유실된다고 하더라도 이것이 일회성이라면 문제 상황이 아닐 수 있다. 이상 데이터가 반복적으로 발생할 경우에는 문제가 발생한 상황이며, 반복적으로 발생하는 데이터가 모두 유실될 가능성은 거의 없으므로 놓칠 리는 없다”면서, “반면, 단 한 번의 이상도 놓쳐서는 안 되는 중요한 시스템이라면 성능보다 정확도를 우선시하는 체계를 갖춰야 한다”고 조언했다.


스트리밍 데이터 처리 관심 증가…시장 확대는 불투명
최근 국내에서 스트리밍 데이터 처리에 대한 수요가 빠르게 확산되고 있다. 업계 한 관계자는 지난해에 배치 처리 중심의 솔루션에 대한 문의가 대부분을 차지했지만, 올해 1분기에는 스트리밍 데이터 처리 솔루션에 대한 문의가 폭발적으로 증가했으며 이미 다수의 기업들을 대상으로 PoC를 진행 중이라고 밝혔다. 아직 상반기가 지나지 않았음에도 지난해보다도 많은 고객 문의가 들어왔다는 설명이다.

아울러 이미 배치와 스트리밍 처리를 도입해 사용하고 있었던 선도적인 기업들에서는 이 두 가지를 통합해 사용하려는 수요가 발생하고 있다. 배치 처리 프로세스와 스트리밍 처리 프로세스를 순차적으로 도입하다가 이를 별도로 구현한 기업들이 많고, 이에 따라 개발자들과 담당 인력들이 나뉘어 있어 관리가 어렵기 때문이다. 이에 따라 배치와 스트리밍 처리를 동시에 수행할 수 있는 솔루션들에 대한 문의가 빠르게 증가하는 추세다.

다만 시장 기회가 많아진 것에 비해 아직 국내에서 눈에 띌만한 매출 변동이 일어나지는 않은 것으로 보인다. 스트리밍 데이터 처리에 대한 관심이 증가한 것은 사실이지만, 아직까지는 정형데이터를 배치성으로 적재하고 분석하는 것이 대부분이다. 데이터의 실시간 처리에 대한 가치를 이해하고 장기적으로 관련 솔루션을 도입할 계획이기는 하지만, 아직은 충분한 검증이 이뤄질 때까지 보류하고 있는 기업들이 많다.

김덕하 한국인포매티카 차장은 “최근 고객사들의 수준이 많이 올라갔다는 것을 느낀다. 과거에는 고객들에게 실시간 데이터 처리를 개념부터 설명해야 했다면, 지금은 고객들이 실시간 처리가 무엇이며 이를 구현하기 위해서는 어떤 준비가 필요한 지도 이해하고 있다”고 설명했다. 이러한 기업들은 스트리밍 데이터 처리를 구현하기 위해 다양한 업체들과 PoC를 진행하고 있으며, 알맞은 솔루션을 도입하거나 자체적인 개발 여부를 결정하는 단계다.

물론 글로벌 선도 기업들에 비하면 국내에는 아직 데이터의 배치나 스트리밍 처리는커녕 자사에 축적돼 있는 데이터의 활용 프로세스도 갖추지 않은 기업들이 많다. 하지만 보다 민첩한 비즈니스 체계를 갖추고자 하는 기업들은 스트리밍 데이터 처리에 대한 필요성을 인식하고 있으며, 데이터의 가치를 이해하고 이를 분석 및 처리하기 위한 환경이 구축돼 있는 경우 더더욱 더욱 신속하게 데이터로부터 인사이트를 얻고자 한다.

KT넥스알 관계자는 “보다 많은 기업들이 빅데이터 처리를 내부적으로 시도해보면서 새로운 비즈니스 기회를 찾아나가길 바란다”면서, “스파크를 포함해 최근의 빅데이터 관련 기술을 활용하면 큰 노력 없이 기존과는 다른 가치를 얻을 수 있을 것”이라고 덧붙였다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지