11.14
주요뉴스
뉴스홈 > 칼럼
빅 데이터에 대한 4가지 접근신용원 SAS코리아 전무

▲ 신용원 SAS코리아 전무



"거의 모든 것들이 빅데이터와 관련된 문제라고 느끼십니까?"
"왜 모든 벤더들은'빅 데이터'나'빅애널리틱스(Big Analytics)'솔루션을 다룬다고 이야기하는 걸까요?"
"빅애널리틱스가 빅 데이터보다 더 중요하다고 생각하시나요?"
"그렇다면 그 차이는 무엇일까요?"


"거의 모든 것들이 빅데이터와 관련된 문제라고 느끼십니까?""왜 모든 벤더들은'빅 데이터'나'빅애널리틱스(Big Analytics)'솔루션을 다룬다고 이야기하는 걸까요?""빅애널리틱스가 빅 데이터보다 더 중요하다고 생각하시나요?""그렇다면 그 차이는 무엇일까요?"

"거의 모든 것들이 빅데이터와 관련된 문제라고 느끼십니까?""왜 모든 벤더들은'빅 데이터'나'빅애널리틱스(Big Analytics)'솔루션을 다룬다고 이야기하는 걸까요?""빅애널리틱스가 빅 데이터보다 더 중요하다고 생각하시나요?""그렇다면 그 차이는 무엇일까요?"

여러 기업과 정부 리더들에게 빅 데이터의 시장 동향을 설명하는 과정에서 업계가 많이 혼란스러워 하는 것을 볼 수 있다. 당면한 문제가 어디서 비롯된 것인지 즉, 단순히 기본적인 빅 데이터의 문제인지, 빅애널리틱스에서 파생된 문제인지를 명확히 하는 것을 힘들어하고, 솔루션이 어떤 도움을 줄 수 있을지 확신하지 못하고 있다.

상황을 좀더 분명히 인식할 수 있는 한 가지 방법을 소개한다. 실제로 이 방법은 기업들이 어떤 유형의 분석 문제에 당면해 있는지를 이해하는 데 도움을 줄 뿐만 아니라, 때로는 그 문제가 어디에서 파생된 것인지를 깨닫도록 도와주기도 한다.

예를 들어보자. 보유하고 있는 데이터의 양이 그다지 크지 않은데도 오퍼의 종류가 많아 마케팅 최적화 작업을 수행하는 데 5시간씩이나 소요되는 경우를 생각해 보자. 이 경우 데이터 레코드가 많지 않더라도 데이터에 대해 다양한 접근경로를 생성하면서 각 단계마다 복잡한 알고리즘을 실행해야 한다. 이는 단순한 빅 데이터의 문제가 아니라 빅애널리틱스의 문제라고 할 수 있다.

그 차이점을 좀더 자세히 살펴보자.



사후 대응과 사전 대비 분석의 차이

제일 먼저 해야 할 일은 '사후 대응적'분석과 '사전 대비적'분석의 차이점을 재검토하는 것이다. 표준 비즈니스 보고서, Ah Hoc 보고서, OLAP, 그리고 심지어 분석에 기초한 경보와 알림 기능까지도 사후 대응의 범주에 속한다.

사후 대응적 분석 기법이 매우 유용할 때도 있다. 수많은 재무 및 준법 관련 보고 업무에 필요하고, 비즈니스 사용자들이 매일 Ah Hoc 분석 작업을 수행하는 데 도움을 준다.

단, 이 분석 기법은 과거에 관한 정보에만 국한된다는 단점이 있다.

반면에 최적화, 예측(predictive) 모델링, 예측(forecasting), 통계 분석과 같은 사전 대비적 분석은 미래 지향적 특성을 지닌다. 이 기법은 트렌드와 약점을 파악할 뿐만 아니라 미래 의사결정에 필요한 조건과 상황을 평가할 수 있게 해주기 때문이다. 그리고 여기에는 종속성 비중이 큰 복잡한 문제의 최적화, 예측 모델링, 회귀 분석, 사전 대비적 의사결정을 위한 기타 고급 기법들이 포함된다.



▲ 사후 대응적 분석과 사전 대비적 분석





네 가지 유형의 데이터 분석 솔루션

다음으로 정의해야 할 대상은 바로, 빅 데이터이다. 간단히 말해서 전통적인 데이터베이스 시스템의 용량 기준을 초과하는 경우 '빅 데이터'를 떠올리면 된다. 그 바로 전 단계를 '성장 데이터(growing data)'라고 지칭할 수 있다. 이 역시 대용량 데이터이지만 아직 빅 데이터 규모의 수준에는 미치지 못한 상태를 말한다.

이제 우리는 엄청나게 많은 양의 데이터를 저장할 수 있게 됐다. 하지만 종래의 스토리지 환경이 사전 대비적 분석에 적합하지 않아 처리 시간이 오히려 더 길어지는 상황이 발생하곤 한다. 처리 시간이 허용 한계치에 도달하는 순간, 사용자는 빅 데이터의 사이즈뿐만 아니라 빅애널리틱스까지 신경 써야 한다. 차이점을 좀더 명확히 이해하기 위해 사후 대응적 분석과 사전 대비적 분석을 Y 축으로 하고 데이터의 크기를 X 축으로 하는 도표를 만들어 보았다.



▲ <그림> 데이터의 크기와 분석 능력





이를 통해서 우리는 분석 시장에 네 가지 유형의 소프트웨어 솔루션이 존재한다는 것을 알 수 있다.

첫째, '비즈니스 인텔리전스(BI)'이다. 만일 대용량 데이터를 처리하고, 최종 사용자에게 리포팅 능력을 제공하여 정보 액세스, 데이터 요약, 데이터 드릴 다운같은 작업을 수행할 수 있게 하고 있다면, 이는 비즈니스 인텔리전스 애플리케이션을 사용하는 것이라고 말할 수 있다. 과거 회사의 다양한 성과 측면을 면밀히 살펴볼 수 있게 해주는 이 방법은 그림 왼쪽 아래에있는 '비즈니스 인텔리전스'이다.

둘째, '빅 데이터 BI'이다. 지금부터는 데이터의 덩치가 점점 더 커진다. 수많은 회사들이 경험하기 시작하는 것처럼 이런 상황에서 외부 데이터 소스를 취급하거나 비정형데이터가 유입되면 상황도 점점 더 복잡해진다. 사용자들이 필요한 정보를 얻는 데 지나치게 많은 시간이 걸리거나 과거와 달리 신속하게 보고서를 제공할 수 있도록 데이터 소스들을 결합하는 데 어려움을 겪게 되면서 고속 데이터 액세스를 위한 기술이 필요하게 된다.

그러나 이 방법도 여전히 사후 대응적 분석의 범주에 머물러 있다. 이 방법은 현재 시장에서 가장 일반적으로 통용되고 있는 빅 데이터 시나리오로, 대부분의 조직은 SQL 기반의 솔루션으로 이 문제를 해결하려고 한다. 그림의 오른쪽 아래가 여기에 해당한다.

셋째, '빅애널리틱스'이다. 앞서 언급한 것처럼 미래 지향적 의사결정을 지원하기 위해서는 다른 차원의 분석이 요구되며, 고객 선호, 가격인하 최적화,사기 예측 등의 문제를 다루려면 또 다른 유형의 아키텍처가 필요하다. 더 많은 양의 데이터와 사전 대비적 분석 기법이 요구되는 것이다.

데이터의 크기 때문에 속도가 느려지는 것이 아니다. 데이터에 대해 다양한 접근 경로를 생성하여 결과물을 얻어내는데 엄청난 시간이 걸리고, 더 많은 처리 시간을 필요로 하는 고급 분석 계산 작업을 실행해야 하는 것이 문제이다.

하지만 오늘날과 같은 치열한 경쟁 환경에서는 수분 심지어 수초 안에 해답을 얻어낼 수 있어야 한다. 이것이 바로, 그림 왼쪽 위에 있는 '빅애널리틱스'이다.

마지막으로 '빅 데이터 분석'이다. 그렇다면 방대한 양의 데이터를 보유하고 있고, 사전 대비적 의사결정을 다루는 조직의 경우는 어떨까?

우리는 수많은 소매점들을 대상으로 수억 개의 SKU(상품 가짓수)를 관리해야 하는 상황에 있다. 또한 제조업이나 보험업에 도움이 될 수 있는 자동차 산업의 텔레매틱스 데이터 같은 미래의 데이터 소스를 살펴보고자 한다. 이것들 대부분은 기업이 여태껏 다루어 보지 않았던 새로운 유형의 문제이다. 사소한 데이터의 문제가 아니다. 따라서 단순히 그 정보를 요약하는 것만으로는 만족할 수 없다. 제조업체들은 안전 문제가 고객에게 심각한 영향을 미치기 전에 문제를 예측하고자하며, 보험사들은 무사고 운전자들을 위한 보험 요율을 조정하고자 한다. 이것이 바로 <그림> 오른쪽 위에 있는 '빅 데이터 분석'이다.


문제에 대한 명확한 인식이 우선

어느 것이 다른 것보다 낫다는 얘기가 결코 아니다. 기업들은 저마다 다른 특성의 문제를 지니고 있으며, 서로 다른 아키텍처를 필요로 한다. 따라서 자신의 비즈니스와 시장에서 무슨 일이 벌어지고 있는지 살펴보면서 이 네 가지 영역의 차이점을 이해하고, 서로 다른 문제들을 어떻게 해결할 수 있는지 고민해야 한다.

시장에서는 분석이라는 용어를 여전히 폭넓게 사용하는 경향이 있다. 하지만 관건은 해결하고자 하는 문제를 먼저 검토하고, 자신이 어떤 상황에 속하는지 파악해보는 것이다. 그러면 빅 데이터의 여정에서 한 단계 더 도약할 수 있는 발판을마련할 수 있게 될 것이다.

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오