전용준 리비젼 컨설팅 대표/경영학 박사

 
[아이티데일리]

예측 분석이다
: 빅데이터의 다음 단계는

에릭 시겔 지음, 고한석 옮김, 408쪽, 이지스퍼블리싱

추천독자대상 - 빅데이터 사업을 기획 또는 관리해야 하는 실무자와 관리자

이 책은 이미 서점가에서 인기를 끌고 있는 책 중 하나이다. 많은 사람들이 빅데이터에 대해 관심을 가지고 있는 것과도 결코 무관하지 않다. 그럼에도 이 책을 소개하고 일독을 권하고 싶은 이유는 이 책이 분석이라는 것의 본질을 이해시키고, 그 가치를 실전에서 찾도록 인도하고 있기에 더 많은, 적어도 빅데이터에 대해 무언가를 이야기하거나 판단해야 하는 사람들이 읽기를 기대해서이다.

지위고하를 막론하고, 누구든, 제발, 단 한 푼이라도 빅데이터에 대한 돈을 쓰기 전에 먼저 이 책을 주문하라고 이야기 하고 싶다.

이미 1990년대부터 대학에서 기계 학습, 텍스트 마이닝, 데이터 시각화 등의 분야를 가르쳤고, 포춘 100대 기업들 대상으로 전략 및 마케팅을 위한 분석 서비스를 실제 제공해온 저자는 데이터 마이닝을 이용해 컴퓨터 보안, 사기 감지, 언어학 및 정보검색 분야에서 다양한 문제들을 해결해온 실무자라 할 수 있다.

저자는 ‘Prediction Impact’라는 회사의 CEO로, ‘Predictive Analytics World’라는 컨퍼런스의 의장이기도 했고, 콜럼비아대에서 머신러닝 분야를 가르치기도 했다. IBM에서 자연어 분석을 연구하던 경력도 가진 그는 정확하게 이 주제에 대한 책을 써야만 할 사람으로 보인다.

“얼마나 짧은 생각이었는지. 왜 방대한 데이터를 수집하려 하는지 그 이유는 생각도 안 한 채 단순히 데이터 저장 방법에 대해서만 생각하고 있었다. 이 책을 읽고 보니 얼마나 잘못 생각하고 있었는지를 알게 되었다. 예측분석이라는 큰 줄기를 따라 다양한 구축사례들을 보여준다. 정작 데이터를 가지고 어떠한 일을 할 수 있는지에 대한 부분은 대부분의 책이 잘 다루지 않는 것이 현실이지만 이 책은 그 부분을 채워준다.” 독자서평으로 모 인터넷 서점에 올라온 글 중 하나이다.

전 직원을 대상으로 퇴사 영향 요소를 파악하여 ‘이직 위험’ 점수를 매긴 HP의 사례, 단순한 반응률을 목표로 한 CRM에서의 캠페인 타깃팅이 아닌, 반응 향상 모델링(Uplift Modeling)을 적용하기, 기계 학습을 통한 자연어 처리의 잠재적 가능성 등과 같은 상당히 어려운 주제, 높은 수준의 실제로 현장에서 고민거리인 실전 문제들을 최대한 쉽게 설명한다. 기업, 병원, 정부기관, 교육기관 등 다양한 조직들이 어떻게 과거 데이터를 활용하여 미래를 예측해 성과를 얻는가를 풀어서 설명한다.

이제 조직의 생존은 예측분석에 달렸다 해도 과언이 아니다. 이미 2015년은 예측분석이 주류로 입지를 가질 것으로 많은 조사기관들이 예상하고 있다. 구글, 페이스북, 애플이 인수한 업체들이 모두 예측 분석과 깊은 관련이 있으며, 아마존은 예측배송을 실시하겠다고 한다.

실리콘밸리의 기업들만 예측분석에 관심을 갖는 것은 아니다. 쇼핑몰의 고객 예측, 웹사이트 광고 클릭, 주식 투자, 통신사 고객 이탈, 은행의 대출 리스크, 경찰의 범죄 예방, 구급차 운용, 의료보험사기 방지, 대통령 선거에 이르기까지 규모나 업종, 분야에 무관하게, 중소기업이나 대기업, 정부기관이나 데이터 과학과 예측을 활용해서 수익을 내고, 안전을 보장하고, 미래에 대비하고 있다.

이 책은 따지고 보면 주제 자체가 매우 딱딱하고 무거운 기술에 대한 책이다. 데이터 마이닝, 혹자는 머신러닝이라고도 부르고, 인공지능과 구별하지 않고 부르기도 하는 또는 데이터 과학이라고 별 구별없이 부르는 그 부분을, 그 정체도 정의도 불명확한 대상을, 어떻게 이해하고, 어떻게 활용할 것인가를 설명하고 있다.

주제의 무거움에 비해 그리 딱딱하지 않게 실제 사례를 들어가면 설명해간다. 의사결정 나무, 휴리스틱, 네트워크 분석, 앙상블 기법, 텍스트 분석, 예측 최적화 등 제목만 들으면 너무나도 어려운 이야기들을 조금 읽다 보면 이해가 갈 수 밖에 없도록 요리해 두었다.

정부기관, 지방자치단체, 기업, 병원, 교육기관 등 다양한 조직들이 어떻게 과거의 기록인 데이터(‘빅’ 데이터든 ‘스몰’ 데이터든)를 활용해 미래를 예측하고 거기서 성과를 향상시킬 수 있는지가 들어있다. 이 책을 읽고 나면, 더 이상 장바구니 분석으로 불리는 맥주와 기저귀 사례가 월마트에서 벌어진 일이 아니라는 사실도 알게 될 것이고, 타겟이 임신사실을 파악한 것이 윤리적인 문제로 보여진 것은 미디어의 흥행몰이에 불과했었던 해프닝임도 알게 될 것이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지