11.17
뉴스홈 > 칼럼
[특별연재(5)] 데이터를 잘 써먹을 수 있는 구체적인 방법들데이터베이스는 분석을 위해 최적화 되어야(유혁 Willow Data Strategy 대표)

   
 ▲ 유혁 Willow Data Strategy 대표



[컴퓨터월드] 유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명성을 얻고 있는 세계적인 데이터 전략, 빅 데이터 애널리틱스 전문가이다. I-Behavior의 공동창업자/CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이터베이스 설계, 통계학적 모델을 활용한 타깃마케팅 등 마케팅과 IT간의 가교에 큰 기여를 해왔다.
유혁 대표의 오랜 전문가로서의 경험을 바탕으로 국내 사용자들과 독자들에게 보다 데이터를 효과적으로 잘 사용하면서 시행착오를 줄일 수 있는 방법을 특별연재를 통해 소개하고자 한다. 금융, 통신, 미디어, 유통, NGO 등 다양한 글로벌 고객들과의 현장 경험에서 우러나온 애정 어린 충고와 쓴 소리에 독자들의 많은 관심을 부탁드린다. 편집자 주

필자는 데이터 전문 분야에 오래 종사해온 많은 사람들이 그렇듯이 사실 이 “빅 데이터”란 표현을 그리 좋아하지 않는다. 심지어는 “빅 데이터” 거품이 다 꺼지고 그 말의 효용도가 바닥을 칠 시기를 대비해서 ‘의사 결정에 데이터를 분석하여 사용하는 활동’이란 의미를 가진 다른 말을 벌써 생각하고 있는 이들도 있다.

하긴 데이터를 늘 다루어 오던 사람들의 입장에서 이 빅 데이터의 유행은 좋은 점도 있고 나쁜 점도 있다. 좋은 점은 “당신은 뭐 하는 사람이냐”라는 질문이 들어왔을 때 과거에 장황하게 설명해야 했던 것을 이제는 그 단어가 적합하건 아니건 “빅 데이터”라는 단 한마디로 대답할 수 있다는 것이다. 또한 많은 사람들이 데이터 관련 분야에 관심을 가지기 시작하니 과거에는 상상할 수 없었던 장소와 위치에서 발언권이 자주 주어지기도 한다.

나쁜 점은 유행이 지나치다 보니 벌써 거품이 많이 끼어 있고, 어떨 때는 본질보다 거품이 더 주목을 받을 때도 많다는 것이다. 과도한 유행은 과도한 투자로 이어지고, 과도한 투자는 실망으로 이어지며, 그 실망은 해당 유행어와 관련된 모든 사람들에 대한 질책으로 귀결되는 것에 예외가 없다.


“빅 데이터 하셔서 재미 좀 보셨습니까?” 

필자가 미국에서든 한국에서든 빅 데이터 관련 강연을 할 때 항상 하곤 하는 첫마디는 “빅 데이터 하셔서 재미 좀 보셨습니까?”이다. 데이터를 만지고 분석하는 것도 다 비즈니스를 하는데 도움이 되자고 하는 일이기 때문이다. 데이터를 다루는 일이 기술 인력들의 취미생활을 위한 놀이터는 아닌 것이다.

사실 빅 데이터란 말 자체도 툴 셋과 소프트웨어를 만드는 회사들이 용량과 속도를 내세우기 위해 만든 것이다. 흔히 일컬어지는 정의인 3V, 즉 Volume, Velocity, 그리고 Variety도 그런 맥락이다. 즉 “크고 빠르고 다양하다”가 빅 데이터의 정의인 셈인데, 그것이 과거의 데이터 비즈니스나 데이터베이스 마케팅과 차별을 두기 위한 협소한 정의라면 모르겠지만, 요즘 식으로 “의사결정에 데이터를 분석하여 사용하는 것”을 다 아우르는 정의라면 그것은 문제가 있다. 

그냥 데이터가 많고 빠르고 다양하기만 하면 모든 대답이 다 거기에 있다는 식의 오해를 낳을 수 있기 때문이다. 실제 상황을 보면 그건 천만의 말씀이다. 그런 식의 정의는 광산에서 금만 캐오면 그것이 저절로 금시계로 둔갑해서 시간도 알려준다는 식인 것이다. 

그렇게 본질을 놓치게 되는 대표적인 모습은 빅 데이터 관련 강연에서 종종 보이곤 한다. 그런 주제의 강연들에서는 흔히 하루에 2.5 quintillion byte (혹은 exabyte)의 데이터가 모인다는 식의 통계가 꼭 등장하곤 한다. 그런데, 1 quintillion byte가 1 gigabyte의 10억 배인 것을 감안하면 엄청나게 큰 숫자인 것은 분명하지만, 그런 식으로 데이터의 크기를 강조한다고 해서 “데이터가 내 사업에 왜 도움이 되는 것이지?”라는 근본적인 질문에 대한 대답이 나오지는 않는다는 것이다.  

그것은 마치 배고픈 사람을 앉혀놓고 지구상에서 매년 수확되는 쌀의 알갱이 수가 얼마냐는 통계숫자만 나열하는 형국이다. 단언컨대 그 배고픈 사람은 이미 지어진 밥 한 공기가 더 아쉬운 것이지 쌀 알갱이 숫자는 그에겐 그냥 0이 많이 붙어있는 숫자일 뿐이다. 마찬가지로 아무리 데이터에 둘러싸여 있어도 질문에 대한 대답이 나오지 않으면 아무런 소용이 없는 것이다. 


빅 데이터는 질문에 대답할 수 있어야 도움 돼
 

데이터의 용량과 처리 속도는 지난 수십 년간 계속 커지며 빨라져 왔고, 그 자체는 이미 뉴스 거리도 안 된다. 빅 데이터라는 말 자체가 ‘크기’를 표현하고 있지만, 크기와 속도만 자랑하는 것은 본질을 놓치는 첩경이며 많은 실망을 가져오게 되어있다. 그것이 내년이건 내후년이건, 운이 좋아서 앞으로 몇 년을 두고 그 말을 우려먹을 수 있건 간에, 데이터로 수익을 올리거나 지출을 가시적으로 줄이지 못하면 심판의 날은 반드시 오기 마련이다.

그렇다면 무엇이 본질인가? 필자가 감히 정의를 내리자면 빅 데이터는 ‘사람들의 질문에 대한 대답’의 형태로 이루어져야만 사업이나 의사결정에 도움이 된다. 역설적으로 표현하자면, 빅 데이터는 “반드시 작아져야만 하는 것”이라고 말하고 싶다. 

어차피 사람들이 알고 싶어하는 대답은 한마디로 yes냐 no이냐 이거나, 그것이 여의치 않으면 어떤 가능성에 대한 확률(예를 들자면 회사 야유회 날 비가 올 확률, 어떤 사람이 특정 상품을 선호할 확률, 고객의 미래 가치 등)인 것이지 수천 수만, 심지어는 조 단위 숫자의 데이터 조각들이 아닌 것이다. 그리고 그렇게 데이터가 작아지려면 (1) Cut down the noise, 즉 데이터에서 잡음을 줄이고, (2) Provide insight, not data, 즉 데이터가 아닌 ‘통찰력이 담긴 내용’을 주어야 한다는 것이다. 그것은 마치 금 한 덩어리를 얻기 위해 많은 잡석을 버리는 것과 비슷한 이치이며, 그것이 큰 덩어리의 데이터에서 알맹이로 줄여나가는 과정이다.

그런 데이터 가공의 중심에는 이 책의 3장 “빅 데이터의 핵심은 분석이며 분석의 중심은 모델링”에서 설명했듯이 많은 데이터의 수렴과 통계적 모델이 필요하다. 이 모델링의 이점에 대해서는 이미 충분한 설명이 있었으므로 여기에서 빅 데이터 시대에 중요한 한가지만 다시 강조하겠다. 통계적 모델의 결과인 모델 점수, 즉 Model Score는 간단한 대답의 형태를 가지고 있으면서도 아주 많은 데이터를 효과적으로 함축하고 있기 때문에 데이터를 작은 형태로 만드는데 그 이상의 방법은 찾기 어렵다는 것이다. 


금을 얻기 위해 많은 잡석을 버리는 데이터 가공 필요 

하지만 데이터가 마케팅 등에 오랫동안 쓰여져 온 미국에서도 이런 모델링에 대한 상담을 하다 보면 많은 벽에 부딪치게 된다. 예를 들자면 온라인 슈퍼마켓을 운영하는 회사가 엄청난 데이터가 쌓여 있는데도 그 보물창고에서 몇 가지 질문에 대한 대답만을 아주 기본적인 query로 겨우 꺼내 보고 있으면서도, 도무지 어디서부터 그 ‘고등적인 분석’을 시작해야 할 지 엄두도 못 내는 경우도 있다. 

전문가 입장에서 보기엔 정말 안타까운 일인데, 아이러니컬 하게도 더 효율적인 데이터의 분석을 가로막고 있는 사람들은 다름 아닌 그 회사 데이터베이스의 수문장 격인 IT쪽 사람들인 경우가 많다. 많은 사람들은 자신들이 구축한 데이터를 줄이거나 가공하는 것에 대해 거의 공포심을 가지고 보호막을 치며, 모델을 이용한 고등적 분석이 가치가 있을 수도 있겠지만 안하고도 잘하고 있는데 왜 사서 고생이냐는 식으로 둘러 말한다. 그리고 그런 태도는 마케팅을 오래 해온 사람들에게서도 발견될 수 있다. 그 안 된다는 이유들을 들어보면 상황을 제대로 판단하는 데 많은 도움이 되므로, 몇 가지 예를 들어보겠다. 
  

▶ “타깃이 너무 작다” 

상황과 산업 분야에 따라 그럴 수도 있다. 대상의 숫자가 작으면 각개격파 식의 영업을 통한 전략이 효과적일 수도 있다. 하지만 그 대상을 전부 같은 방법으로 같은 메시지를 가지고 접근하는 것은 전근대적인 방식이다. 데이터는 “누구부터 상대해야 하지?”라는 질문에 대한 대답도 줄 수 있으며, 또 누군가를 상대하기로 정했으면 “어떤 상품과 메시지를 어떤 채널로 접근해야 하지?”라는 질문에도 답을 준다. 그것이 데이터 가공과 모델링으로 이루어질 수 있다. 

어떤 영업사원이 하루에 전화를 백 통 이상 걸어야 하는데 팔고 있는 상품에 대해 누가 더 호의를 가질 지 확률적인 점수로 미리 알 수 있다면 점수가 높은 사람부터 상대하는 것이 그냥 가나다 순으로 무작정 전화를 거는 것보다 훨씬 더 효율적이다. 타깃이 너무 크다면 그야말로 타깃 마케팅의 고전적 정의에 따라 그 대상을 통계를 이용해 줄여나가는 게 우선이다. 

▶ “데이터가 빈약하며 예측력이 있는 변수가 부족하다” 

불과 십 수년 전만 해도 이런 핑계가 통했지만 지금은 아니다. 사방에 널린 게 데이터이니 데이터가 부족하다면 그것은 수집 단계에서부터 뭔가가 잘못되어 있다는 뜻이다. 아니면 수집이 되어 있어도 정리가 제대로 되어 있지 않던가(fragmented and unstructured), 너무나 지저분하여 의미를 찾기가 어렵다는 경우이다. 먼저 예를 든 온라인 슈퍼마켓의 경우도, 거기서 파는 모든 상품을 종류별 효용별로 구분해 놓지 않으면 그 다음 단계의 분석이 극도로 어려워지며, IT부서에서 그런 데이터를 “잃지 않고 쌓아 놓은 것”만을 자랑하고 있을 처지가 아닌 것이다. 

상품별 구분뿐만 아니라 사는 사람의 선호도도 구분할 수 있게 어느 물건이 저칼로리인지, 유기농이라고 표시되어 있는지, 설탕 함량은 얼마나 되는 지까지도 정리를 해놓으면 전혀 생각하지 못했던 사람들의 행동까지도 예측이 가능하게 된다. 빅 데이터 시대에 살고 있으면서 데이터가 모자라다는 것은 말이 안 된다. 데이터의 예측력이 떨어진다는 것도 충분히 깊이 파고 들어가지 않았다는 뜻이다. 

▶ “1-to-1 마케팅에 대한 계획 자체가 없다” 

과거에는 1-to-1 마케팅이 디렉트 메일(Direct Mail)이나 이메일 마케팅(Email Marketing) 등에 국한되어 있었지만 이제는 모든 채널을 일대일 매체로 사용할 수 있는 시대이다. 사람들은 이미 온갖 종류의 화면을 통해 정보를 대하고 있으며, 그것이 TV 화면이던, 스마트폰이건, 컴퓨터이건, 태블릿이건, 손목에 찬 시계이건, 심지어 길거리에 있는 화면이건 그것을 보는 사람을 상대하는 것은 기본적으로 일대일의 개념인 것이다. 

그 대상이 누구인지 알 수 있으면 맞춤형 마케팅이 가능한 것이고, 만약 그 상대의 정체를 구체적으로 알지 못하더라도 주변 데이터를 종합해서 기본적인 프로파일링(Profiling)은 가능한 것이다. 모든 사람에게 다 같은 메시지를 반복적으로 보여주며 그저 누가 걸려들기를 바라는 것은 구시대적인 접근이다. 그러한 차별화는 많은 데이터를 이용한 모델링과, 그것이 여의치 않으면 기본적인 프로파일링으로라도 이루어져야 한다.

▶ “예산이 부족하다” 

예산이 부족하면 정확도는 약간 떨어지더라도 기존의 툴셋(Toolset)을 이용한다던가 외부에서라도 이미 만들어진 데이터를 활용하는 방식으로 접근해야지 아예 포기해서는 곤란하다. 그것은 마치 최고급 승용차를 살 수 없다고 아예 차를 사지 않는 것과 비슷한 태도이다. 마찬가지로 데이터 분석을 시작했다고 당장 여러 명의 통계전문가들로 구성된 팀부터 만들고 운영할 필요는 없는 것이고, 아웃소싱(outsourcing) 등으로 작은 프로젝트들을 POC(proof of concept), 즉 시험용으로 시작해보는 것이 바람직하다.  

차를 살 여력이 없으면 대중교통이라도 이용해 목적지에 가야 한다는 말이다. 아무리 시험적인 데이터의 사용이라도 기본만 갖추면 경영자의 직관에만 의존하는 것보다는 훨씬 바람직하며, 그 시도 자체가 훌륭한 연습이 된다. 애널리틱스(analytics)란 단지 통계적인 작업뿐 아니라 데이터 통합과 각종 프로세스 등 많은 과정을 거치는 것이며, 작은 프로젝트라도 그런 스텝들을 다 거쳐야 하는 것이기 때문이다. 
그리고 원래 1-to-1 마케팅이란, 시도해 본 테스트에 대한 대상들의 반응들도 수집 및 분석하여 전체적으로 점차 나아지게 하는 것이 기본이다. 작은 성공이 큰 성공으로 간다는 태도를 가지면 시작도 수월해지고, 스텝마다 중간 보고를 통한 점차적 예산 확보도 가능해진다. 반면에 꼭 대박이 나야만 본전을 뽑을 수 있을 정도의 무리한 투자는 아무리 예산이 확보되었더라도 심각하게 재고해야 한다. 

▶ “도움이 되는 것은 알겠는데 그 모델링이란 것이 너무 어렵고 복잡하다”

사실 이것은 쉬운 일이 아니며 전문가의 도움도 필요하다. 일이 잘못되면 정말 장시간의 노력을 들이고도 원하는 결과를 얻지 못하는 수가 많다. 그런데 왜 이런 일을 오랫동안 해 온 회사들도 그것이 어렵다고 하는 것일까?

마지막 이유와 관련해서, 마치 의사가 환자를 진료할 때 증상부터 보는 것처럼, 이런 경우 전문 컨설턴트들은 왜 애널리틱스(analytics)의 과정이나 통계적 모델(statistical model)이 복잡하고 어렵게 되는지를 당사자들이 털어놓는 증상을 통해 알 수 있다. 

▶ 데이터가 있어도 타깃을 정하기가 어렵다. 
▶ 애널리스트(analyst)들이 대부분의 시간을 데이터를 고치는데 쓰고 있다.
▶ 모델이나 룰을 짜놓은 것을 보면 단 몇 가지 변수만 반복적으로 등장한다.
▶ 모델을 만드는 사람들이 늘 더 많은 데이터와 변수를 요구한다. 
▶ 모델을 짜고 그것을 적용해서 사용하는데 과도하게 많은 시간이 걸린다.
▶ 모델을 만들어 놓고 그것을 실제 데이터베이스에 적용해보면 어긋나는 부분이 많다.
▶ 많은 노력을 들였는데 그 결과가 신통치 않다. 

여러 가지 데이터와 통계적 모델을 사용한 결과가 실망스럽다고 해서 상담을 하러 가보면 첫마디가 “모델이 잘못된 것 같다”는 소리를 듣는 경우가 많다. 그런데 위의 예에서 볼 수 있듯이 그 전체를 잘 들여다 보면 십중팔구는 모델만 제대로 되어있고 오히려 그 나머지 과정이 다 틀려있는 것인 경우가 허다하다.


데이터 잘 정리 못하면 고치느라 시간낭비 불가피 

일이 잘못되는 경우 많은 부분은 그 통계를 다루는 자체의 문제가 아니라 데이터나 그 주변 환경이 잘못되어 있기 때문이다. 즉 통계를 사용하기 이전에 데이터베이스 구조 자체에 문제가 있거나 많은 변수(variable)들이 제대로 정리가 되어 있지 않은 것이며, 혹은 모델을 짠 이후 그것을 적용할 때 뭔가가 잘못된 것이다.

그 모델링의 “Before” 단계에는 data hygiene, conversion, categorization, summarization등이 정확하고 일관되게 이루어져야 하며, “After” 단계에는 score application, validation, selection등이 빠르고 정확하게 돌아가야 한다. 그런 것이 제대로 안되면 미국에서 흔히 쓰는 Garbage-in-garbage-out이란 표현이 딱 어울리게 된다. 쓰레기가 들어가면 쓰레기가 나온다는 말인데, 쓰레기 같이 지저분한 데이터도 공정을 제대로 거치면 재활용품처럼 재탄생 되는 법이다. 

필자가 컨퍼런스나 웨비나를 통해 “분석을 위해 최적화된 데이터베이스”에 관한 강연을 할 때에 청중 중에 애널리스트(analyst), 데이터 사이언티스트(data scientist), 혹은 통계 전문가(statistician)가 있는지 꼭 물어본다. 그 다음 질문은 그들이 “통계나 수학과 전혀 관계가 없는 일에 어느 정도 시간을 소요하고 있는가”인데, 불행하게도 그들 대부분은 시간의 80~90%를 데이터를 고치고 가공하는데 쓰고 있다는 대답을 하곤 한다. 그건 누가 봐도 정상적인 상황이 아닌 것인데, 현실은 그런 것이다. 

데이터 비즈니스란 워낙 마지막으로 데이터에 손을 댄 사람이 그 전에 데이터를 만진 사람들의 오류까지 다 책임지고 고쳐야 하는 것이 옳은 것이긴 하지만, 통계학 석사나 박사들이 온 종일 남의 실수만 고치려고 그 어려운 공부를 마친 게 아닌 것은 분명하다. 게다가 통계 전문가들은 그런 데이터 일에 능숙하지도 않고 그 방면에 트레이닝을 받은 사람들도 아니다. 상황이 이러니 미국에서도 데이터 사이언티스(data scientist)나 애널리스트(analyst)란 타이틀을 가지려면 데이터를 잘 고칠 줄도 알아야 한다는 말도 나온다. 그건 마치 자동차 경주하는 사람이 자동차 수리 능력도 뛰어나야만 성공할 수 있다는 말과 비슷하다. 

성실한 애널리스트에게 구조적으로 불안하고(unstructured) 불완전한(incomplete) 데이터를 샘플이라고 주면 그들은 어떻게든 그걸 사용해보려고 온갖 노력을 할 것이다. 실제로 필자도 애널리스트나 통계 전문가를 트레이닝 할 때 모델링을 포함한 데이터 일은 “Making the best of what you’ve got”, 즉 주어진 데이터를 가장 효율적으로 사용하도록 하는 것이란 말을 한다. 왜냐하면 이 세상에는 완벽한 데이터란 없기 때문이다.

그렇다고 통계하는 사람에게 아무런 데이터나 던져주라는 말은 아니다. 게다가 아무리 비싼 툴셋(toolset)을 그들에게 제공한다 하여도, 위에 예시한 모든 처리과정을 사람의 의도까지 알아내서 자동으로 정리해주는 소프트웨어는 존재하지 않는다. 그런 분석 전용 소프트웨어들은 통계적 분석이 주 목적이며, 데이터 수정 작업을 쉽게 만들어줄 수는 있어도 알아서 고쳐주지는 않는다. 


데이터베이스는 통계적 모델에 최적화되어 있어야 

이런 경우 그 일을 담당한 애널리스트, 데이터 사이언티스트, 혹은 통계 전문가가 그야말로 기지를 발휘해서 그 불완전한 샘플을 완벽하게 고쳐놓고 많은 창조적인 변수(variable)까지 만들었다고 치자. 더 큰 문제는 그런 노력의 결과인 모델을 전체 데이터베이스에 적용시킬 때 일어난다. 

샘플이 아무리 커 봤자 수만 줄, 더 크면 수십만 줄일 수는 있지만, 그게 전부는 아닌 것이다(통계적 작업은 전체가 필요 없고 샘플로 하게 된다). 미국같이 인구가 많고 비즈니스도 많은 나라에서는 개인별로 점수를 하나씩만 매겨도 억 단위가 넘어가는 경우가 많다. 그것이 개인별로 정리되어 있지 않고, Transaction, 즉 사건이나 기록 별로 수집되어 있으면 그 크기는 우리가 부르는 빅 데이터 범주에 쉽게 들어간다. 거기에 그런 통계적 모델을 위한 준비 과정을 샘플에서 했듯이 전체에 반복해 적용시키는 것은 그 자체가 큰 프로젝트가 된다.

애널리스트가 만든 모델뿐 아니라, 그가 그 모델을 짜기 위해 만든 많은 고쳐지고 창조된 변수들을 모두 다시 만들어야 하는 것이니 그렇다. 물론 불가능한 일은 아니지만, 시간도 엄청나게 걸리고 또 거의 모든 에러는 그런 과정에서 나온다고 봐도 무방할 정도다. 

그래서 데이터베이스는 이러한 애널리틱스(analytics), 특히 통계적 모델(statistical model)에 최적화가 되어 있어야 한다. 그런 환경이 제대로 이루어져 있으면 sampling과 scoring은 그야말로 일상적인 일이 될 것이며, 통계 전문가들은 늘 데이터나 고치고 있는 대신에 타깃과 방법론에 대해 대부분의 시간을 보낼 수 있게 될 것이다. 그리고 그런 환경이 이루어지면 더 기본적인 query나 reporting도 훨씬 수월하게 되는 데 예외가 없으며, 리포트들도 더 일관된 정보를 더 효율적으로 포함하게 될 것이다. 


고등 분석에 최적화된 데이터베이스의 조건 

앞으로의 연재에서 더 자세히 다루겠지만 모델 등 고등 분석(advanced analytics)에 최적화된 데이터베이스라고 불리우려면 최소한 다음 조건들이 갖추어져 있어야 한다. 

▶ 모든 테이블들이 제대로 연결이 되어 있고 match key가 일관성이 있어야 한다. 특히 개인이나 사업체 등을 표현하는 ID들이 제대로 관리되어야 그러한 대상을 타깃으로 삼을 수 있게 된다.

▶ 타깃 대상 혹은 사용 목적에 따라 데이터가 개인, 가구, 이메일, 사업체, 혹은 제품별로 요약(summarize)되어 있어야 한다. 매번 요약(summary)과 집적 과정을 반복해가면서 일을 진행하다 보면 시간도 낭비하게 되고 일관성도 눈에 보이게 떨어진다. 

▶ 숫자로 표현된 데이터, 즉 가격, 지불액, 구매건수, 날짜, 구매간 시간간격 등이 표준화되고 결여된 데이터(missing data)가 제대로 처리되어 단순한 “0”과 구별되어 관리되어야 한다. 알 수 없는 숫자는 0이 아니다.

▶ 숫자가 아닌 범주적 데이터(categorical data), 혹은 문자적 데이터(character data)도 편집 수정되고 미리 정해진 카테고리(category)별로 구분 관리되어야 한다. 예를 들어 상품의 종류나 마케팅에 사용된 offer code(e.g., 10% off, buy-one-get-one-free, free shipping, free coupon 등)가 자유분방하게 기록되어 있는 경우가 많은데, 그렇게 해서는 그런 노력에 대한 반응을 수학적으로 사용하기가 아주 곤란하게 된다.

▶ 결여된 데이터, 즉 Missing Data는 데이터베이스를 요약(summarize)하다 보면 필연적으로 생기는 부산물인데, 그것도 정해진 룰에 따라 채워지던지 수학적으로 새로 impute, 즉 가치가 매겨져야 한다. 많은 오류는 없는 데이터를 보완해 채워 넣는 과정에서 일어난다. 

▶ 외부의 데이터도 제대로 맞추어져서 기존 기록들에 연결이 되어야 한다. 소스가 다른 데이터를 합치는 과정에서도 많은 오류가 발생한다. 아예 합쳐져 있지 않으면 통계적으로 사용하는 것이 불가능해지는데, 그런 데이터베이스도 허다하다. 

한마디로 이런 요구사항들을 정리하자면, 데이터베이스 자체가 통계 전문가가 샘플을 완벽하게 만들듯이 그런 형태를 미리 갖추고 있어야 한다는 말이다. 데이터가 커지면서 그 많은 데이터를 전부 보관하기도 힘든 시대이지만, 그럴수록 분석과 통계를 하는 사람들을 위해 따로 분석전용 테이블(analytical table)을 만들어 관리해야 한다.

분량이 너무 많아서 여의치 않으면 따로 Data Mart의 개념으로 관리할 수도 있다. 그런 과정 자체가 데이터를 줄여나가는 길이며, 그 모든 공정의 끝에는 정책 결정자나 마케터들의 질문에 대한 간단한 대답의 형태만이 남게 되는 것이다. 

그러한 과정이 계획대로 돌아가면 과거에 몇 주일씩 걸리던 일이 며칠도 아니고 몇 시간 만에 끝나는 놀라운 경험을 하게 될 것이다. 필자는 실제로 무려 2,000이 넘는 데이터 소스를 한 곳에 모아놓고 그것을 온갖 종류의 마케팅에 사용하는 종합 데이터베이스, 즉 co-op database 회사를 운영하면서 여기서 강조하는 분석을 위한 데이터베이스의 최적화를 실현하여, 소수 인원으로 하루에서 백여 개의 모델을 만들고 그 모든 모델이 밤사이에 억 단위 개체에 적용되는 공정을 실현한 바 있다. 

대부분 회사들은 그런 과정까지는 필요가 없겠지만, 모델 하나 짜서 돌리는데 몇 달씩 허비하는 상황은 결코 바람직하지 않으며 또 그런 상황을 탈피하는 방법이 엄연히 존재한다는 것을 말하고 싶은 것이다. 그리고 그것은 데이터베이스의 최적화로 가능한 것이지 단지 모아놓은 데이터를 분석하는 사람들에게 떠넘겨서는 꿈도 꿀 수 없는 일이다. 


빅 데이터의 끝은 작은 조각의 대답들이다 

이 모든 일의 시작은 비즈니스를 위한 데이터 사용의 목적을 분명히 하고, 그러한 목적에 도달하기 위한 질문을 수학적으로 대답할 수 있도록 구체적으로 표현하며, 그에 대한 대답을 주기 위해 통계를 이용한 분석을 적극적으로 활용하고, 그런 애널리틱스(analytics)를 위해 데이터베이스와 주변 환경이 최적화되어 있어야 한다.

그것이 올바른 순서이며, 그 순서가 뒤바뀌어 있으면 온갖 오류와 시간낭비가 있게 된다. 즉 구성원과 도구는 같아도 무엇이 우선이냐를 제대로 정리하면 일의 진행이 수월해진다는 것인데, 그런 것이 바로 데이터 사이언티스트(data scientist)나 또 그 위로 새로 생기고 있는 Chief Data Officer등의 직책을 가진 사람들이 해야만 하는 일이다. 

그래서 CDO란 기술적인 지식으로 무장하고 비즈니스를 대변하는 사람이어야 하는 것이고, 그들은 요즘 유행하는 빅 데이터를 제대로 된 공정을 통해 작게 만들어 의사결정을 하는 사람들이 수학이나 통계에 대한 지식이 없더라도 쉽게 사용할 수 있게 해줘야 하는 것이다. 

데이터를 사용하는 사람의 입장에서는 그것이 요구사항인 것이다. 누가 데이터의 크기를 내세우면 거기에 대해 “우리는 더 작은 데이터를 원한다”라고 말할 수 있어야 한다. 곡창지대의 논 한가운데에 서있다고 배가 불러지는 것이 아니니, 밥상 위에 놓인 김이 모락모락 나는 쌀밥 한 공기가 더 간절한 법이다.

그 논과 밥상을 이어주는 과정이 있어온 것처럼, 데이터를 수집해서 가공하고, 또 해답의 전달까지 빈틈없이 하는 것이 데이터를 다루는 사람들이 해야 할 일이다. 데이터의 크기와 처리 속도만을 강조하는 것은 마치 논의 평수와 거기서 나오는 수확량을 단순 나열하는 것과 같으며, 이 모든 과정의 첫 단계에 머물고 있다는 자인하는 것 밖에 안 된다. 빅 데이터의 끝은 작은 조각의 대답들이다. 그리고 그것이 데이터를 인간적으로 만드는 길이다.

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오