데이터베이스는 분석을 위해 최적화 되어야(유혁 Willow Data Strategy 대표)
[컴퓨터월드] 유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명성을 얻고 있는 세계적인 데이터 전략, 빅 데이터 애널리틱스 전문가이다. I-Behavior의 공동창업자/CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이터베이스 설계, 통계학적 모델을 활용한 타깃마케팅 등 마케팅과 IT간의 가교에 큰 기여를 해왔다. 필자는 데이터 전문 분야에 오래 종사해온 많은 사람들이 그렇듯이 사실 이 “빅 데이터”란 표현을 그리 좋아하지 않는다. 심지어는 “빅 데이터” 거품이 다 꺼지고 그 말의 효용도가 바닥을 칠 시기를 대비해서 ‘의사 결정에 데이터를 분석하여 사용하는 활동’이란 의미를 가진 다른 말을 벌써 생각하고 있는 이들도 있다. 하긴 데이터를 늘 다루어 오던 사람들의 입장에서 이 빅 데이터의 유행은 좋은 점도 있고 나쁜 점도 있다. 좋은 점은 “당신은 뭐 하는 사람이냐”라는 질문이 들어왔을 때 과거에 장황하게 설명해야 했던 것을 이제는 그 단어가 적합하건 아니건 “빅 데이터”라는 단 한마디로 대답할 수 있다는 것이다. 또한 많은 사람들이 데이터 관련 분야에 관심을 가지기 시작하니 과거에는 상상할 수 없었던 장소와 위치에서 발언권이 자주 주어지기도 한다. 나쁜 점은 유행이 지나치다 보니 벌써 거품이 많이 끼어 있고, 어떨 때는 본질보다 거품이 더 주목을 받을 때도 많다는 것이다. 과도한 유행은 과도한 투자로 이어지고, 과도한 투자는 실망으로 이어지며, 그 실망은 해당 유행어와 관련된 모든 사람들에 대한 질책으로 귀결되는 것에 예외가 없다.
필자가 미국에서든 한국에서든 빅 데이터 관련 강연을 할 때 항상 하곤 하는 첫마디는 “빅 데이터 하셔서 재미 좀 보셨습니까?”이다. 데이터를 만지고 분석하는 것도 다 비즈니스를 하는데 도움이 되자고 하는 일이기 때문이다. 데이터를 다루는 일이 기술 인력들의 취미생활을 위한 놀이터는 아닌 것이다.
데이터의 용량과 처리 속도는 지난 수십 년간 계속 커지며 빨라져 왔고, 그 자체는 이미 뉴스 거리도 안 된다. 빅 데이터라는 말 자체가 ‘크기’를 표현하고 있지만, 크기와 속도만 자랑하는 것은 본질을 놓치는 첩경이며 많은 실망을 가져오게 되어있다. 그것이 내년이건 내후년이건, 운이 좋아서 앞으로 몇 년을 두고 그 말을 우려먹을 수 있건 간에, 데이터로 수익을 올리거나 지출을 가시적으로 줄이지 못하면 심판의 날은 반드시 오기 마련이다. 그렇다면 무엇이 본질인가? 필자가 감히 정의를 내리자면 빅 데이터는 ‘사람들의 질문에 대한 대답’의 형태로 이루어져야만 사업이나 의사결정에 도움이 된다. 역설적으로 표현하자면, 빅 데이터는 “반드시 작아져야만 하는 것”이라고 말하고 싶다. 어차피 사람들이 알고 싶어하는 대답은 한마디로 yes냐 no이냐 이거나, 그것이 여의치 않으면 어떤 가능성에 대한 확률(예를 들자면 회사 야유회 날 비가 올 확률, 어떤 사람이 특정 상품을 선호할 확률, 고객의 미래 가치 등)인 것이지 수천 수만, 심지어는 조 단위 숫자의 데이터 조각들이 아닌 것이다. 그리고 그렇게 데이터가 작아지려면 (1) Cut down the noise, 즉 데이터에서 잡음을 줄이고, (2) Provide insight, not data, 즉 데이터가 아닌 ‘통찰력이 담긴 내용’을 주어야 한다는 것이다. 그것은 마치 금 한 덩어리를 얻기 위해 많은 잡석을 버리는 것과 비슷한 이치이며, 그것이 큰 덩어리의 데이터에서 알맹이로 줄여나가는 과정이다. 그런 데이터 가공의 중심에는 이 책의 3장 “빅 데이터의 핵심은 분석이며 분석의 중심은 모델링”에서 설명했듯이 많은 데이터의 수렴과 통계적 모델이 필요하다. 이 모델링의 이점에 대해서는 이미 충분한 설명이 있었으므로 여기에서 빅 데이터 시대에 중요한 한가지만 다시 강조하겠다. 통계적 모델의 결과인 모델 점수, 즉 Model Score는 간단한 대답의 형태를 가지고 있으면서도 아주 많은 데이터를 효과적으로 함축하고 있기 때문에 데이터를 작은 형태로 만드는데 그 이상의 방법은 찾기 어렵다는 것이다.
하지만 데이터가 마케팅 등에 오랫동안 쓰여져 온 미국에서도 이런 모델링에 대한 상담을 하다 보면 많은 벽에 부딪치게 된다. 예를 들자면 온라인 슈퍼마켓을 운영하는 회사가 엄청난 데이터가 쌓여 있는데도 그 보물창고에서 몇 가지 질문에 대한 대답만을 아주 기본적인 query로 겨우 꺼내 보고 있으면서도, 도무지 어디서부터 그 ‘고등적인 분석’을 시작해야 할 지 엄두도 못 내는 경우도 있다. 전문가 입장에서 보기엔 정말 안타까운 일인데, 아이러니컬 하게도 더 효율적인 데이터의 분석을 가로막고 있는 사람들은 다름 아닌 그 회사 데이터베이스의 수문장 격인 IT쪽 사람들인 경우가 많다. 많은 사람들은 자신들이 구축한 데이터를 줄이거나 가공하는 것에 대해 거의 공포심을 가지고 보호막을 치며, 모델을 이용한 고등적 분석이 가치가 있을 수도 있겠지만 안하고도 잘하고 있는데 왜 사서 고생이냐는 식으로 둘러 말한다. 그리고 그런 태도는 마케팅을 오래 해온 사람들에게서도 발견될 수 있다. 그 안 된다는 이유들을 들어보면 상황을 제대로 판단하는 데 많은 도움이 되므로, 몇 가지 예를 들어보겠다. ▶ “타깃이 너무 작다” 상황과 산업 분야에 따라 그럴 수도 있다. 대상의 숫자가 작으면 각개격파 식의 영업을 통한 전략이 효과적일 수도 있다. 하지만 그 대상을 전부 같은 방법으로 같은 메시지를 가지고 접근하는 것은 전근대적인 방식이다. 데이터는 “누구부터 상대해야 하지?”라는 질문에 대한 대답도 줄 수 있으며, 또 누군가를 상대하기로 정했으면 “어떤 상품과 메시지를 어떤 채널로 접근해야 하지?”라는 질문에도 답을 준다. 그것이 데이터 가공과 모델링으로 이루어질 수 있다. ▶ “데이터가 빈약하며 예측력이 있는 변수가 부족하다” 불과 십 수년 전만 해도 이런 핑계가 통했지만 지금은 아니다. 사방에 널린 게 데이터이니 데이터가 부족하다면 그것은 수집 단계에서부터 뭔가가 잘못되어 있다는 뜻이다. 아니면 수집이 되어 있어도 정리가 제대로 되어 있지 않던가(fragmented and unstructured), 너무나 지저분하여 의미를 찾기가 어렵다는 경우이다. 먼저 예를 든 온라인 슈퍼마켓의 경우도, 거기서 파는 모든 상품을 종류별 효용별로 구분해 놓지 않으면 그 다음 단계의 분석이 극도로 어려워지며, IT부서에서 그런 데이터를 “잃지 않고 쌓아 놓은 것”만을 자랑하고 있을 처지가 아닌 것이다. ▶ “1-to-1 마케팅에 대한 계획 자체가 없다” 과거에는 1-to-1 마케팅이 디렉트 메일(Direct Mail)이나 이메일 마케팅(Email Marketing) 등에 국한되어 있었지만 이제는 모든 채널을 일대일 매체로 사용할 수 있는 시대이다. 사람들은 이미 온갖 종류의 화면을 통해 정보를 대하고 있으며, 그것이 TV 화면이던, 스마트폰이건, 컴퓨터이건, 태블릿이건, 손목에 찬 시계이건, 심지어 길거리에 있는 화면이건 그것을 보는 사람을 상대하는 것은 기본적으로 일대일의 개념인 것이다. ▶ “예산이 부족하다” 예산이 부족하면 정확도는 약간 떨어지더라도 기존의 툴셋(Toolset)을 이용한다던가 외부에서라도 이미 만들어진 데이터를 활용하는 방식으로 접근해야지 아예 포기해서는 곤란하다. 그것은 마치 최고급 승용차를 살 수 없다고 아예 차를 사지 않는 것과 비슷한 태도이다. 마찬가지로 데이터 분석을 시작했다고 당장 여러 명의 통계전문가들로 구성된 팀부터 만들고 운영할 필요는 없는 것이고, 아웃소싱(outsourcing) 등으로 작은 프로젝트들을 POC(proof of concept), 즉 시험용으로 시작해보는 것이 바람직하다. ▶ “도움이 되는 것은 알겠는데 그 모델링이란 것이 너무 어렵고 복잡하다” 사실 이것은 쉬운 일이 아니며 전문가의 도움도 필요하다. 일이 잘못되면 정말 장시간의 노력을 들이고도 원하는 결과를 얻지 못하는 수가 많다. 그런데 왜 이런 일을 오랫동안 해 온 회사들도 그것이 어렵다고 하는 것일까? 마지막 이유와 관련해서, 마치 의사가 환자를 진료할 때 증상부터 보는 것처럼, 이런 경우 전문 컨설턴트들은 왜 애널리틱스(analytics)의 과정이나 통계적 모델(statistical model)이 복잡하고 어렵게 되는지를 당사자들이 털어놓는 증상을 통해 알 수 있다. ▶ 데이터가 있어도 타깃을 정하기가 어렵다. 여러 가지 데이터와 통계적 모델을 사용한 결과가 실망스럽다고 해서 상담을 하러 가보면 첫마디가 “모델이 잘못된 것 같다”는 소리를 듣는 경우가 많다. 그런데 위의 예에서 볼 수 있듯이 그 전체를 잘 들여다 보면 십중팔구는 모델만 제대로 되어있고 오히려 그 나머지 과정이 다 틀려있는 것인 경우가 허다하다.
일이 잘못되는 경우 많은 부분은 그 통계를 다루는 자체의 문제가 아니라 데이터나 그 주변 환경이 잘못되어 있기 때문이다. 즉 통계를 사용하기 이전에 데이터베이스 구조 자체에 문제가 있거나 많은 변수(variable)들이 제대로 정리가 되어 있지 않은 것이며, 혹은 모델을 짠 이후 그것을 적용할 때 뭔가가 잘못된 것이다. 그 모델링의 “Before” 단계에는 data hygiene, conversion, categorization, summarization등이 정확하고 일관되게 이루어져야 하며, “After” 단계에는 score application, validation, selection등이 빠르고 정확하게 돌아가야 한다. 그런 것이 제대로 안되면 미국에서 흔히 쓰는 Garbage-in-garbage-out이란 표현이 딱 어울리게 된다. 쓰레기가 들어가면 쓰레기가 나온다는 말인데, 쓰레기 같이 지저분한 데이터도 공정을 제대로 거치면 재활용품처럼 재탄생 되는 법이다. 필자가 컨퍼런스나 웨비나를 통해 “분석을 위해 최적화된 데이터베이스”에 관한 강연을 할 때에 청중 중에 애널리스트(analyst), 데이터 사이언티스트(data scientist), 혹은 통계 전문가(statistician)가 있는지 꼭 물어본다. 그 다음 질문은 그들이 “통계나 수학과 전혀 관계가 없는 일에 어느 정도 시간을 소요하고 있는가”인데, 불행하게도 그들 대부분은 시간의 80~90%를 데이터를 고치고 가공하는데 쓰고 있다는 대답을 하곤 한다. 그건 누가 봐도 정상적인 상황이 아닌 것인데, 현실은 그런 것이다. 데이터 비즈니스란 워낙 마지막으로 데이터에 손을 댄 사람이 그 전에 데이터를 만진 사람들의 오류까지 다 책임지고 고쳐야 하는 것이 옳은 것이긴 하지만, 통계학 석사나 박사들이 온 종일 남의 실수만 고치려고 그 어려운 공부를 마친 게 아닌 것은 분명하다. 게다가 통계 전문가들은 그런 데이터 일에 능숙하지도 않고 그 방면에 트레이닝을 받은 사람들도 아니다. 상황이 이러니 미국에서도 데이터 사이언티스(data scientist)나 애널리스트(analyst)란 타이틀을 가지려면 데이터를 잘 고칠 줄도 알아야 한다는 말도 나온다. 그건 마치 자동차 경주하는 사람이 자동차 수리 능력도 뛰어나야만 성공할 수 있다는 말과 비슷하다. 성실한 애널리스트에게 구조적으로 불안하고(unstructured) 불완전한(incomplete) 데이터를 샘플이라고 주면 그들은 어떻게든 그걸 사용해보려고 온갖 노력을 할 것이다. 실제로 필자도 애널리스트나 통계 전문가를 트레이닝 할 때 모델링을 포함한 데이터 일은 “Making the best of what you’ve got”, 즉 주어진 데이터를 가장 효율적으로 사용하도록 하는 것이란 말을 한다. 왜냐하면 이 세상에는 완벽한 데이터란 없기 때문이다. 그렇다고 통계하는 사람에게 아무런 데이터나 던져주라는 말은 아니다. 게다가 아무리 비싼 툴셋(toolset)을 그들에게 제공한다 하여도, 위에 예시한 모든 처리과정을 사람의 의도까지 알아내서 자동으로 정리해주는 소프트웨어는 존재하지 않는다. 그런 분석 전용 소프트웨어들은 통계적 분석이 주 목적이며, 데이터 수정 작업을 쉽게 만들어줄 수는 있어도 알아서 고쳐주지는 않는다.
이런 경우 그 일을 담당한 애널리스트, 데이터 사이언티스트, 혹은 통계 전문가가 그야말로 기지를 발휘해서 그 불완전한 샘플을 완벽하게 고쳐놓고 많은 창조적인 변수(variable)까지 만들었다고 치자. 더 큰 문제는 그런 노력의 결과인 모델을 전체 데이터베이스에 적용시킬 때 일어난다. 샘플이 아무리 커 봤자 수만 줄, 더 크면 수십만 줄일 수는 있지만, 그게 전부는 아닌 것이다(통계적 작업은 전체가 필요 없고 샘플로 하게 된다). 미국같이 인구가 많고 비즈니스도 많은 나라에서는 개인별로 점수를 하나씩만 매겨도 억 단위가 넘어가는 경우가 많다. 그것이 개인별로 정리되어 있지 않고, Transaction, 즉 사건이나 기록 별로 수집되어 있으면 그 크기는 우리가 부르는 빅 데이터 범주에 쉽게 들어간다. 거기에 그런 통계적 모델을 위한 준비 과정을 샘플에서 했듯이 전체에 반복해 적용시키는 것은 그 자체가 큰 프로젝트가 된다. 애널리스트가 만든 모델뿐 아니라, 그가 그 모델을 짜기 위해 만든 많은 고쳐지고 창조된 변수들을 모두 다시 만들어야 하는 것이니 그렇다. 물론 불가능한 일은 아니지만, 시간도 엄청나게 걸리고 또 거의 모든 에러는 그런 과정에서 나온다고 봐도 무방할 정도다. 그래서 데이터베이스는 이러한 애널리틱스(analytics), 특히 통계적 모델(statistical model)에 최적화가 되어 있어야 한다. 그런 환경이 제대로 이루어져 있으면 sampling과 scoring은 그야말로 일상적인 일이 될 것이며, 통계 전문가들은 늘 데이터나 고치고 있는 대신에 타깃과 방법론에 대해 대부분의 시간을 보낼 수 있게 될 것이다. 그리고 그런 환경이 이루어지면 더 기본적인 query나 reporting도 훨씬 수월하게 되는 데 예외가 없으며, 리포트들도 더 일관된 정보를 더 효율적으로 포함하게 될 것이다.
앞으로의 연재에서 더 자세히 다루겠지만 모델 등 고등 분석(advanced analytics)에 최적화된 데이터베이스라고 불리우려면 최소한 다음 조건들이 갖추어져 있어야 한다. ▶ 모든 테이블들이 제대로 연결이 되어 있고 match key가 일관성이 있어야 한다. 특히 개인이나 사업체 등을 표현하는 ID들이 제대로 관리되어야 그러한 대상을 타깃으로 삼을 수 있게 된다. ▶ 타깃 대상 혹은 사용 목적에 따라 데이터가 개인, 가구, 이메일, 사업체, 혹은 제품별로 요약(summarize)되어 있어야 한다. 매번 요약(summary)과 집적 과정을 반복해가면서 일을 진행하다 보면 시간도 낭비하게 되고 일관성도 눈에 보이게 떨어진다. ▶ 숫자로 표현된 데이터, 즉 가격, 지불액, 구매건수, 날짜, 구매간 시간간격 등이 표준화되고 결여된 데이터(missing data)가 제대로 처리되어 단순한 “0”과 구별되어 관리되어야 한다. 알 수 없는 숫자는 0이 아니다. ▶ 숫자가 아닌 범주적 데이터(categorical data), 혹은 문자적 데이터(character data)도 편집 수정되고 미리 정해진 카테고리(category)별로 구분 관리되어야 한다. 예를 들어 상품의 종류나 마케팅에 사용된 offer code(e.g., 10% off, buy-one-get-one-free, free shipping, free coupon 등)가 자유분방하게 기록되어 있는 경우가 많은데, 그렇게 해서는 그런 노력에 대한 반응을 수학적으로 사용하기가 아주 곤란하게 된다. ▶ 결여된 데이터, 즉 Missing Data는 데이터베이스를 요약(summarize)하다 보면 필연적으로 생기는 부산물인데, 그것도 정해진 룰에 따라 채워지던지 수학적으로 새로 impute, 즉 가치가 매겨져야 한다. 많은 오류는 없는 데이터를 보완해 채워 넣는 과정에서 일어난다. ▶ 외부의 데이터도 제대로 맞추어져서 기존 기록들에 연결이 되어야 한다. 소스가 다른 데이터를 합치는 과정에서도 많은 오류가 발생한다. 아예 합쳐져 있지 않으면 통계적으로 사용하는 것이 불가능해지는데, 그런 데이터베이스도 허다하다. 한마디로 이런 요구사항들을 정리하자면, 데이터베이스 자체가 통계 전문가가 샘플을 완벽하게 만들듯이 그런 형태를 미리 갖추고 있어야 한다는 말이다. 데이터가 커지면서 그 많은 데이터를 전부 보관하기도 힘든 시대이지만, 그럴수록 분석과 통계를 하는 사람들을 위해 따로 분석전용 테이블(analytical table)을 만들어 관리해야 한다. 분량이 너무 많아서 여의치 않으면 따로 Data Mart의 개념으로 관리할 수도 있다. 그런 과정 자체가 데이터를 줄여나가는 길이며, 그 모든 공정의 끝에는 정책 결정자나 마케터들의 질문에 대한 간단한 대답의 형태만이 남게 되는 것이다. 그러한 과정이 계획대로 돌아가면 과거에 몇 주일씩 걸리던 일이 며칠도 아니고 몇 시간 만에 끝나는 놀라운 경험을 하게 될 것이다. 필자는 실제로 무려 2,000이 넘는 데이터 소스를 한 곳에 모아놓고 그것을 온갖 종류의 마케팅에 사용하는 종합 데이터베이스, 즉 co-op database 회사를 운영하면서 여기서 강조하는 분석을 위한 데이터베이스의 최적화를 실현하여, 소수 인원으로 하루에서 백여 개의 모델을 만들고 그 모든 모델이 밤사이에 억 단위 개체에 적용되는 공정을 실현한 바 있다. 대부분 회사들은 그런 과정까지는 필요가 없겠지만, 모델 하나 짜서 돌리는데 몇 달씩 허비하는 상황은 결코 바람직하지 않으며 또 그런 상황을 탈피하는 방법이 엄연히 존재한다는 것을 말하고 싶은 것이다. 그리고 그것은 데이터베이스의 최적화로 가능한 것이지 단지 모아놓은 데이터를 분석하는 사람들에게 떠넘겨서는 꿈도 꿀 수 없는 일이다.
이 모든 일의 시작은 비즈니스를 위한 데이터 사용의 목적을 분명히 하고, 그러한 목적에 도달하기 위한 질문을 수학적으로 대답할 수 있도록 구체적으로 표현하며, 그에 대한 대답을 주기 위해 통계를 이용한 분석을 적극적으로 활용하고, 그런 애널리틱스(analytics)를 위해 데이터베이스와 주변 환경이 최적화되어 있어야 한다. 그것이 올바른 순서이며, 그 순서가 뒤바뀌어 있으면 온갖 오류와 시간낭비가 있게 된다. 즉 구성원과 도구는 같아도 무엇이 우선이냐를 제대로 정리하면 일의 진행이 수월해진다는 것인데, 그런 것이 바로 데이터 사이언티스트(data scientist)나 또 그 위로 새로 생기고 있는 Chief Data Officer등의 직책을 가진 사람들이 해야만 하는 일이다. 그래서 CDO란 기술적인 지식으로 무장하고 비즈니스를 대변하는 사람이어야 하는 것이고, 그들은 요즘 유행하는 빅 데이터를 제대로 된 공정을 통해 작게 만들어 의사결정을 하는 사람들이 수학이나 통계에 대한 지식이 없더라도 쉽게 사용할 수 있게 해줘야 하는 것이다. 데이터를 사용하는 사람의 입장에서는 그것이 요구사항인 것이다. 누가 데이터의 크기를 내세우면 거기에 대해 “우리는 더 작은 데이터를 원한다”라고 말할 수 있어야 한다. 곡창지대의 논 한가운데에 서있다고 배가 불러지는 것이 아니니, 밥상 위에 놓인 김이 모락모락 나는 쌀밥 한 공기가 더 간절한 법이다. 그 논과 밥상을 이어주는 과정이 있어온 것처럼, 데이터를 수집해서 가공하고, 또 해답의 전달까지 빈틈없이 하는 것이 데이터를 다루는 사람들이 해야 할 일이다. 데이터의 크기와 처리 속도만을 강조하는 것은 마치 논의 평수와 거기서 나오는 수확량을 단순 나열하는 것과 같으며, 이 모든 과정의 첫 단계에 머물고 있다는 자인하는 것 밖에 안 된다. 빅 데이터의 끝은 작은 조각의 대답들이다. 그리고 그것이 데이터를 인간적으로 만드는 길이다. |
관련기사
- [특별연재(1)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(18)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(17)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(16)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(15)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(14)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(13)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(12)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(11)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(10)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(9)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(8)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(7)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(6)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(4)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(3)] 데이터를 잘 써먹을 수 있는 구체적인 방법들
- [특별연재(2)] 데이터를 잘 써먹을 수 있는 구체적인 방법들