데이터베이스라고 다 같은 것이 아니다 (유혁 Willow Data Strategy 대표)

▲ 유혁 Willow Data Strategy 대표

[컴퓨터월드] 유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명성을 얻고 있는 세계적인 데이터 전략, 빅 데이터 애널리틱스 전문가이다. I-Behavior의 공동창업자/CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이터베이스 설계, 통계학적 모델을 활용한 타깃마케팅 등 마케팅과 IT간의 가교에 큰 기여를 해왔다.
유혁 대표의 오랜 전문가로서의 경험을 바탕으로 국내 사용자들과 독자들에게 보다 데이터를 효과적으로 잘 사용하면서 시행착오를 줄일 수 있는 방법을 특별연재를 통해 소개하고자 한다. 금융, 통신, 미디어, 유통, NGO 등 다양한 글로벌 고객들과의 현장 경험에서 우러나온 애정 어린 충고와 쓴 소리에 독자들의 많은 관심을 부탁드린다. 편집자 주

 

데이터베이스라고 다 같은 것이 아니다. 이것은 너무도 당연한 말인데, 모든 데이터베이스가 다 그게 그거라고 하는 것은 모든 자동차나 건물이 다 비슷한 것이라고 말하는 것과 같기 때문이다. 하지만 많은 사람들은 데이터베이스를 대할 때 그것을 어떻게 봐야 할지에 대해 전혀 아이디어가 없는 경우가 많다.

우선 데이터베이스를 평가할 때에는 그것에 손을 대보기가 어렵다. 그래서 프로그래머가 아닌 사람들은 그 데이터베이스에 연결되어 있는 query, visualization이나 drilldown용 툴셋(toolset)에 의존하게 되는데, 그럴 경우 데이터베이스를 제대로 평가하는 것이 아니라 손을 대고 있는 툴셋에 대한 의견에 그치고 마는 경우가 많다.

그러한 도구들은 건물에 비교하자면 건물에 붙어있는 창문 정도에 불과한 것인데, 한 건물을 그 안에 들어가보지도 않고 창문으로만 들여다보고 점검한다는 것은 누가 봐도 말도 안 되는 일이다. 하지만 데이터베이스에 관한 평가는 그런 식으로 이루어지는 경우가 허다하다.

 

플랫폼, 환경, 툴셋 등에 현혹되지 말라

이제 많은 독자들께서 짐작하시겠지만 필자는 ‘빅데이터’란 표현을 그다지 선호하지 않는데, 어쨌든 우리는 모든 디지털화 될 수 있는 정보는 데이터라고 불리는 시대에 살고 있고, 그런 데이터는 어떤 형태로든 누군가가 개발하고 관리하는 데이터베이스에 저장되어있게 마련이다. 그리고 데이터베이스는 자동차나 건물이 그러하듯이 분명한 목적을 가지고 디자인 되어야 하는 것이고, 결과적으로 데이터베이스의 디자인도 그 종류가 천차만별인 것이다.

요즘 다양하게 소개되는 빅데이터에 관한 글이나 강연들을 보면 데이터베이스의 내용보다는 플랫폼, 환경, 혹은 툴셋에 관한 것들이 많은데, 필자는 여기서 Hadoop, MongoDB, Pig, Python, MapReduce, Java, SQL, PHP, C++, SAS, cloud computing 등 기술적인 단어들을 전혀 사용하지 않고 순전히 비즈니스적 관점에서 데이터, 정보의 출처, 혹은 데이터베이스를 평가하는 방법을 소개하고자 한다.

사실 사업가나 의사결정자에게는 NoSQL과 RDB의 차이 같은 것보다는 데이터가 얼마나 사업에 유용한가가 중요하다. 그리고 그러한 유용성은 데이터베이스의 내용과 디자인, 그리고 그것을 운영하는 방식에서 비롯되는 것이지 플랫폼이나 툴셋에 의해 결정되는 것이 아니다.

물론 툴셋이나 도구도 중요하다. 하지만 음악회에 가는 사람들이 연주자가 어떤 브랜드의 악기를 사용하는가보다 궁극적으로 음악이 감동적이냐 아니냐를 따지는 것처럼, 데이터베이스에 연관된 도구들도 그런 관점에서 봐야 한다. 연주도 제대로 못하는 기타리스트가 그가 존경하는 연주자가 사용하는 똑같은 브랜드의 기타만 들고 서있다고 관객들이 감동을 받을 성 싶은가? 천만의 말씀이다. 그와 마찬가지로 툴셋, 소프트웨어, 플랫폼 등의 부수적인 것만으로 데이터베이스의 유용성을 평가한다는 것은 어불성설이다.

필자가 제2장: ‘데이터의 종류와 프라이버시’에서 설명했듯이 마케팅에서 주로 쓰이는 데이터는 크게 1)Descriptive Data(묘사적 데이터) 2)Transaction/Behavioral Data(거래와 행동에 관한 데이터) 3)Attitudinal Data(태도적 데이터)로 나누어 볼 수 있다.

간략하게 요약하자면 이 세 가지 차원의 데이터에 모두 접근할 수 있으면 고객, 소비자 등 개인의 성향의 묘사와 예측이 아주 정확해진다는 것인데, 비즈니스의 목적에 부합하는 데이터의 ‘내용’은 두말할 나위 없이 체크 리스트의 가장 위에 있어야 할 것이다. 그러한 ‘content’에 관한 주제에 대해서는 이미 중점적으로 다룬 바 있기에 이번에는 다른 차원에서 데이터베이스를 평가하는 기준을 소개하고자 한다.

 

데이터베이스를 평가하는 9가지 기준

이 연재를 통해 일관되게 주장했듯이, 데이터와 분석의 틀은 당연히 비즈니스의 목적에 부합하는 형태로 이루어져야 한다. 사업의 목적이 분석의 진로를 이끌어야 하고, 데이터베이스는 분석을 위해 디자인되고 또 최적화되어 있어야 하는 법이다.

하지만 불행하게도 많은 조직 내에서 그 순서가 완전히 거꾸로 되어 있어서, 경영인들과 의사결정자들은 분석가의 틀에 갇혀 있고, 또 분석가들도 데이터베이스 디자인의 한계로 많은 시간과 노력을 낭비하고 있는 것을 볼 수 있다. 그래서 여기 소개하는 평가의 기준(evaluation criteria)은 의사결정과 그와 연결된 모델링을 포함한 고등분석에서의 유용성에 기초한 것임을 밝혀둔다.

이제 데이터베이스를 평가하는 9가지의 기준을 소개하기로 한다. 이 체크 리스트는 내부나 외부의 데이터를 검토하는데 유용할 것이며, 또 데이터를 자산으로 가지고 있는 회사들에 투자를 한다던가 합병을 고려할 때에도 사용될 수 있겠다.


1. 깊이(Depth)

가장 명백한 것부터 시작해보기로 하자. 과연 그 데이터베이스에 어떠한 정보가 들어있는가? 주요 변수들은 어떤 것들이고, 어떤 고유의 특성을 지니고 있는가? 정보의 다양성은 당연히 중요한 판단의 기준이 되며, 특수성은 그 데이터베이스가 만들어지고 관리되는 목적에 연관되어 있을 수 밖에 없다.

예를 들자면 B-to-B 데이터, 외국 데이터, 모바일 기기에서 파생된 것 같은 특정행동에 관한 데이터, 카테고리가 분명한 거래 데이터, 생활패턴 데이터, 표본추출 데이터 등을 생각해볼 수 있겠다. 거꾸로 말하자면 목적이 분명하지 않고 무작정 걸려드는 데이터를 모아놓기만 한 데이터베이스는 크기에 상관없이 비즈니스에 써먹기가 곤란하다는 말이다.

일반적으로 데이터 사전(Data Dictionary)이 그 데이터베이스의 깊이를 나타내지만(아예 그런 문서가 존재하지도 않는다면 그 자체가 큰 문제다), 그 안을 더 깊이 파고들어갈 필요가 있다. 예를 들자면 미래를 예측하는 데에 사람의 행동을 기록한 데이터(behavioral data)가 묘사적 데이터(descriptive data)보다 훨씬 더 강력한 변수가 되기 때문에 앞서 언급한 데이터의 종류별로 어떤 변수들이 수집, 관리되고 있는지 살펴봐야 한다. 행동에 관한 데이터도 설문조사 등에 기초한 데이터는 사람들이 말하는 것과 실제의 행동이 다른 관계로, 거래기록에서 파생된 것보다 가치가 떨어진다.

데이터도 패키징을 어떻게 하느냐에 따라 효용성이 증가하기 때문에 창의적인 아이디어도 데이터베이스 가치판단에 중요한 변수가 된다. 특히 데이터베이스가 커지면서 많은 변수들에 숨겨진 의미를 함축할 필요가 더 많아졌기 때문에, 사용자들에게 편리하도록 변수를 전환해놓았다던가 모델을 이용해 점수화해놓은 변수들이 눈에 뜨인다면 가산점을 받아 마땅하다.

왜냐하면 많은 변수를 단순히 나열해놓은 것보다 사용자의 질문에 대한 대답의 형태를 갖출수록 데이터의 사용이 훨씬 더 유용해지기 때문이다. 그래서 데이터베이스 규모 따위는 사실 중요한 판단의 기준도 아니며, 변수의 숫자만을 자랑하는 것도 무의미하다. 데이터를 수집하는 사람들이 반드시 유념해야 할 점이자 필자가 ‘빅데이터’라는 표현 자체를 꺼리는 이유이기도 하다.


2. 너비(Width)

아무리 겉으로 보기에 변수가 다양하고 데이터베이스가 깊이 있어 보이더라도 커버리지(coverage)가 넓지 않으면 그것은 무용지물이다. 예를 들자면 소비자가 매장에서 상품을 구입함과 동시에 제품 단위의 구매기록 데이터가 실시간으로 입력, 관리되는 데이터베이스가 있다 하여도, 만약에 그런 데이터의 수집이 전국을 통틀어 두 매장에서만 가능하다면 그 데이터베이스의 가치는 떨어질 수 밖에 없다.

실제로 필자는 그런 경우를 마주친 적이 많은데, 물론 분석이란 주어진 데이터의 효용성을 최대화하는 과정이긴 하지만, 지역적으로 국한된 데이터로 전국 소비자의 특성을 가늠하자면 많은 가설을 (심지어는 나중에 후회할 만한 가설들도) 만들어야 하고, 또 그 분석 결과 또한 많은 오류를 포함할 수 있다.

아무리 모든 기기를 통해 모든 곳에서 모든 이에 대한 모든 데이터를 모을 수 있는 시대라도 완벽하게 수집된 데이터란 없다(제9장: ‘정보의 부재에도 의미가 있다’ 참조). 정보수집의 한계는 도처에 있다. 특정 브랜드에 국한된 정보를 상상해볼 수 있고, 그와 마찬가지로 사업지역, 프라이버시 조항, 데이터 소유권, 수집도구, 기술적 한계, 수집기구의 분포의 한계 등 많은 다른 이유로 수집되지 않는 정보가 더 많을 수도 있다.

한국에서는 모바일 기기를 이용한 결제가 이미 일상화되어 있지만, 미국에서는 Apple iPhone의 NFC(Near Field Communication)를 이용한 Apple Pay가 이제서야 주목을 받고 있으며 실제 사용빈도도 괄목할 정도가 아니다. 그러한 새로운 기술을 통해 수집되는 데이터는 그 기기가 널리 보급되기 전에는 많은 한계를 지니고 있을 수 밖에 없으며, 그런 데이터만을 기초로 한 분석은 진정한 소비자의 성향이 아니라 그 기기를 일찍 수용한 사람들의 성향을 표현하는 편향성(bias)을 포함하게 마련이다.

기술적인 한계가 아니더라도 만약 한 회사만의 신용카드 데이터를 이용해 사용자 분석을 하면 그 결과는 크건 작던 편향성에서 완전히 자유로울 수 없다. 필자는 그런 분석이 가치가 없다는 말을 하는 것이 아니라(수집한 데이터의 한계를 알고 해석하면 그러한 분석의 결과는 아주 유용할 수 있다), 데이터를 다루면서 커버리지(coverage)는 항상 유념해야 할 사항이라는 것이다.

더 나아가 전문가들을 통해 수집되고 관리되는 데이터도 변수 별로 커버리지를 살펴볼 필요가 있다. 정보의 종류에 따라 수집이 더 어려운 변수가 있을 수 있으며, 미국에서와 같이 정보의 판매가 비교적 자유로운 나라에서도 사람들의 직업이나 자녀 여부는 단순한 수입이나 자택여부 등에 비해 수집이 어려운 정보에 속한다.

심지어는 사람들이 소유하고 있는 자동차에 관한 정보가 자유롭게 유통되다가도 그런 정보의 거래 자체를 금지하는 법안의 통과로 하루 아침에 변수가 빈 곳으로 남게 되는 경우도 있다. 요는 변수의 존재 자체만 가지고 판단할 일이 아니라 과연 얼마만큼의 정보가 그 안에 있는지도 반드시 살펴야 한다는 것이다.


3. 정확성 (Accuracy)

어떠한 과학적 분석에서도 ‘False Positive’, 즉 ‘오류로 인한 양성반응’은 사용자들의 적이다. 실제로 그런 오류에 기초한 답은 정보가 아예 없느니만 못한 것이다. 많은 사람들은 컴퓨터에 저장된 정보는 다 옳다고 믿는 경향이 있지만, 데이터 자체도 인간적 오류에서 절대로 자유로울 수 없다.

게다가 데이터의 출처가 특수하고 희귀할수록 비교대상의 부재로 그 정확도를 가늠하기가 어려워진다. 데이터 에러는 일차적 수집에서 변환과정을 포함한 모든 단계에서 일어날 수 있다. 만약에 여러 곳에서 비슷한 정보가 수집된다면 서로 비교하는 것도 정확성을 확인하는 한 방법이며, 데이터를 업데이트 할 때마다 지난 버전과의 차이를 끊임없이 검토하는 것도 바람직한 프로세스이다.

하지만 데이터의 정확성은 단지 데이터를 만지는 사람들만의 일이 아니다. 물론 이 데이터 비즈니스에서는 마지막에 데이터를 만진 사람이 그 때까지 일어난 모든 오류까지 책임져야 하는 법이지만, 미국식 표현을 빌리자면 결국은 “Garbage-in-garbage-out”인 것이다. 애초에 만들어진 오류는 참으로 고치기가 어려운 것이며, 그래서 모든 수집과정이 중요한 것이다.

최근에 필자는 매장에서 매장직원들에 의해 수집된 데이터를 가공하는 과정에 참여했는데, 그 중 중요한 단계 중의 하나는 사람들에 의해 만들어진 오류를 수정하거나, 아예 폐기하는 작업이다. 그러자면 참으로 많은 데이터를 직접 들여다봐야 하는데, 그 중에서 가장 한심하고도 웃기는 예는 이름 난에 “Asian Tourist”라고 입력한 것이다. 그런 것 말고도 이름 난에 “No Information”, “Not Given” 등이 들어있는 것은 아주 흔한데, 그런 오류를 수정하지 않으면 나중에 “Dear Asian Tourist”라고 이메일을 발송하게 되는 끔찍한 경우도 생길 수 있다(미국에서는 그런 실수로 회사가 소송을 당할 수도 있다).

이러한 ‘사람들에 의한 오류’는 사방에 널려 있는데, 심지어는 은행의 고객기록에서도 심각한 오류를 발견한 것이 한두 번이 아니다. 전화번호 같은 것은 “777-555-1234” 같이 아무 번호나 기입한 경우도 많고, 완전히 장난으로 “Mickey Mouse” 같은 이름이나 심지어는 욕설이 발견되기도 한다. 그런 욕설을 고객에게 보내는 편지나 이메일에 포함시켜 보낸다면 그 결과가 어떨지 짐작하기가 어렵지 않다.

그래서 데이터베이스를 항시 체크하고 깨끗이 정리하는 것이 중요한 일인데, 요즘 화두가 되고 있는 데이터 거버넌스(Data Governance)라는 것도 사실 이런 단순하다고도 할 수 있는 작업이 시작점이다.

그런데 회사의 직원들이야 교육이라도 시킬 수 있지만 (예를 들자면 “자신의 이메일 주소를 입력시키지 말 것”, “어느 경우에도 거짓 정보를 입력하지 말고 모르면 빈 곳으로 남겨둘 것” 등), 인터넷에서 소비자나 사용자가 직접 입력하는 정보는 어떻게 관리할 것인가?

컴퓨터란 무엇이 나쁜 말인지 사람이 가르쳐 줄 때까지는 모르는 존재이니 그런 단어들이 발견되는 대로 끊임없이 테이블(meta-table)로 정리하여 관리하는 법 밖에는 없다. 사실 크라우드 소싱(crowd sourcing)으로 데이터베이스를 크게 만들었다고 자랑하는 회사들의 가장 큰 고민은 바로 정보의 정확성과 관리이다. 컴퓨터에 데이터가 입력되는 것은 수많은 스텝들 중 첫 걸음에 불과한 것이다.

더 나아가 숫자로 표현된 데이터의 경우, 어떤 숫자가 오류를 포함하고 있는지 사람 눈으로 봐서는 알 수가 없기 때문에 그 정확성을 확인하기가 더 어렵다. 그래서 다른 데이터 소스(data source)와 비교 검토하는 것이 중요하며, 그것이 여의치 않다면 분포도와 median등을 과거의 기록과 늘 비교해야 하는 것이다.

미국의 경우, 정부에서 Census Data를 공개하기 때문에 어느 정도 비교의 대상이 있는데, 사실 어느 나라에서든 이러한 공공 데이터는 프라이버시의 문제를 초래하지 않는 선에서 감추지 말고 공개하는 것이 바람직하다. 앞서 언급했듯이 정보의 오류는 많은 사회적 낭비를 초래하기 때문이다.

만약에 비교대상이 없는 회사 내 데이터라면 통계에서 말하는 ‘Outlier’, 즉 극한 값을 포함한 데이터를 아예 제거해 버리는 방법도 권장할 만하다. 미국식 표현으로 “Too good to be true”의 범주에 드는 데이터를 없애버려도 분석에 전혀 지장이 없는 법이다.

요점은 1)누군가가 컴퓨터에 입력하고 데이터베이스로 관리한다고 해서 거기서 나온 정보를 의심 없이 믿지 말 것이며, 2)데이터의 오류를 끊임없이 리포트나 리스팅을 통해 찾아보아야 한다는 것이다. 컴퓨터는 무엇이 “bad”인지 사람이 룰을 정해 입력시키지 않으면 알지 못한다.


4. 최신성(Recency)

데이터도 시간이 지나면 정확성을 잃게 마련이다. 진부하고 오래된 데이터는 예측이나 분석에 도움이 되지 않는 것은 물론이며 그 자체가 오류로 작용할 수 있다. 미국에서는 그러한 이슈를 ‘Data Atrophy’, 즉 ‘데이터의 쇠퇴’라고 부르는 사람들도 많은데, 문제는 현재에 아무리 신선하고 정확한 데이터라 하더라도 시간이 지나면 퇴화한다는 것이다. 즉, 데이터도 유통기간이 있다는 말이다.

예를 들자면 어떤 사람이 골프를 즐긴다는 정보를 얻었다고 가정하자. 그 정보는 아주 오래 전의 성향조사에 대한 답에서 나온 것일 수도 있고, 혹은 몇 년 지난 거래기록에서 파생된 것일 수도 있다. 문제는 그 사람이 이제는 더 이상 골프를 치지도 않고 새로운 장비에는 더더구나 관심이 없을 수도 있다는 것이다. 데이터도 업데이트를 계속 해주지 않으면 누군가가 오래된 데이터에 기초해 옳지 않은 판단을 하게 될 가능성이 생기는 것이다.

더 큰 문제는 행동에 관한 데이터(transaction or behavioral data)와 같이 수집이 어려운 데이터가 더 빨리 퇴화하는 경향이 있다는 것이다. 그러한 거래에 기초한 데이터의 퇴화가 피할 수 없는 일이라면, 그 데이터의 조각마다 언제의 기록에 기초한 것인지 표시를 해놓는 것이 바람직하다. 누가 만약에 골프 드라이버를 새로 구입했다면, 그게 언제였는가? 당연히 2009년 기록보다 2014년 기록이 더 가치가 있는 것이다.

미국에서는 ‘Hot Line Name’, 즉 현재 어떤 카테고리에 관심을 두고 있는 사람들의 명단이 비싼 값으로 거래되고 있는데, 관련된 상품에 따라 다르지만 사실 그런 데이터도 길어야 2~3개월이면 효용을 다하는 것이고, 많은 경우 그보다 훨씬 짧은 시간에 그 가치가 증발해버리는 경우도 많다. 분석가나 통계전문가들이 하는 일들 중 하나가 그런 데이터의 유효기간을 최대한 늘리는 일이기는 하지만, 언젠가는 그 원천적 데이터의 효용성은 사라지게 마련이다.

요즘 ‘실시간 업데이트’란 말이 너무 쉽게 사용되고 있어서 오히려 문제지만(실시간으로 의사결정을 하지 않는다면 그 비싼 ‘실시간 업데이트’를 고집할 필요가 없다), 데이터베이스는 주간, 월간, 여의치 않다면 분기당으로라도 꾸준히 업데이트 되어야 그 가치가 보전된다. 아니면 누군가가 다 지나간 정보로 틀린 결론을 내리게 될 것이다.


5. 일관성(Consistency)

아무리 데이터베이스를 자주 업데이트해도 모든 변수가 다 같이 채워지고 갱신되지는 않는다. 그리고 그게 현실이다. 재미있는 것은 모델 등 고등분석에 데이터가 사용될 때 데이터에 일관성이 있다면 쓸만한 예측이 나온다는 것이다. 이상하게 들릴 수도 있지만 그리 정확하지 않은 정보도 ‘일관성 있게 틀리면’ 예측적 모델에 유용하게 쓰일 수 있다는 말이다.

모델링이란 ‘타깃’과 ‘타깃이 아닌 것’의 차이점을 수학적으로 표현하는 작업이고, 만약에 그 두 그룹을 묘사하는 변수들이 ‘일관성 있게’ 어긋나 있다면 그 모델자체는 유용할 수 있다. 반면에 새로운 데이터라도 성향이 아주 다른 정보가 갑자기 많이 나타난다든지, 아니면 정보를 수집하는 과정이나 그러한 수집을 가능하게 하는 비즈니스 자체가 바뀐다면 여태까지 만들어놓은 분석의 틀과 모델들은 하루 아침에 무용지물이 될 수가 있다. 그런 변화를 감안하지 않은 분석은 소비자 성향의 변화가 아니라 비즈니스 모델의 변화를 묘사하는 결과를 낳게 되고, 그것은 예측적 분석에서 가장 바람직하지 않은 오류들 중 하나다.

제9장: ‘정보의 부재에도 의미가 있다’에서 missing data를 다루는 법을 설명하면서 데이터 변수도 통계를 이용한 추정치(inferred value)로 대치되어서 사용될 수 있다고 언급한 바 있다. 그러한 대치법(imputation)은 그것이 일관된 결과를 준다는 가정하에만 사용될 수 있다. 하지만 많은 전문가들도 그 일관성을 유지하지 못하는 경우가 많은데, 사실 성격이 크게 다른 데이터가 갑자기 유입되면 그야말로 판을 갈아엎고 모든 모델을 다시 짜는 것 외에 다른 방법이 없게 되는 경우도 많다.

그러한 불확실성은 데이터를 만지면서 피할 수 없는 일이지만, 당해도 알면서 당하려면 데이터베이스를 업데이트할 때마다 중요변수의 분포도를 늘 살피고, 만약 어떤 카테고리에서 5% 이상의 변화가 보이면 데이터 출처의 근본부터 검토해야 한다. 예측적 분석(predictive analytics)에서 일관성(consistency)은 순수한 정확성(accuracy)보다 더 중요할 수 있다.


6. 연결성(Connectivity)

이미 여러 차례 언급한 바와 같이 데이터에도 여러 종류가 있다. 그리고 데이터의 예측성은 많은 다른 타입의 데이터가 함께 사용될 때 증폭된다. 예를 들자면 단순한 demographic data도 예측적 모델에서 behavioral data를 보조하는 중요한 역할을 한다. 그것은 어떠한 데이터도 완벽하지 않아서 그렇기도 하고(행동에 관한 데이터는 강력하지만 얻기가 어렵다), 또 모델 공식 내에서 다른 종류의 데이터들이 서로 다른 역할을 해서이기도 하다.

문제는 많은 현재 데이터베이스들 간에는 서로 연결되는 고리가 없다는 점이다. 어떤 데이터에 대상의 신분을 나타내는 PII(Personally Identifiable Information), 즉 이름, 주소, 이메일, 전화번호 등이 있다면 그것을 이용해 연결을 시도할 수 있겠지만, 그러한 데이터는 수집조차 금지되어 있는 경우가 많다.

예를 들어 고객명단에는 그런 정보가 있겠지만 만약에 외부에서 수집된 모바일 정보에 PII가 포함되어 있지 않다면 연결 자체가 불가능하게 된다. 그렇다고 데이터 자체가 무용지물이 되는 것은 아니지만(전체적 성향 분석, 즉 trend analysis는 PII없이 가능하다), 아무튼 연결이 안 되는 데이터는 고립되어 있을 수 밖에 없고, 그 효용도 떨어진다.

그렇게 개인별 데이터가 연결이 되지 않는 경우, 지역단위로 데이터를 축약(summarize)해서 합치는 방법도 생각해 볼 수 있다. 타깃 마케팅에서 가장 바람직한 것은 1-to-1 Targeting이지만, 그것이 여의치 않을 때 지역적으로 공략하는 것도 아무런 타겟팅을 하지 않는 것보다는 훨씬 바람직하다.

연결고리가 없다는 것은 아주 일을 망치는 요소는 아니지만 분석가들의 행동범위를 현저히 줄이게 된다. 그래서 필자는 데이터베이스의 효용성을 검토할 때, 타 데이터베이스의 연결점이 있는지부터 반드시 살핀다. 고립된 데이터베이스는 아무래도 사용의 한계가 있다.


7. 전달방법(Delivery Mechanisms)

많은 사용자들은 데이터베이스에 연결되어 있는 시각화(visualization)나 리포팅 툴로 그 데이터베이스를 평가하곤 한다. 앞서 언급한 바와 같이 그것은 창문만 보고 건물을 평가하는 격이지만, 많은 비전문가들에겐 그것이 현실이다. 역설적으로, 그래서 데이터를 ‘보여주는’ 툴셋도 중요한 평가기준의 하나이다. 프로그래머가 아닌 일반 사용자가 어떻게 데이터베이스에서 해답을 찾을 것인가? 물론 툴셋을 통해서이다.

하지만 그것이 전부가 아니다. 세상에는 정말 많은 종류의 플랫폼과 기구가 있고, 데이터는 그 모든 것을 통해 자유롭게 흘러 다녀야 유용해진다. 요점은 정책결정자가 선호하는 기구를 통해 적시에 대답이 전달되지 않으면 그 데이터 자체가 소용이 없어진다는 것이다. 그런 것은 API Feed, FTP, 혹은 고전적인 batch installment로 이루어질 수 있지만, 아무튼 데이터베이스는 사용자에게서 멀리 떨어져 있으면 안 된다.

이 책의 서두에서 데이터를 잘 다룬다는 소리를 들으려면 1)수집(collection) 2)가공(Refinement) 3)전달(Delivery) 이 세 가지를 다 잘해야 한다고 강조한 바 있다. 정제된 데이터를 질문에 대한 대답의 형태로 의사결정자에게 전달까지 제대로 해 주는 것이 정보 유통의 한 순환점을 도는 것이다. 노래로 말하면 그것이 1절의 끝인 것이고, 달리기에 비교하자면 운동장을 한 바퀴 돈 것이다. 그리고 정보는 계속 순환되어야 한다.


8. 사용의 용이성(User-friendliness)

아무리 대단한 visualization, reporting, 혹은 drilldown toolset에 데이터베이스가 연결되어 있어도 그 안에 있는 변수들이 너무 복잡하다거나 직관적이지 않으면 사용자가 어렵게 느끼고 데이터베이스 자체를 멀리하게 된다. 데이터베이스를 구축하는데 많은 투자를 한 이후에 이런 일이 생기면 참으로 곤란한 일인데, 불행하게도 그런 경우가 실제로는 아주 많다.

심지어는 데이터 사전을 무슨 로봇이 다른 로봇을 위한 매뉴얼 정도로 복잡하게 써놔서 데이터를 오래 다룬 사람도 뭐가 뭔지 모르게 해놓은 경우도 많이 보는데, 데이터 사이언티스트(data scientist)라고 불리고 싶다면 데이터를 ‘인본화’할 줄도 알아야 한다.

현재 시류를 잘 타고 있는 듯 보이는 이 빅데이터 운동의 여세를 죽이지 않고 그것이 실제로 의사결정에 도움이 되는 방향으로 더 나아가려면, 데이터를 만지는 사람들은 데이터에 관한 그 모든 것을 쉽게 해야지 어렵고 복잡하게 해서는 안 된다. 간단한 데이터 변수, 직관적인 변수의 이름, 의미 있는 가치 값, 미리 대답의 형태로 만들어놓은 정보, 완전한 데이터 사전 등은 데이터베이스를 힘들여 구축하고 관리함과 더불어 당연히 해야 할 일들이다.

그래서 필자는 데이터 사이언티스트들과 데이터 전문가들은 기술자가 되기 이전에 비즈니스맨이 먼저 되어야 한다고 주장하는 것이다. 개발하는 사람들은 사용자들이 전문적인 트레이닝을 받은 사람들이 아니고 수학의 천재들도 아니란 것을 절대로 잊어서는 안 된다.

좀 심하게 들릴 수도 있는 표현이지만 미국회사에서 개발팀들이 흔히 말하는 목표가 ‘Idiot-proof’, 즉 ‘바보도 사용할 수 있는 도구’를 만드는 것이며, 완성된 툴에 ‘얼마나 쉽게 접근할 수 있는가’는 당연히 평가의 기준이다. 더욱이 전문적인 데이터 분석가들도 직관적인 변수들의 이름과 완벽한 데이터 사전을 감사하게 생각할 것이다. 데이터 변수의 이름이 무슨 뜻인지 탐문하러 다니지 않아도 그들의 일은 이미 충분히 어렵고 복잡하다.


9. 비용(Cost)

필자는 이 중요한 평가기준을 의도적으로 마지막으로 남겨 두었다. 개발과 유지 비용이 중요한 것은 이미 자명한 사실이다. 하지만 그것이 데이터베이스를 평가하는 유일한 기준이어서도 안 된다. 즉 CFO가 이 앞의 여덟 가지 요소를 다 고려해야 하는 CMO, CTO, CIO, 혹은 CDO들을 무시하고 독단적으로 가격표만 보고 데이터베이스나 데이터 출처를 평가해서는 곤란하다는 뜻이다. 물론 필자가 이런 말을 하는 이유는(한국에서는 어떤지 모르겠지만) 미국에서는 그런 일이 비일비재하기 때문이다.

데이터를 사용하는데는 많은 비용이, 때로는 아주 많은 비용이 소요된다. 하드웨어, 소프트웨어, 플랫폼, 툴셋, 유지비, 그리고 가장 중요한 인적 비용을 다 더하면 그 총액이 무시 못할 숫자가 되는 것은 순식간이다. 게다가 방향을 잘못 정해서 재공사라도 하는 날에는 배보다 배꼽이 더 커지는 수도 있다.

아무리 오픈소스와 클라우드 컴퓨팅의 시대라 하여도 “발생하는 데이터는 그냥 모두 모아 놓자”란 식의 목적이 분명하지 않은 사업은, 제대로 계획된 프로젝트에 비해 비용과 시간이 열 배가 소요되어도 일이 마무리 지어지지 않는 수가 있다.

그리고 역설적으로 ‘가장 싼 옵션’ 만을 모아놓은 듯한 계획은 잘못되기가 더 쉽다. 그래서 미국에서는 아웃소싱이 발달한 것인데, 일단 여기에 열거한 모든 평가기준을 제대로 다 이해하고 일을 추진하려면 전문가와의 상담이 반드시 필요한 것이고, 또 그럴 경우 이미 만들어진 인프라를 공유할 수 있다는 이점도 있다. 데이터를 전문으로 다루지 않는 기업에서 인프라 개발을 포함한 전 과정을 소화하기란 쉬운 일도 아니고 그것은 돈을 낭비하는 첩경이다.

데이터베이스를 만든다는 것은 건물을 짓는 것과 비슷한 점이 많다. 비용도 여러 관점에서 생각해야 한다는 것과, 또 분명한 목적과 그에 부합하는 사전설계 없이 일을 추진하다가는 돈만 버리고 실패한다는 점에서도 유사하다. 비용은 여러 가지 고려대상들 중 하나일 뿐이다.

 

비즈니스가 우선이다

데이터베이스나 데이터, 또 그의 출처를 평가하는 것 자체가 프로젝트이며, 여기에 열거한 아홉 가지 평가기준은 좋은 가이드라인이 되리라 믿는다. 물론 비즈니스에 따라 더 많은 조건들이 더해질 수도 있겠다. 그리고 그것이 마지막 요점이다.

즉 데이터나 데이터베이스는 사업의 목적에 부합해야만 한다는 것이다. 그 우선 순위가 제대로 서있지 않으면 실패할 가능성도 높아지고 훌륭한 데이터베이스를 만들어 놓고도 그 프로젝트가 실패라고 규정지어질 수 있다.

필자는 “Big Data Must Get Smaller”, 즉 “빅데이터는 작아져야만 한다”라고 늘 주장해왔다. 이 빅데이터 운동은 1)잡음을 줄이는 것 2)의사결정자들에게 대답을 만들어 주는 것으로 수렴되어야 한다고 반복한 바 있다.

만약 데이터나 데이터베이스가 사업의 목적에 부합되지 않으면 과감히 쳐내야 한다. 만일 검토대상인 데이터베이스가 오류로 가득 차 있고, 정리되어 있지도 않고, 유효기간이 지난 변수들이 그야말로 가끔씩 자리 잡고 있는데도 유지비용만 많이 든다는 사실을 확인할 수 있다면, 쳐내는 것은 아주 쉬운 결정이 될 것이다.

하지만 그 데이터베이스가 사업의 확장에 도움이 된다면 그것을 항시 정리하고 업데이트하고 깊이와 너비를 늘리고, 또 재개발해서 필요한 대답을 언제든지 꺼내볼 수 있도록 정성들여 관리해야 할 것이다.

모든 데이터베이스가 다 같은 것이 결코 아니며, 조지 오웰의 ‘동물농장’식 표현을 빌리자면 “어떤 데이터베이스는 다른 것들보다 더 평등한 것이다(Some are more equal than others)”. 그리고 그런 차이를 제대로 알아 볼 수 있는 안목이 IT 전문가들뿐 아니라 사업가들에게도 요구되는 시대이다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지