[특별연재(18)] 데이터를 잘 써먹을 수 있는 구체적인 방법들

연재를 마치며 - Data Movement의 미래는?

▲ 유혁 eClerx Associated Principal - Analytics, Insights & Reporting Practice Lead

[컴퓨터월드] 유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명성을 얻고 있는 세계적인 데이터 전략, 빅데이터 애널리틱스 전문가다. I-Behavior의 공동창업자/CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이터베이스 설계, 통계학적 모델을 활용한 타깃마케팅 등 마케팅과 IT간 가교에 큰 기여를 해왔다.
유혁 대표는 오랜 전문가로서의 경험을 바탕으로 국내 사용자들과 독자들에게 보다 데이터를 효과적으로 잘 사용하면서 시행착오를 줄일 수 있는 방법을 특별연재를 통해 소개하고자 한다. 금융, 통신, 미디어, 유통, NGO 등 다양한 글로벌 고객들과의 현장 경험에서 우러나온 애정 어린 충고와 쓴 소리에 독자들의 많은 관심을 부탁드린다. <편집자 주>

빅데이터란 말이 많은 이들의 입에 오르내린 지도 이미 많은 시간이 지나서 거기에 대한 사람들의 생각에도 크고 작은 변화가 있었을 것이다. 이미 여러 가지 예를 들어가며 강조했었지만 데이터란 제대로 가공해 의사결정에 반영해야만 효용이 있는 것이지, 많은 양을 쌓아놓는다고 능사가 아니다.

빅데이터란 말 자체는 이제 ‘무의미’, 사업에 적용하는 것이 중요

이제는 ‘빅데이터’란 말 자체는 무의미한 시대가 됐다. 데이터를 사업에 적용하는 것이 중요하지 기술, 툴 셋, 분석방법 등은 그저 목적을 이루기 위한 수단에 불과하다. 데이터를 일상적으로 사용하는 것 또한 더 이상 자랑거리가 아니며 새로운 일도 아니다. 다만 누가 그 일을 보다 효율적으로 해 수익을 창출하느냐가 관건인 것이다.

빅데이터의 유행이 많은 오해도 낳았지만, 결과적으로 볼 때 가장 바람직한 변화 중 하나는 데이터나 분석을 업으로 삼지 않는 사람들도 의사결정에 정보를 효과적으로 사용해야 한다는 인식을 갖게 됐다는 점이다.

치열한 경쟁 속에서 기업들이 살아남기 위해 데이터의 사용은 더욱 더 필요하게 될 것이며, 기술의 발전은 그러한 적용을 더 수월하게 만들 것이 분명하다. 데이터나 분석에 종사하는 사람들이 이러한 변화를 바람직한 방향으로 주도하기 위해 어떻게 해야 할까를 고민해야 하는 이유다.

얼마 전 필자는 뉴욕에 있는 어느 창업회사가 데이터 분석가가 될 만한 자질이 있는 후보생을 선별하는 과정에 참여해 인터뷰를 도와준 적이 있다. 그때 한 응시생이 한 말이 아직도 기억이 난다.

그 젊은이는 21세기 이전에는 데이터마이닝(Data Mining)이라는 것 자체가 없었다고 주장하는 것이었다. 그는 필자와 같은 ‘어른’이 데이터로 수익을 창출하는 직업을 오랫동안 가지고 있었다는 사실에 진심으로 놀라워했으며, 그것은 당시 면접에 참여한 사람들에게 아주 웃겼던 일화로 남아있다.

그 젊은이의 주장은 각종 컴퓨터 그래픽 기술들이 영화에 적용되기 이전에는 영화산업 자체가 존재하지 않았다고 말하는 것과 크게 다르지 않기 때문이다. 물론 많은 젊은이들에게는 만사가 네트워크에 연결돼있지 않았던 지난 과거가 선사시대만큼 옛날 얘기로 들리겠지만 말이다.

데이터는 컴퓨터 출현 이전에도 존재

하지만 아직 할아버지 소리를 듣기에는 좀 억울할 수도 있는 많은 어른들은 메인프레임 컴퓨터(mainframe computer)의 최초 상업적 적용, PC혁명, 인터넷의 팽창, 무선기기(wireless)들의 점령, 그리고 정보의 클라우드(cloud)로의 이동을 생생하게 기억하고 있다.

특히 이러한 혁명적 변화를 비교적 단기간 내 겪어본 사람들의 입장에서 보자면 지금의 클라우드를 통한 중앙집중적 정보의 수집과 분배는 레티나 레벨의 디스플레이(retina display)가 단순한 초록색과 검정색의 모니터 스크린을 대체하고 여러 기기들을 연결해주던 전선들이 대부분 사라지고 있다는 점을 빼고 나면 과거의 메인프레임의 모델과 크게 다르지 않다고 말할 수도 있다.

데이터는 컴퓨터나 저장기능의 발명 이전에도 분명히 존재했다. 다만 정보는 디지털 형태가 아니라 두루마리나 손으로 엮인 책들 속에 존재했으며 모든 사람들에게 접근이 허락되지 않았던 도서관이라는 커다란 건물에 저장돼있었을 뿐이다.

그런 시절에는 데이터마이닝이 수십 년이 걸렸을 수도 있었으며, 때로는 알렉산드리아나 천축국, 혹은 북경으로의 여행도 필요했을 것이다. 게다가 데이터마이닝 - 정보를 통찰력으로 전환시켜 의사결정과정에 적용하는 활동 - 은 인류가 정보를 디지털화하기 시작하고도 처음 몇 십 년 동안은 크게 빛을 보지 못했다.

초창기에 통계적 분석을 타깃 마케팅에 접목시킨 사람들은 펀치카드밖에 읽을 수 없는 구식 컴퓨터로 일을 해야 했다. 그게 인류가 최초로 달나라로 간다고 흥분하던 때이니 빅데이터 시대에 비하면 그야말로 호랑이 담배 피던 시절 얘기라고 할 수도 있겠다. 하지만 당시 대부분 출판업계에 몸담고 있었던 그 선구자적인 수학자들은 분명히 현대의 데이터 사이언티스트들을 위해 수학적 도로를 깔아줬다고 볼 수 있다.

현 세대의 컴퓨터에 비해 속도는 백만 배 정도 느리면서도 가격은 지금보다 비교도 할 수 없게 비쌌던 메인프레임 컴퓨터로 그들은 크리스마스 캠페인을 위한 타깃팅 모델을 만들었다. 느린 처리속도 덕분에 테스트를 제대로 할 시간도 없었으니 문자 그대로 단번에 그 일을 수행했어야 했다.

도구는 변했어도 수학은 변하지 않아

지금처럼 그 시절에도 크리스마스는 일 년에 한 번씩 반드시 돌아왔고, 그런 골동품 같은 컴퓨터로도 통계적 모델을 이용한 타깃 마케팅은 좋은 결과를 만들었다. 그런 노력은 마치 지구로 귀환하는 우주선의 대기권 진입 각도를 손으로 계산하는 것에 비유할 수 있는데, 분명한 점은 도구는 변했지만 수학은 변하지 않는다는 것이다.

다시 현대로 돌아와 보면 지금 우리는 문자발명 이래로 집적된 모든 정보의 양보다 수백만 배 많은 데이터를 매분 수집하고 있다. 모든 사람의 행동은 물론이고 기계의 활동까지도 전부 기록되고 있으니 말이다.

단지 몇 번의 클릭으로 통계적 모델을 만드는 도구가 일상화되고 있으며, 훗날에는 간단히 컴퓨터에게 사업 목적을 명시하는 것만으로도 분석임무를 수행할 수도 있게 될 것이다. 통계전문가나 데이터 사이언티스트라는 직책의 많은 부분도 곧 기계에 대체될 것이 자명하다.

그렇다면 데이터의 적용이 수십 년간 성공적으로 이뤄져왔다는 미국에서조차 왜 많은 마케팅 메시지들이 대부분의 소비자들에 의해 철저히 무시되고 있는 것일가? 마케팅의 성공지표들은 왜 컴퓨터 처리속도에 비례해 향상되지 않은 것인가?

많은 소비자들이 너무나 많은 광고에 시달리고 있는 것도 사실이지만, 일반적인 1대1 마케팅에서의 반응률(click-through같은 피상적 지표가 아닌 실제 구매율)은 왜 아직도 1% 이하를 맴돌고 있는 것일까? 그것은 바로 99% 이상의 노력이 헛수고라는 말이 아닌가?

데이터마이닝의 선구자들은 주판을 튀기는 것보다 약간 더 빠른 컴퓨터로도 그것보다는 더 훌륭한 결과를 얻었었다.

데이터 접근방식에 근본적인 오류?

그렇게 보면 컴퓨터의 처리속도와 저장용량의 발전이 마케팅에 직접적인 도움을 주지 않은 것이 분명하다고 말할 수도 있겠다. 어쩌면 우리의 데이터에 대한 접근방식에 근본적인 오류가 있을지도 모른다. 혹은 툴 셋의 사용자들이 제대로 된 도구를 갖고도 일을 망치고 있을 수도 있겠다. 이 점을 더 깊이 파고 들어가 보도록 하자.

십여 년 전에 톰 크루즈(Tom Cruise)가 주연하고 스티븐 스필버그(Steven Spielberg)가 감독한 ‘마이너리티 리포트(Minority Report)’라는 영화가 나왔다. 그리 썩 잘된 공상과학영화는 아니었지만, 그 영화 출시 이후 필자를 포함한 많은 데이터 전문가들이 이 영화의 일부를 ‘개인적으로 최적화된 마케팅(personalized marketing)’의 예로 언급해왔다.

그 특정 장면은 마케터와 데이터 전문가들이 밟아야 할 수순들을 일반인들도 쉽게 이해할 수 있도록 표현했기에 여기서 한번 더 예로 들겠다. 그 영화에서 존 앤더튼(John Anderton)이란 수사관 역할을 한 톰 크루즈(Tom Cruise)는 악당들에게 쫓기면서 사방에 설치된 안구인식기(retina scanner)를 혼란시키기 위해 다른 사람의 눈을 이식받는다.

그러고 나서 그는 한 백화점에 들어가는데, 거기서 개인적 마케팅을 위해 프로그램된 컴퓨터의 목소리와 마주치게 된다. 그 장면이 잘 기억이 안 나거나 혹은 이 영화를 볼 기회가 없었던 독자들 위해 그 대사와 지문을 그대로 옮겨보기로 한다.

As Anderton walks in the door and gets his new eyes scanned, we hear a voice say:
(앤더튼이 문을 열고 들어가자 그의 새로 이식 받은 안구가 스캔되고 우리는 어느 목소리를 듣는다.)

STORE VOICE: “Hello, Mr. Yakamoto! Welcome back to the Gap.”
(스토어 보이스: “안녕하세요, 야카모토씨! Gap을 다시 방문해 주셔서 반갑습니다.”)

Anderton stops cold as a holographic image of a huge Asian man now appears, standing in front of him.
(앤더튼은 덩치 큰 동양인의 홀로그래픽 영상이 그의 앞에 나타나자 순간 걸음을 멈춘다.)

STORE VOICE: “How did those assorted tank tops work out for you?”
(스토어 보이스: “지난번에 구매하신 여러 가지 탱크 탑들을 잘 입고 계시나요?”)

Anderton stops and stares at the thug-like previous owner of his eyes who is now shown wearing a sweater that changes from color to color.
(앤터튼은 멈춰 서서 깡패같이 생긴 그의 새 안구의 전 임자가 입고 있는 스웨터가 여러 가지 색깔로 바뀌는 것을 응시한다.)

STORE VOICE: “Come on in and see how good you look in one of our new winter sweaters.”
(스토어 보이스: 들어오셔서 새로 출시된 겨울 스웨터가 당신에게 얼마나 잘 어울리는지 보세요.)

여기서 데이터 프라이버시에 대한 걱정은 잠시 접어두고 (‘넘어서는 안 될 선을 절대로 넘지 말라’라는 주제를 다룬 제13장: ‘할 수 있는 일이라고 다 해서는 안 된다’ 참조), 이 장면에서 일어난 일들을 조목조목 분석해보도록 하겠다.

우선 컴퓨터(이 영화에서는 마케팅과 영업을 목적으로 프로그램 된)가 타깃이 될 개인의 신원을 확인했다. 그 확인절차는 개인화(personalization)의 가장 중요한 스텝 중 하나다. 하지만 많은 데이터를 쌓아 놓고도 그런 시도조차 하지 않는 회사들이 미국에서도 허다하다.

덧붙이자면 이메일 주소나 쿠키는 개인을 대표하지 않는다. 여기서 말하는 대상 확인이란 여러 데이터베이스에 흩어져 있는 정보를 개인별로(굳이 그 개인의 신원을 밝히지 않더라도) 재구성할 수 있게 하는 연결고리를 말한다. 그런 노력 없이 단지 이런 저런 클릭들의 수집이 아닌 요즘 흔히 말하는 개인별 소비자 여정(customer journey)은 제대로 이뤄질 수가 없다.

두 번째 스텝으로 컴퓨터는 그 상대할 대상의 쇼핑과 거래 등 과거 행적에 관한 정보를 실시간으로 검색해 불러왔다. 그러한 빠른 검색과 적용은 수집되고 있는 데이터가 개인화를 주목적으로 카테고리화 되어있고 태그가 늘 제대로 적용되고 있다는 뜻이다.

개인화, 즉 personalization을 위한 정보의 분류는 그것이 사람을 상대하는 것이기 때문에 재고관리 등을 위한 활동과 다를 수밖에 없다.(제8장: ‘자유형(Freeform) 데이터는 결코 공짜가 아니다’ 참조) 그리고 그러한 정보의 정리가 제대로 돼있지 않으면 막상 대상이 그의 관심을 다른 곳으로 돌리기 전에 반응하기가 어렵게 된다.

다음 스텝으로 컴퓨터는 상품추천을 위한 알고리듬(algorithm)을 그 대상의 과거 행동, 거래 및 환경 데이터를 적용해 실시간으로 실행했다. 그리고 이 1대 1 마케팅의 마지막 단계는 타깃이 될 대상에게 적시에 적합한 채널을 통해(이 영화의 경우 소비자의 눈앞으로) 메시지를 전달해주는 것이다.

이 모든 과정이 이 공상과학영화에서는 단 몇 초 만에 이뤄졌다. 그런데 그것이 인상적인 작업인가 하면 필자의 의견은 ‘글쎄, 별로’다.

과거와 비교해 바뀐 것 없는 데이터마이닝 기술

미래의 컴퓨터가 여태까지의 진화과정을 돌이켜볼 때 얼마나 더 빠르고 우수하게 발전할지는 상상하기가 어렵지 않다. 그렇다면 여기에 예시된 작업들을 컴퓨터가 단 몇 초안에 수행할 수 있다는 것도 놀라운 일이 아니다.

분명한 것은 그 스텝들에 관한 한 데이터마이닝 기술이 골동품 같은 컴퓨터로 처음 타깃 마케팅에 이용된 때와 비교하여 바뀐 게 없다는 점이다. 다만 그 시절에는 이런 작업들이 6개월 이상 걸릴 수도 있었다는 것이 다를 뿐이다.

게다가 겨울이 돌아오니 여러 가지 스웨터를 보여준다는 것 자체가 별로 감동할 만한 일도 아니다. 정말로 똑똑한 기계라면 대상이 선호할 것 같은 색깔까지도 예측해 몇 가지 옵션으로 압축해서 보여줘야 하는 것 아닌가.

아무튼 여기서의 요점은 아무리 정보 분석과 처리능력이 발전하더라도 기본적인 스텝을 건너뛰어서는 안 된다는 것이다. 하지만 많은 분석가들과 개발자들은 모든 마케터들의 꿈을 단숨에 실현시켜줄 마법의 도구를 쫓고 있는 듯하다. 현실은 대부분의 툴 셋이 한두 가지의 주목적으로 개발될 수밖에 없는데 말이다.

기본적인 스탭을 무시해서는 안 돼

현재 많은 사업체들이 그러는 것처럼 분석 전의 데이터 가공과정을 건너뛴다면, 그 어떤 마법의 분석도구가 데이터의 정리와 카테고리화도 알아서 해줄 것 같은가?

만약 그런 공정이 자동화가된다 해도, 그것은 통계적 분석과는 또 다른 종류의 머신러닝과 트레이닝 과정을 필요로 할 것이고, 최초의 셋팅도 목적을 분명히 숙지하고 있는 - 통계 전문가가 아닐 수도 있는 - 사람에 의해 이뤄져야 할 것이다.

그러한 트레이닝 과정이 생략되면 아무리 똑똑한 기계라도 수백만 테라바이트의 가공되지 않은 데이터를 맞닥뜨렸을 때 도대체 어디서부터 어떻게 카테고리화를 시작해야 할지 모를 것이다.

소속된 단체나 기업에 상관없이 많은 개발자들은 선대에 만들어진 훈련규칙에 대해 알지 못하거나 또는 알고도 그것을 무시하는 경향이 있다. 미국의 많은 젊은 창업자들은 마치 그들이 데이터마이닝을 새로 발명하고 있는 듯이 행동한다.

많은 이들은 데이터의 용량, 종류, 품질, 가공 정도에 상관없이, 또 데이터를 공정에 따라 줄여가는 과정도 건너뛰고, 그냥 닥치는 대로 데이터를 컴퓨터에 쑤셔 넣으면 원하는 대답이 나오는 슈퍼컴퓨터를 만들려고 하고 있다.

언제가 될지 모르겠지만 미래에 그런 기계가 실제로 존재하는 날이 올지도 모르고, 필자도 그런 돌파구를 만드는 개발자를 성심껏 응원하겠다. 하지만 생각을 대신 해주는 기계도 이 글에 나열된 선대의 분석가들이 깔아놓은 스텝들을 따라야 할 것이라고 감히 말하고 싶다.

현대의 데이터마이닝은 지금에 비해 훨씬 처리속도가 느린 컴퓨터를 이용하며 시작된 것이고, 그 귀한 컴퓨팅 시간을 조금이라도 아끼기 위해 선대의 개발자들은 그 하나하나의 스텝들을 더 심각하게 다뤘었다. 그리고 그 개개의 과정들은 분명히 다른 목적과 전문 지식을 필요로 한다.

데이터의 수집, 대규모 저장, 빠른 검색, 태깅과 카테고리화, 개인 확인, 데이터의 형질변환(transformation), 정보 집적, 분석을 위한 변수 창출, 통계적 모델링, 모델 적용(scoring), 메시지의 개인화, 그리고 그 메시지를 적합한 상대에게 적시에 적합한 채널로 보내주는 일, 이 모든 과정들이 서로 다른 모듈을 통해 이음새가 보이지 않게 돌아가야 하는 것이다. 그것은 마치 각기 다른 팀이 만든 우주선들이 궤도상에서 만나 완벽하게 도킹하는 것과 비슷하다고 할 수 있다.

유일한 불변변수는 ‘인간과 수학’

가까운 미래에 여기에 열거된 모든 과정들이 기계에 의해 사람들이 하는 것 보다 더 효과적으로 수행될 것이다. 통계적 모델 같은 스텝은 다른 것에 비해 더 빨리 자동화될 수도 있다.

여기서 잊지 말아야 할 점은 인간과 수학만이 데이터 마이닝과 decision science의 진화과정에서의 유일한 불변변수라는 것이다. 그것은 컴퓨팅 시간이 아주 귀할 때도 그랬고, 정보처리속도가 지금에 비해 훨씬 더 빨라져도 그럴 것이다.

그렇다면 데이터를 다루는 사람들은 어떻게 그런 미래와 어울릴 수 있을 것인가? 필자가 생각하기에 그 대답은 복잡한 문제를 논리적 단계로 나눌 수 있고 질문을 수학적으로 표현할 수 있는 능력이다.

기계가 아무리 발전해도 비논리적인 질문에는 답이 있을 수 없다. 게다가 그 대상이 마케터이건 소비자이건 컴퓨터가 사람의 동기를 완전히 이해하려면 아직도 많은 세월이 더 지나야 할 것이다.

개발자는 인간적인 요소를 제대로 이해해야

그래서 마케팅에서의 고객 여정(customer journey)은 인간과 컴퓨터 세계의 장점만을 살린, 똑똑한 기계의 도움을 받는 논리적 인간에 의해 이뤄질 수밖에 없다고 생각되는 것이다. 단계적 절차를 무시하지 않고, 맹목적으로 기술에만 의존하지 않으며, 인간적인 요소를 제대로 이해하는 개발자가 우리를 데이터마이닝과 분석의 다음 진화단계로 이끌 것이라고 필자는 믿는다.

이 책을 마무리 지으며 긴 글의 요점을 단 한마디로 줄이자면, 데이터를 효과적으로 사용하려면 반드시 정보 사업 목적부터 분명히 하고, 주어진 데이터를 분석기술을 통해 원하는 대답의 형태로 계속 줄여나가는데 중점을 두라는 말을 남기고 싶다. 빅데이터도 작아져야 사람들이 이해하고 쓸 수 있는 법이다.

상단영역

본문영역

[특별연재(18)] 데이터를 잘 써먹을 수 있는 구체적인 방법들

연재를 마치며 - Data Movement의 미래는?

관련기사

기사 댓글 0

비회원 로그인