[특별연재(14)] 데이터를 잘 써먹을 수 있는 구체적인 방법들

정보의 흐름이 가치를 창출한다 (유혁 Willow Data Strategy 대표)

[컴퓨터월드] 유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명성을 얻고 있는 세계적인 데이터 전략, 빅데이터 애널리틱스 전문가다. I-Behavior의 공동창업자/CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이터베이스 설계, 통계학적 모델을 활용한 타깃마케팅 등 마케팅과 IT간 가교에 큰 기여를 해왔다.
유혁 대표의 오랜 전문가로서의 경험을 바탕으로 국내 사용자들과 독자들에게 보다 데이터를 효과적으로 잘 사용하면서 시행착오를 줄일 수 있는 방법을 특별연재를 통해 소개하고자 한다. 금융, 통신, 미디어, 유통, NGO 등 다양한 글로벌 고객들과의 현장 경험에서 우러나온 애정 어린 충고와 쓴 소리에 독자들의 많은 관심을 부탁드린다. 편집자 주

별로 아름다운 표현은 아니지만 ‘뭐든 다 먹고 살자고 하는 짓’이란 말이 있듯이, 데이터 관련된 일도 보상이 따라야 지속되는 법이다. 빅데이터고 스몰데이터고 그와 관련된 활동으로 경제적 가치가 창출되지 않는다면 취미로 허구한 날 데이터를 들여다볼 것이 아닌 이상 아무런 소용이 없는 일이다. 사업체의 입장에서도 투자에 대한 수익이 따르지 않으면 데이터베이스고 분석이고 다 집어치우게 될 것은 당연하다. 즉, 이 빅데이터의 성공이란 전적으로 그에 따른 경제적 가치의 창출에 달려있다는 말이다.

빅데이터의 성공여부는 경제적 가치에 좌우된다

게다가 재능만 갖고 되지 않는 것이 데이터 관련 일이다. 어떤 조직이 아무리 재주가 뛰어난 분석가를 고용했더라도 들여다볼 데이터가 변변치 않고, 많은 데이터가 쌓여있더라도 전혀 정리가 돼있지 않으며, 데이터를 다룰 도구도 제대로 마련돼있지 않다면 담당자 혼자 고생만 하고 아무런 가치도 창출되지 않을 것이다. 데이터 비즈니스도 아주 많은 산업과 관련이 있고, 그것은 한 개인이나 기업이 독자적으로 할 수 있는 일이 아니다. 즉 데이터 산업에도 ecosystem, 즉 나름의 생태계가 존재한다는 것이다.

그 생태계를 데이터가 오랫동안 마케팅 등 사업에 적용돼온 미국의 예로 설명해보기로 하자. 일단 미국에서 어떤 물품을 소비자에게 직거래를 통해 파는 사업을 시작한다고 가정해보도록 하자.

구체적인 예가 도움이 되겠기에 스포츠 용품을 1-to-1 채널을 통해 파는 사업에 뛰어들었다고 치자. 일단 장사를 시작했으면 손님부터 끌어들여야 하겠기에 판매상품이 확보되자마자 광고부터 해야 할 것이다. 직거래, 즉 direct sale이 사업모델이라면 이메일이나 디렉트 메일을 통한 카탈로그 발송이 가장 경제적으로 마케팅을 시작할 수 있는 방법일 것이다. 그런데 도대체 누구에게 그런 우편물이나 이메일을 보낼 것인가라는 질문부터 대답을 해야 한다.

편리하게도 미국에는 List Broker, 즉 소비자나 기업체 관계자의 이름, 이메일이나 주소를 마케팅용으로 사용할 수 있도록 그런 목록의 거래를 중재하는 중개상들이 있다. 전화만 하고 이상적인 판매대상을 묘사하면 그에 적합한 리스트들의 목록을 골라준다. 경험이 있는 마케터는 이 과정을 온라인으로 처리할 수도 있다. 복덕방의 개념과 같이 그런 중개상들은 자신의 고객명단을 남에게 ‘빌려주려고’ 시장에 내놓은 회사들을 대표한다.

흔히 ‘List Rental’이라고 불리는 이런 거래방식은 한국에서는 그 자체가 불법이니 아주 생소하게 들릴 수도 있는 개념이다. 그리고 그런 이메일이나 주소 리스트의 사용자들은 거의 다 일회 사용이라는 약속을 지키고, 빌린 리스트를 남과 공유하지도 않는다. 고객명단을 빌려주는 회사의 입장에서는 그런 렌털에서 나오는 수익이 무시 못 할 수준인 경우도 허다하다. 예를 들면 골프용품을 팔려고 할 때 골프 잡지 구독자 명단을 빌리는 식이고, 그 명단이 너무 방대하다면 구독자의 수입이나 나이, 기타 다른 성향, 지역 등을 바탕으로 더 세분화해 리스트를 만들 수도 있다.

그보다 한 발짝 더 나아가 여러 사업체들의 고객명단을 통합된 데이터베이스에 모아놓고 소비자 구매성향을 집대성해 관리, 판매하는 Co-op Database라는 사업모델도 있다. 필자가 창업 CTO로 참여한 I-Behavior란 회사도 바로 그런 회사다. 그런 사업이 성공할 수 있는 이유는 단적으로 말해 데이터란 여러 종류와 출처의 것들이 통합이 될수록 가치가 올라가는 법이기 때문이다.

데이터는 통합될수록 가치 증가

미국에서 활동하는 대부분의 카탈로그 회사들은 분석의 최고단수들이고, 그들은 심지어 어떤 페이지를 어떻게 구성했을 때 수익이 최적화되는 지까지도 연구한다. 하지만 그들이 아무리 자신들의 고객 활동에 대한 정보를 잘 분석하고 있어도, 그 고객들이 다른 곳에서 하는 구매활동까지 다 알 수는 없는 노릇이다.

하지만 세상에서 한 사업체와만 거래하는 소비자는 없을 것이다. 그런 활동을 모두 통합하는 데이터베이스를 만들려면 일단 수천 곳에 흩어져 있는 구매기록을 모아야 하는데, 온라인 데이터야 모으기가 비교적 수월하지만 제각기 다른 모습의 데이터베이스에 자리 잡고 있는 오프라인 데이터를 일률적으로 규격화하기란 결코 쉬운 일이 아니다.

일단 누가, 무엇을, 언제, 얼마를 내고, 어떤 채널로, 어떤 지불 방식으로 구입했는지 만을 수집하고 정형화 하려 해도 그 작업은 보통 일이 아니고, 그 무엇이라는 상품 데이터(SKU data)만도 사업체마다 수십만이 훨씬 넘는 다양한 형태로 존재한다는 것을 발견하게 된다. 그런 식으로 수천 가지 사업체 데이터를 모아놓으면 다루는 상품의 종류만도 억 단위가 순식간에 넘게 된다.

그런데 왜 그런 고생을 사서하느냐 하면, 통합된 데이터로 정확하게 소비자의 성향을 파악하고 그에 따라 어떤 소비자가 어떤 상품에 호의적으로 반응할 것인지 예측을 할 수 있으며, 그런 예측을 일관되게 잘하면 반드시 그에 대한 보상이 돌아오기 때문이다.

어느 정도로 그 예측력이 강력하냐 하면, 그런 co-op database에 참여하는 수천의 사업체들은 모두 ‘공짜로’ 자신들의 데이터를 제공하는데, 그 이유는 단지 ‘자신의 고객과 아주 비슷한 성향을 가졌으나 아직 고객이 되지 않은 사람들’의 명단을 리스트 중개상을 통하는 것 보다 더 싸게 빌릴 수 있다는 한 가지 이점 밖에 없다. 게다가 co-op회사가 만드는 명단은 예외 없이 통계적 모델을 통해 만들어지기 때문에 주먹구구식으로 수입이나 나이로 대상을 고르는 것보다 훨씬 정확하다.

사업체들이 고객 명단과 프로파일을 리스트 중개상에 내놓으면 무시 못 할 수준의 금전적 보상을 보장받을 수 있는데 거저 자신들의 데이터를 공유한다는 것은 데이터는 합쳐질수록 강력해진다는 것을 경험으로 알고 있기 때문이다(물론 양다리 걸치는 회사들도 많다). 하지만 한국에서는 이런 사업이 원천적으로 불법이다. 타 기업과는 보상 없이도 데이터를 공유할 수 없다는 법이 존재하기 때문이다.

다시 우리가 상상하고 있는 스포츠 용품 사업체로 돌아가 보자. 일단 새로 사업을 시작했으니 공유할 데이터도 없을 터이고, 그렇다면 리스트 중개상을 통해 접촉할 대상을 찾아야 할 것이다. 중개상들은 시장이 나와 있는 잡지 구독자 명단, 물품 구입자 명단 등 무수한 리스트를 다루고 있는데, 그 중 의뢰자가 원하는 리스트를 고르기란 또 쉬운 일이 아니다. 통계적 모델을 쓰면 좋겠지만 그렇게 하면 비용도 올라가고, 통합이 돼있지 않은 데이터베이스는 그런 모델을 쉽게 쓸 환경도 아니다.

그래서 그들은 중개상이 제공하는 List Card, 즉 리스트별로 정리된 프로파일을 사용한다. 거기에는 물론 데이터를 제공하는 사업체별 구매정보가 들어있지만, 별개로 평균고객들의 나이, 수입, 지역, 자녀여부 등 인구적 데이터(demographic data)도 들어있다. 그런 식으로 메일이나 이메일을 받을 대상과 마케터가 팔고자 하는 상품간의 중매가 이루어진다.

즉 골프용품을 팔고 싶다면 골프 잡지 구독자들은 물론, 시가를 피우는 사람들 명단도 빌려라 하는 식으로 이미 알려진 궁합이 있다. 여성이나 가정에 사용하는 물품 등의 판매에는 관련 리스트와 데이터가 많아서 더 복잡한 과정을 거칠 수도 있다.

데이터에도 궁합이 있다

그렇다면 이런 선택과정에서 덧붙여 사용되는 demographic data, 즉 인구적 데이터는 누가 갖고 있는가? 그것은 Data Compiler라고 불리는 사업체들이 수집, 관리 그리고 판매한다. 크게 두 가지로 나눠 소비자 데이터와 사업체 데이터가 시장에 나와 있는데, 필자가 과거에 분석과 상품개발의 총책으로 몸담았었던 Infogroup도 미국 전 인구와 전 사업체를 망라한 데이터베이스를 가진 그런 종류의 회사였다.

Data Compiler, 즉 데이터 수집회사(미국 정부는 이런 회사들과 크레딧 정보를 다루는 Credit Bureau, 그리고 Co-op회사들을 망라해 Data Broker라고도 부른다)들은 아주 많은 종류의 정보를 다양한 출처에서 거래를 통해 수집해 그것들을 표준화하고, 또 빈 곳을 통계적 모델로 메우는 일을 한다.

소비자 데이터라면 이미 언급한 나이, 수입, 자녀여부 등은 물론이고, 직업, 사는 집의 종류, 주택소유여부, 투자성향 외에도 수백 가지의 관심 분야 등을 통합관리하고, 사업체 데이터라면 고용인 수, 매출규모, 사업분류(SIC code/NAICS code등 미국 표준 사업 분류 코드), 송사나 담보에 관한 정보, 심지어는 사업체 장의 인종분류까지도 수집 관리한다.

이러한 회사들은 많지 않지만 그들이 관리하는 데이터베이스는 미국의 전 가구와 전 사업체를 망라하는 대규모이다. 이와 같은 demographic data나 firmographic data(사업체 대상의 데이터는 이렇게 말을 조합해 부른다) 이외에도 개인이나 사업의 신용평가 데이터를 관리하는 회사들이 따로 존재하는데(어떤 회사들은 신용과 인구적 데이터 두 가지를 다 다룬다), 그런 credit bureau들도 미국 전 인구의 신용평가 자료를 업데이트하고 판매한다.

이런 데이터를 판매하는 방법은 여러 가지이지만 대표적인 것은 수집되고 가공된 정보를 이미 존재하는 리스트나 데이터베이스에 덧붙이는 Data Append가 있고, 또 그들도 co-op database회사나 리스트 브로커와 같이 타깃 명단을 1회용으로 빌려주기(list rental)도 한다. 그 공유 방법도 많은 진화를 거쳐 이젠 API를 통한 실시간 공유도 흔하고, 대부분의 데이트 관련 회사들은 통계적 모델을 이용한 프로파일(profiling), 세그먼트(segmentation)나 클러스터(clustering)에도 손을 댄다.

미국에선 소비자·기업체 관련 정보 자유롭게 유통

이 데이터 시장에 대해 더 깊이 들어가자면 한이 없지만 일단 미국에서는 이러한 소비자나 기업체에 관한 정보가 자유롭게 유통되고, 전국적으로 여러 형태로 흩어져있는 데이터를 표준화해 가치를 창출하는 것이 엄청난 사업이라는 것이 요점이다. 하지만 이런 사업 역시 소비자 데이터가 철저히 통제되는 한국에서는 의심의 여지없이 불법이다.

아무튼 이런 과정을 거쳐 우리가 상상하는 사업체가 첫 번째 이메일과 카탈로그 메일링(mailig)에 사용할 리스트를 갖게 됐다고 가정하자. 일단 이런 경우 한 가지 리스트만을 사용하는 것은 바람직하지 않은 것이, 만약 그 선택이 잘못된 것이라면 전혀 반응이 없을 수도 있기 때문이다.

그래서 일반적으로 10~20, 많은 경우는 50개 이상의 리스트를 사용하게 되는데, 여기서 생기는 문제는 스포츠에 관련된 리스트만을 고르다 보면 중복된 이름이 무수할 것이란 점이다. 심하면 렌트한 이름이나 이메일의 50%가까이가 중복일 경우도 많다.

전문성과 분업화가 중요

그런 리스트를 표준화해 정리하고, 접촉을 위한 사용으로 부적합한 데이터는 고치거나 버리며, 중복을 없애는 일을 도맡아 하는 회사들 또한 무수히 많다. 그 중복을 없애는 것도 단순작업이 아니라 각 리스트에 매겨져 있는 가격이나 거래 조건까지도 고려해야 하기 때문에 꽤 복잡한 일이다.

이메일 리스트의 경우에는 그 리스트를 가지고 있는 사업체가 발송까지 도맡아 하기 때문에 과정이 좀 다르다. 메일링인 경우는 발송물을 제작하고 프린트하고 발송까지 대행하는 회사들이 데이터 프로세싱(data processing) 회사들과 또 별개로 존재한다. 한국도 비슷하겠지만 프린트 회사들의 규모 또한 엄청나게 큰 경우가 많다. 하지만 여기서 요점은 이런 일련의 과정들이 전문성을 띠고 철저히 분업화돼있다는 것이다.

그런데 마케팅을 제대로 하려면 그 메시지의 내용도 좋아야 하는데, 그것은 전통적으로 marketing agency, 즉 광고 대행업체의 일이다. 요즘은 그런 에이전시들도 전부 다 데이터 전담부서를 보유하고 있고, 모델링 등 고등적 분석과정도 처리한다.

도저히 데이터의 분석 없이는 소비자에게 최적화된 카피도 제대로 쓸 수 없는 세상이 된 것을 누구보다도 더 잘 알고 있기 때문이다. 더 나아가 많은 대형 광고회사들은 아예 디지털 관련 일을 전담하는 자회사들을 키우거나 인수합병하고, 더 다양한 데이터에 접근하기 위해 위에 언급한 co-op database나 data compiler, 혹은 data processing회사들도 경쟁적으로 흡수하고 있다(실제로 필자가 창업에 참여한 I-Behavior란 회사도 영국계 대형 광고회사에 인수 합병됐다).

데이터 분석 없이 제대로 된 ‘카피’ 없다

그런 광고회사들은 이미 TV, 라디오, 출판 등 전통적인 미디어 관련사업 뿐 아니라 1-to-1 마케팅의 전유물로 여겨졌던 데이터나 디지털 매체에 지대한 관심을 갖고 있다는 것이고, 실제로 그들은 컴퓨터 브라우저를 통한 배너 애드(banner ad)를 지배하는 ad network를 직접 구축하고 관리하면서 그 타깃팅의 정확성을 높이기 위한 데이터의 확보에도 주력하고 있다. 이미 그들은 2006년경에 미국시장에서 배너 애드에 들어가는 마케팅 총액이 출판물 관련 총액보다도 많아졌다는 통계를 세상에 발표했다. 지금은 말할 나위도 없이 디지털 세상이다.

다시 그 스포츠 용품을 직판하는 과정으로 돌아오자면, 광고회사는 카탈로그나 메일의 내용을 맡아 처리하고, 데이터에 기초한 개인별로 최적화된 메시지를 만들어주고, 또 요즘 마케팅에서 빼놓을 수 없는 배너 애드도 관리해줄 수 있다. 물론 온라인 광고만을 전문적으로 대행하는 에이전시도 존재하고, 모든 전자기기를 망라하는 디지털 광고를 전문으로 하는 회사들은 또 그들 나름대로의 생태계를 갖고 있다.

한 가지 아쉬운 점은 그런 디지털 전문 업체들은 이미 언급한 오프라인의 데이터와 많은 면에서 단절이 돼있는데, 그것은 규제 때문이라기보다는(물론 온라인에서의 PII, 즉 Personally Identifiable Information에 관한 규제는 훨씬 더 까다롭지만) 전통적인 데이터 비즈니스와 문화적 차이로 데이터를 통합하려는 의지의 부족 때문이라고 말할 수 있다.

하지만 그것도 다 지난 시절 얘기지, 요즘처럼 모든 마케팅 활동의 결과를 조목조목 따지는 분위기에서 대부분 1%에도 못 미치는 판매율을 극적으로 높이려면 다른 종류의 데이터와의 통합은 필수사항이 돼가고 있고, 디지털 전문 업체들도 점차 모든 데이터의 소스들에 관심을 두고 있다.

디지털 전문회사들의 가장 큰 강점은 실시간으로 마케팅 캠페인의 결과를 트랙킹(tracking)하고 보여준다(display)는 것인데, 모든 마케팅, 특히 1-to-1 marketing의 경우 결과의 분석(Response Analysis, 혹은 모든 채널을 망라하는 더 큰 개념으로 Attribution이라고 부른다)은 필수사항이며, 그와 관련된 소프트웨어 회사들도 엄청나게 많다.

문제는 이런 결과의 분석이 이 모든 공정의 깊은 분업화로 인해 주로 채널 위주로 돌아가고, 또 Multi-channel marketing, 즉 모든 채널을 통한 마케팅이 꼭 필요한 시점에서는 이런 채널 위주의 분석이 ‘도대체 어떤 매체가 가장 효과적이었냐’에 대한 질문에 대답하기에는 턱없이 모자란다는 점이다.

이제는 그 Attribution, 즉 어떤 소비자가 호의적으로 반응해 물품을 구입했을 때 그 소비자에게 노출된 모든 미디어, 즉 TV, 출판 등 mass media, 배너, 이메일, 메일, 카탈로그 중 어느 매체가 가장 효과적이었냐는 것을 판별하는 활동도 더 전략적으로 필수적인 것이 된 추세고, 모든 마케팅을 총괄하는 광고회사들이 그 분야를 선점하려고 노력하는 중이며, 또 많은 디지털 기술이나 데이터 전문회사들을 인수 통합하고 있다.

이런 모든 과정을 거치고 나서야 우리가 상상하고 있는 스포츠 용품 전문 판매회사의 웹 사이트에 고객들이 들어오기 시작하는데, 두말할 나위 없이 그 웹 사이트를 위한 Search Engine Optimization, 즉 검색단어의 최적화와 구매자의 성향에 따라 최적화된 landing page, 즉 안착하는 사이트를 만드는 것도 중요한 데이터 적용과정이며, 그런 일을 도맡아 하는 회사들은 또 따로 있다.

데이터의 힘은 통합에서 나온다

이쯤에서 이 데이터 산업의 먹이사슬이 도대체 얼마나 큰 것이냐는 말이 나올 법도 하다. 하지만 구글이라는 거대회사가 바로 이 search engine marketing의 중심에 자리 잡고 있고, 그들이 모으고 관리하는 데이터는 여태까지 언급한 모든 사업체들과 따로 존재하기 때문에 반드시 짚고 넘어가야 한다.

원래 구글은 지금 누가 어떤 단어를 그 작은 검색 박스 안에 쳐 넣었는가에 중점을 두는 사업 모델로 과거와 미래보다는 ‘현재’의 분석에 주력하는 회사이지만, 그들이 구글 애널리틱스로 보여주는 데이터나 또 그들의 새로운 사업 분야를 보자면 결국 그들도 모든 데이터를 그들의 생태계(ecosystem)안에 두려고 한다는 것을 감지할 수 있다. 다시 말하지만 데이터의 효력은 각 출처의 특성이나 질뿐만 아니라 그것들의 통합에서 나오는 것이고, 구글이 그것을 간과할 리가 없다.

이제 사업체로 고객들이 모이기 시작한 시점이 전통적인 CRM의 시작점이기도 하다. CRM이라는 말 자체가 Customer Relationship Management이고, 분석할 고객이 없다면 다 소용없는 개념이다. 두말할 나위 없이 CRM은 자체적으로 전문 분야이며 데이터 없이는 돌아갈 수 없는 영역이다. 그래서 고객관리용 마케팅 데이터베이스를 만드는 사업도 또 따로 존재하며, 건설업과 마찬가지로 정말 여러 형태와 규모의 회사들이 있다.

고객은 데이터 통해 관리되어져야 한다

한국에서는 과거의 심한 유행 때문에 과도한 투자를 해 CRM은 재미없는 것이라고 여기는 분들도 많다고 들었지만, 실패사례-그 실패에 대한 정의 자체를 의심해봐야겠지만-와 상관없이 고객은 반드시 데이터를 통해 집중 관리돼야 한다. 가장 간단한 이유는 새로운 고객을 위에 언급한 모든 과정을 통해 모으는 것보다 이미 존재하는 고객을 제대로 분석하고 상대해 그들에게 더 많은 상품을 판매하는 것이 훨씬 더 효과적이고 경제적이기 때문이다.

“Not all customers are created equal”, 즉 고객이라고 다 같은 것이 아닌 것이고, 고가치 고객(high value customer)을 찾아 그들을 제대로 대접하는 것은 많은 데이터와 분석을 필요로 하는 일이다. 물론 이 분야 자체도 독립된 전문성을 필요로 하는 것이지만 여기에 대해서는 이미 이 책의 여러 챕터들을 통해 많은 예를 든 바 있다.

CRM은 한국에 많이 알려져 있기에 요점만 간단히 말하자면, 이 분야 또한 많은 종류의 데이터, 미국의 경우 외부 데이터까지도 통합 관리돼야 제대로 효과를 발휘하는 것이지 툴셋만 가지고는 어림도 없다는 말이다.

필자는 과거에 co-op database회사도 창업해 보고 대형 data compiler 회사에서 분석/개발 팀을 이끌어보기도 했지만, 지금 하는 일은 아웃소싱 서비스 회사를 대표해 고객을 만나 그들의 고충을 듣고 비즈니스와 그에 관련된 데이터와 분석에서의 문제점을 찾아 장기적 해결책과 함께 단기적으로 고통을 덜어주는 것이다. 그러다 보면 그 문제가 채널이나 외부적 데이터에 있는 경우도 없지는 않지만, 미국에서는 외주를 받는 회사들이 워낙 전문화가 돼있어서 일 자체가 원천적으로 틀려있는 경우는 드물다.

많은 문제는 내부에 있는 데이터들이 부서별로 흩어져 있어 통합되지 않아 생기고, 통합이 안 되는 이유는 정보의 흐름을 회사 전체의 이익을 염두에 두고 꿰뚫어보는 통찰력의 부재 때문이다. 게다가 외부의 기술이나 데이터의 적용까지 관련된 경우에는 책임의 소재까지 겹쳐져서 일이 더 복잡해진다.

물론 이 책을 통해 여태까지 언급한 데이터의 질과 기술적인 요소들을 무시할 수는 없는 일이지만, 데이터를 잘 다루고, 나름 고객관리를 철저히 하고 있다고 자부하는 미국 유수의 금융회사, 대형 항공사나 유통 회사들이 갖고 있는 고충들은 데이터의 통합과 흐름의 단절에서 비롯되는 것이지, 세부적인 기술적 문제나 노하우의 부족만이 아니라는 것이다.

그리고 그 데이터의 통합과 흐름은 정책결정자들이 풀어줘야 할 문제지 데이터나 툴셋으로 해결될 수 있는 것이 결코 아니다. 하긴 데이터 거버넌스(Data Governance)를 새로운 툴셋을 가져야만 할 수 있다고 주장하는 대형항공사의 IT 총책도 만나본 적이 있지만 말이다.

비싼 악기 구입한다고 세계적인 연주자 될 수 없어

물론 그 툴셋이라는 것도 이 데이터의 생태계에서 꼭 필요한 것이지만 필자는 그 말에 전적으로 반대한다(앞으로 이 부서간의 대화에 관한 주제를 더 자세히 다룰 것이다). 이 책의 서두에서 언급한대로 비싼 악기만 구입하면 하루아침에 세계적 연주가가 되는 것이 아니다. 게다가 밴드에서 합주를 해야 하는 경우라면 혼자만 연주를 뛰어나게 잘해도 아무런 소용이 없는 것과 같은 이치다.

한국의 실정에는 맞지도 않는다고 여겨질 많은 예들을 이렇게 장황하게 설명한 것은 데이터란 통합되고 가공될 때 비로소 가치가 극대화되는 것이며, 거기에는 많은 공정과 분야별 전문가가 존재한다는 것을 강조하기 위한 것이다.

데이터 공유에 대한 규제야 나라의 법을 따라야 하는 것이니 그렇다 치더라도, 한국에서는 모든 데이터의 활동을 내부적으로만 해결하려고 하는 경향이 있다. 그것은 결코 바람직하지도 않고 심하게 말하자면 객기라고 할 수도 있다. 마치 음식을 조리할 때 간장이 필요하다고 모든 가정에 간장공장을 차려놓는 격이다. Economy of scale, 즉 규모의 경제를 생각하자면 몇몇의 간장공장이 매장을 통해 그 상품을 그것이 필요한 사람들에게 판매하는 것이 훨씬 효율적이고, 게다가 전문성을 키우게 돼 제품의 질도 향상되는 법이다.

모든 일을 각자 해결하려고 들면 투자액이 기하급수적으로 높아지게 되고, 그렇게 되면 그 일의 결과가 ‘대박’으로 받아들여지지 않는 이상 죄다 ‘실패’로 여겨지게 된다. 하지만 누차 강조했듯이 데이터를 사용했다고 매출이 갑자기 몇 배로 올라가는 경우란 아주 드물고, 이 모든 것이 꾸준하고 점진적인 발전을 위한 일들이다.

데이터는 가공해야 가치 증가

CRM을 실패라고 부르는 많은 경우를 보더라도 그렇다. 회사 안에서 배울 사람도 없이 몇몇 사람이 머리를 쥐어짜서 그 모든 일을 해결하려고 드니 지난 수십 년 간 노하우를 쌓아온 전문회사들의 수준으로 성과를 보일 수도 없고, 게다가 부서를 옮겨다니는 사람도 많은 기업풍토에서 있던 전문성이 남아있기도 어렵다. 과도한 투자를 하고 일도 제대로 배워가며 하지 않아서 결과가 좋지 않은 것을 갖고 CRM 자체가 틀려먹은 것이라고 하는 게 옳은 것인가?

문제는 이 빅데이터도 아주 비슷한 길을 가고 있는 것처럼 보인다는 점이다. 조직 내 몇몇 사람들이 하둡(Hadoop), 파이썬(Python)이나 R만 깨치면 이 글에서 언급한 데이터 생태계 안의 모든 일이 가능할 것 같은가? 천만의 말씀이다. 데이터나 분석에서 전문가의 도움을 청하는 것은 영화감독이 배우나 카메라 감독을 섭외하는 것만큼 당연한 일이다. 감독이 각본 쓰고 카메라 메고 연기까지 혼자 다 할 것이 아니라면 말이다.

데이터란 가공돼야만 가치가 올라간다는 것은 이미 이 책을 통해 일관되게 언급한 바 있다. 그리고 그 공정을 거치는 동안 변형된 데이터가 계속 탄생하게 된다. 그렇다면 당연히 그러한 부가가치를 창출한 기업이나 사람들에게도 혜택이 돌아가야 한다. 그렇지 않으면 데이터의 흐름이 막히고 데이터베이스들은 작은 연못처럼 고립되게 마련이다.

가치창출에 대한 아무런 소득이 없는데 그 누가 위험을 감수하고 시간과 노력을 들여 데이터를 가공하겠나. 게다가 그런 가공과정을 통해 탄생한 새로운 형태의 정보를 그저 이미 존재하는 데이터를 이용했다는 이유만으로, 혹은 모든 데이터는 그 데이터를 창출해 낸 소비자와 첫 거래자만의 독점물이라는 논리로 가둬두기만 하면 빅데이터고 뭐고 아무런 새로운 가치가 나올 수 없다. 그런 식이라면 어떤 곡을 처음에 작곡한 사람만이 그 곡에 대한 권리를 행사할 수 있고, 후에 그 곡을 편곡, 연주, 노래, 녹음, 제작한 사람들은 아무런 배당도 받아서는 안 된다는 주장과 다를 바가 없다.

다른 비유를 들자면 벼농사를 지은 사람이 쌀을 판매한 대금을 넘어서 막걸리에서 나오는 수익의 지속적 배당을 청구하는 격이며, 더 나아가 아예 막걸리 장사를 아무도 못하게 막는 것과 비슷한 것이다. 가공되지 않은 데이터(raw data)와 가공된 데이터의 사이에는 맨 쌀과 막걸리만큼의 차이가 있다는 말이다.

정보의 흐름을 보는 방향도 그래서 수정이 가해져야 한다. 한국에서는 정보의 교환이 유상이건 무상이건 아예 원천적으로 금지돼있으니 법의 개정이 없는 이상 별 논의할 바가 없다. 다만 기업 내에서의 정보교류도 IT와 타 부서간에서 서로의 임무나 목적에 대한 몰이해로 인해 정보의 흐름이 끊기는 것은 안타까운 일이고, 그건 불행히도 미국뿐 아니라 전 세계에서 아주 흔한 일이다.

그래서 중역들이 데이터에 대한 이해를 높여 정보의 소통을 직접 중재해야 한다. 이건 옳고 그른 일에 대한 문제가 아니라 입장의 차이에서 나오는 것이고, 기술만으로 해결할 수도 없는 일이다. 때로는 외부 컨설턴트가 중립적 입장에서 그 데이터의 교통정리를 하는 것도 바람직하다.

뭐든 미국을 무조건 벤치마킹 하는 것은 바람직하지 않지만, 오랜 세월 동안 데이터의 유통을 자율화한 나라의 실정을 보면 외부 데이터나 타 기업과의 데이터 교류는 물꼬를 터주는 것이 국가적으로 경제적 이익을 가져온다는 것이 입증된 바 있다.

위험하다고 금지?, 데이터 교류에 대한 규제 풀어야

실제로 미국의 데이터 관련 산업은 돈으로 환산이 불가능할 정도의 크기이며, 위에 열거한 마케팅 이외의 적용사례까지 따져보면 정치, 경제, 생산, 과학 등을 망라해 데이터 산업의 영역에 테두리를 치는 것이 무의미할 정도다.

한국에서 데이터의 교류 활동이 원천적으로 불법인 것은 산업초기에 범죄적 요소를 예방하지 못해서인데, 21세기에 들어와서 빅데이터나 창조경제를 논하면서 아직도 규제일변도로 나가는 것은 바람직하지 못하다. 불법적인 데이터의 유통이나 개인정보를 뒷조사를 목적으로 파헤치는 것은 물론 금지돼야 한다. 미국에서도 신용데이터나 의료기록에 관한 정보는 소비자의 동의 없이는 해당 보험회사로도 갈 수가 없다. 그런 것은 당연한 규제돼야 한다.

하지만 ‘웬만하며 가만 둔다’와 ‘웬만하면 금지하고 규제한다’라는 태도의 차이는 결과적으로 엄청난 경제적 차이를 만든다. 이 글에서 예를 든 데이터 생태계의 일부만을 봐도 얼마나 많은 일자리가 창출될지 보일 것이며, 미국에서는 일개 데이터 전문 광고회사의 1년 매출액이 10억 달러를 넘어가는 것도 흔한 경우다. 중소 전문업체까지 다 합치면 그 규모는 여느 산업에 못지않다. 그리고 유념할 점은 그런 경제적 효과가 있는 반면에 데이터가 가공되고 유통됐다고 사회의 혼란이 초래되지 않았다는 것이다.

제13장: ‘할 수 있는 일이라고 다 해서는 안 된다’라는 글에서 데이터를 다루는 사람들이 반드시 유념해야 할 점들을 강조한 바 있듯이 정보를 다루는 사람들이 조심할 일들은 사실 굉장히 많다. 하지만 그건 화학물질을 다루는 사람들에게도 똑같이 적용되는 룰이다. 위험할 수 있다고 모든 화학물질의 처리를 금지시켜야 하는 것은 아니지 않나.

만들면 팔리는 시대는 지났다

이 세상은 더 이상 제품을 만들면 팔리는 시대가 아니고, 제품의 가치란 것도 원가 플러스 마진의 공식을 벗어난 지 오래다. 제조원가만 따지자면 애플 아이폰의 값은 현 가격의 반 이하로 떨어져야 한다. 하지만 현대의 소비자들은 그 어떤 눈에 보이지 않는 가치를 원하는 것이고, 그 가치에 상당하는 금액을 지불할 의사가 있는 시대인 것이다. 그런 추세와 더불어 User Experience, 즉 소비자 경험은 소프트웨어와 하드웨어, 심지어는 그를 뒷받침하는 데이터를 넘나드는 개념이 된 것이다.

과거에 삼성의 스마트 폰이 비교적 빨리 방전될 수 있는 것은 구글의 소프트웨어 탓이라는 말이 있었는데, 소비자가 그걸 이해해줄 것 같은가? 천만의 말씀이다. 그들은 그 물건이 그냥 제대로 작동되기를 바라는 것이지, 일부 마니아를 제외하고는 소프트웨어니 하드웨어니 따질 생각도 아예 없다.

천하의 애플도 아이폰에 딸려 나온 맵 애플리케이션이 제대로 작동하지 않아 회장이 직접 나서서 사과한 일이 있었다. 그리고 그것은 단지 하드웨어나 소프트웨어의 문제가 아니라 그 뒤에 있는 완전하지 않은 데이터 때문에 벌어진 일이었다. 즉 현대의 상품 개념은 이 모든 요소의 훌륭한 조합이지 최고급 부품들의 단순조립의 결과가 아닌 것이다.

데이터 관련 상품도 그런 시각으로 접근하고 개발해야 한다. 그리고 주의만 하면 프라이버시의 문제를 일으키지 않으면서도 소비자와 기업이 동시에 이득을 볼 수 있는 상품을 얼마든지 만들 수 있다.

최고급 부품의 단순 조립이 아닌, 요소의 훌륭한 조합

예를 들면 필자가 과거에 개발한 데이터 상품 중 미국 전역을 108개의 클러스터(cluster)로 나눠 그것들을 소비자 데이터와 사업체 데이터, 미 정부에서 제공하는 센서스 데이터(Census Data)를 전부 통합 적용 분석해 어떤 지역에 가보지 않고도 생생히 그려볼 수 있게 해주는 것이 있다. 지역을 기초로 한 것이니 소비자 개인정보를 개인별로 건드릴 필요도 없었고, 오히려 그 과정을 통해 개인정보를 일부러 뭉뚱그려 다른 종류의 데이터, 즉 사업체 별 데이터와도 중간에서 합쳐지게 만드는 기술을 개발하는 기회가 된 것이다.

그리고 그런 상품은 사업체가 매장을 열 장소를 선별할 때 많은 시간을 절약하게 해주며, 정부기관에서도 여러 종류의 추세를 지역별로 볼 수 있게 한다. 투자 기관들이 기존의 정보와 다른 각도로 투자대상 기업의 활동을 볼 수 있게 하며, 내비게이션(navigation) 기기나 온라인 지도와 연결해 일반 소비자도 어떤 동네나 지역의 성향을 쉽게 파악할 수 있게 도와줄 수도 있는 것이다.

경제 민주화는 곧 정보 민주화

정보관리란 프라이버시를 내세워 유통을 차단하는 것만이 능사가 아니다. 데이터를 창출한 근원은 사람이나 특정 기업일 수 있으나, 마치 맨 쌀이 떡도 되고 국수도 되고 막걸리도 되듯이 유통과 가공을 거치면서 본래의 모습과는 멀어진, 하지만 새로운 가치를 지닌 다른 종류의 정보로 재창출되는 것이다.

더욱이 필자는 경제민주화란 곧 정보의 민주화라고 생각한다. 이미 큰 기업들은 매장의 위치를 선정하면서 많은 데이터를 분석 검토하고 있다. 그런데 퇴직금을 털어 넣어 치킨집을 열려는 50대 가장은 양질의 데이터에 접근하기조차 어렵다. 데이터가 넘쳐나는 시대라면서 일반인만이 돈을 주고도 정보를 구할 수 없다는 것은 말이 안 된다.

만약에 미리 가공돼서 초보자라도 쉽게 알아볼 수 있는 정보가 판매될 수 있다면? 일반인도 수억 원짜리 분석 툴셋이나 통계적 지식 없이도 데이터에 기초해 매장의 장소를 정하고 타깃을 할 대상 가구 등을 선별적으로 접촉할 수 있을 것이다. 그것이 기회 균등의 출발점이다.

필자가 과거에 중소기업 전용 데이터 상품을 개발하면서 느낀 점은 그들도 대기업들이 사업하면서 겪는 고충을 다 겪고 있는데, 다만 그들에겐 마케팅이나 의사결정에 할애할 수 있는 예산이 상대적으로 적을 수밖에 없다는 것이다.

세상에 자신의 문제나 고충이 별 일이 아니라고 생각하는 사람은 없다. 그런데 현실세계에서는 데이터와 분석에 관한한 아주 비싼 해결책만 돌아다니고 있으니, 자동차 시장에 비교하자면 롤스 로이스(Rolls Royce)를 탈 능력이 없다면 아예 차를 사지 말라고 하는 것과 같다. 그런 불합리를 해결하려면 일단 데이터 유통의 물꼬부터 터줘야 한다.

한국에서는 일단 정부가 가지고 있는 정보부터 일반에 공개하려고 한다고 들었는데, 그것은 아주 바람직한 일이라고 본다. 다만 그런 정보공개를 오랫동안 해 온 다른 나라를 벤치마킹해 시행착오도 줄이고, 일반인도 데이터를 쉽게 사용할 수 있도록 하되, 동시에 개인정보도 보호하는 방법을 마련해야 한다.

실제로 미국 통계국(Census Bureau)에서는 일반에게 데이터를 공개한 지 오래고, 프로급으로 데이터를 다루는 사람이 아니어도 웹 사이트를 통해 간단한 지역 정보(개인정보는 제외) 등은 쉽게 열람할 수 있게 해놓았다. 반면 전문가용으로 무려 4~5만개에 이르는 지역별 변수들을 제공하기도 하며, 그것을 또 특정 목적에 부합하게 변형 가공해 간단하게 만들어 판매하는 사업들도 존재한다.

그래서 미국정부는 이미 그 데이터 생태계의 일부인 것이며, 동시에 선거에 나서는 모든 미국 정치인들은 빅데이터의 수혜자들이다. 오바마가 빅데이터 덕분에 두 번의 선거를 이겼다는 것이 헛말이 결코 아닌 것이고, 앞으로 선거 때마다 각 진영의 데이터 전략이 훨씬 더 정밀하고 치열해질 것이다.

은행강도 때문에 은행문을 닫아서야!

지난 챕터에서 예를 들었듯이 은행 강도가 존재한다고 은행 문을 닫으라는 것은 말이 안 된다. 정보를 다루는 사람들이라면 당연히 그 정보가 나쁜 의도로 쓰이지 않도록 감시를 소홀히 하면 안 되는 법이다. 그것을 제대로 하지 않아 생기는 결과에 대해서는 이미 많은 경험과 이해가 있으리라 믿는다.

하지만 거기서 몇 걸음 더 나아가야 데이터로 인한 가치의 창출이 극대화된다. 통로를 다 막아놓고 어디서부터 가치를 창출할 지 아무리 머리를 쥐어짜봐야 눈앞에 있는 데이터만으로 자사의 고객관리를 하는 것 이외에는 별 시작점이 보이지 않을 것이다(게다가 그 CRM도 오직 자력으로만은 제대로 하기가 쉬운 것이 아니다).

이 모든 것이 하루아침에 해결될 일이 아니지만, 일단 규제 일변도의 구조를 ‘웬만하면 가만둔다’로 전환하고, 한국 실정에 맞춰가며 천천히, 하지만 분명하게 정보 공유와 교환을 허용하는 것이 좋은 출발점이 될 것이라 믿는다. 그 시작이 어렵다면 음성화돼있는 정보교환의 장을 온라인상에 만들어 그것부터 양성화 하는 것도 한 방법이다.

시장경제란 일단 거래를 할 수 있게 두면 사람들이 알아서 시작하는 법이다. 그리고 그것이 이전에는 존재하지도 않았던 한 커다란 산업을 만드는 길이며, 또 정보의 독점에서 속히 벗어나는 길이기도 하다. 어쩌면 그것이 창조경제와 경제민주화라는 두 마리의 토끼를 한꺼번에 잡을 수 있는 독특한 한 방법이 아닌가 한다.

상단영역

본문영역

[특별연재(14)] 데이터를 잘 써먹을 수 있는 구체적인 방법들

정보의 흐름이 가치를 창출한다 (유혁 Willow Data Strategy 대표)

관련기사

기사 댓글 0

비회원 로그인