데이터의 종류와 프라이버시 (유혁Willow Data Strategy 대표)

▲ 유혁Willow Data Strategy 대표

[컴퓨터월드] 유혁 대표(미국명 Stephen H. Yu)는 25년 이상 데이터베이스 마케팅 분야에서 명성을 얻고 있는 세계적인 데이터 전략, 빅 데이터 애널리틱스 전문가이다. I-Behavior의 공동창업자/CTO, Infogroup 부사장 등을 역임하면서 정보수집, 데이터베이스 설계, 통계학적 모델을 활용한 타깃마케팅 등 마케팅과 IT간의 가교에 큰 기여를 해왔다.
유혁 대표의 오랜 전문가로서의 경험을 바탕으로 국내 사용자들과 독자들에게 보다 데이터를 효과적으로 잘 사용하면서 시행착오를 줄일 수 있는 방법을 특별연재를 통해 소개하고자 한다. 금융, 통신, 미디어, 유통, NGO 등 다양한 글로벌 고객들과의 현장 경험에서 우러나온 애정 어린 충고와 쓴 소리에 독자들의 많은 관심을 부탁드린다. 편집자 주


정보시대에 살면서 한국이나 미국이나 할 것 없이 정보유출은 큰 관심사일 수밖에 없고, 그런 일이 실제로 터지면 정도의 차이는 있지만 언론에서 난리가 난다.

미국에서도 몇 년 전에 유명 리테일 체인점인 Target과 고급 백화점 Neiman Marcus가 해킹을 당해, 신용카드 정보 등 소위 말하는 ‘Sensitive Data’가 도난당하여 한국에서와 같은 정도는 아니지만 큰 뉴스거리가 됐었다. 필자는 Target에 몇 년에 한번 들를까 말까 한 정도였는데, 하필이면 해킹 사건이 있던 바로 그 주에 운동기구를 사러 들어갔다가 피해를 입었다. 일단 일이 터지니 카드회사에서 바로 카드번호를 취소하고 단 며칠 만에 새 카드를 보내준 것 까지는 좋았는데, 각종 인터넷 쇼핑몰, 자동으로 해놓은 공과금 지불 설정 등을 업데이트하는데 꼬박 반나절은 소비한 것 같다.

일단 미국에선 금전적 피해의 규모가 크지는 않은 것 같고 회사들도 이런 일에 이골이 나서인지 그에 대한 대처가 빠른 편이라고 생각되었다. 그건 일차적으로 사건의 원인이 된 Retail Store들로 그렇고 카드 회사들도 그랬다. 필자도 욕을 해가면서 귀찮은 일을 수시간 한 것 말고는 큰 피해가 없었고, 실제로 카드 번호를 수만 개씩 도둑질하는 간 큰 해커들도 웬만해서는 큰 액수를 훔쳐가지 않는다고 들었다. 카드 하나에 10불씩만 빼가도 카드 번호를 십만 개 훔쳤으면 그게 벌써 백만 불이니 웬만한 사람들은 신경 쓰지 않고 넘어갈 정도의 액수를 도둑질 해가는 것이다. 이래서 카드 사용 내역을 소액까지 꼼꼼히 살펴보는 것이 참으로 중요하다. 이에 더해 필자는 Identity Theft(개인정보 도난)에 관한 보험료까지 카드사에 꼬박꼬박 내고 있는 실정이다.

데이터 산업에 종사하며, 또 양국의 뉴스를 다 검색하고 있는 사람의 입장에서 이런 사건에 대한 언론과 시민들의 반응을 비교해 보는 것은 흥미로울 수도 있는 일이다. 일단 한국에서는 카드 회사 자체에서 정보가 유출된 경우라 사실 문제가 더 크기도 하지만, 아무튼 책임자들에 대한 문책이 여기서 보기엔 무서울 정도이다. 그게 왜 그런가 들여다보면 미국에선 많은 회사들이 할 일을 다 했는데도 도둑을 맞았으니 대처만 잘하고 빨리 일을 처리하면 큰 욕은 안 먹는 분위기인 반면, 한국에선 들여다보면 볼수록 도둑질만 나쁜 것이 아니라 도둑맞은 회사의 실책도 크기 때문인 것 같다.

그런 와중에 어느 카드 회사 사장이 눈치도 없이 “우리도 피해자”라고 했다가 언론에서 뭇매를 맞았는데, 사실 그의 말에도 일리가 없는 것은 아니지만 은행이 금고 문을 열어놓고 있다가 도둑을 맞으면 과연 그게 도둑만의 책임이냐는 말이 안 나올 수가 없는 것이다. 하지만 한 은행이 관리를 소홀히 해서 도둑을 맞았다고 금융시장 자체를 들었다 놔야 하는가? 데이터에 관한 한 사람들과 언론의 대응은 그런 식으로 보인다.

데이터 소유권 바라보는 시각, 한국-미국 달라
데이터를 많이 다루다 보면 그 데이터의 소유권에 대해서 생각을 하지 않을 수가 없다. 일단 한국에선 많은 사람들이 데이터의 소유권은 종류에 상관없이 다 그 데이터의 대상에게 있다고 여기는 것 같다. 반면 미국에선 데이터를 모은 사람의 노동의 대가도 인정해 주며, 축적한 데이터를 이용해서 이전에 없던 파생 상품을 만들어내면 거기에 대한 지적 소유권까지도 가질 수 있다.

실제로 미국에선 정보를 사고파는 사업의 규모가 엄청나며, 사업체들이 모아놓은 정보를 타회사들과 공유하고 (카드나 의료정보는 제외), 심지어는 데이터에 대한 매매 수익을 얻으며, 그런 거래를 알선하는 중개상(List Broker)까지 존재한다. 미국에선 데이터의 소유권과 프라이버시에 관한 문제를 별개로 보고 있다는 말이다. 사실 데이터 교환과 매매에 관한 한 이 정도로 개방적인 나라는 전세계에 미국 밖에 없다는 말도 있다. 유럽에서는 영국이 좀 개방적이며, 다른 EU국가들은 개인정보의 매매에 엄격한 편이다. 하지만 한국처럼 모든 데이터의 이동을 원천적으로 봉쇄해놓은 나라도 또한 보기 드물다.

종류에 상관없는 모든 데이터의 근본적인 통제가 꼭 소비자에게 유리한가 하는 문제는 논란이 될 만한 소재이다. 이번에 도둑맞은 카드 정보도 그걸 이용해 장사를 하겠다는 사람들 손에 넘어갔다는 말이 있다. 재미있는 것은 만약에 그런 장사에 이용하는 정보에서 Sensitive Data가 빠져있고 고객의 이름과 마케팅에 필요한 기본 정보만 있었더라면 그건 미국에선 완전히 합법적인 사업이란 점이다. 산업 자체가 합법적이면 정보를 남용하지 못하게 하는 것도 가능하며 역설적으로 완전히 다 막아 놓는 것 보다 소비자에게 유리하다는 결론이 나올 수도 있다.

미국, Sensitive Data만 없으면 큰 문제 안 삼아
실제로 미국에서는 이런 정보유출에 관한 뉴스를 다루면서 합법적인 데이터베이스 마케팅이나 빅 데이터까지 건드리지는 않는다. 가끔 어느 선까지 허용할 것인가, 누가 정보를 남용하는가에 대한 논란은 있지만 전면적 금지는 미국의 정치인들도 선거철마다 말로만 하지 실행에 옮길 수는 없는 것이다. 그것은 정치인들 자신이 DM을 통해 후원금을 모금하지 않으면 당장 정치자금을 조달하기도 어렵게 되기 때문이며, 그래서 규제를 해도 자신들의 데이터 이용은 예외로 한다. 예를 들자면 몇 년 전에 가정집으로 전화 판매하는 것을 전면 금지하면서 정치적이나 비영리를 목적으로 한 경우는 예외로 둔 것도 바로 그런 이유이다. 실제로 빅 데이터의 가장 큰 수혜자는 바로 전형적인 CRM 방식을 여러 채널로 이용해 두 번의 선거를 성공적으로 치른 오바마 대통령이란 말도 있다.

전면적 통제가 아니라면 과연 어떤 데이터들이 미국에서 끊임없이 축적되고 가공되고 거래가 되어서 실제로 마케팅이나 정치 캠페인에 이용되고 있는 것인가? 뭐든 미국식대로 하는 게 능사가 아닌 것은 분명하지만 오랫동안 시행착오를 많이 겪어온 나라의 사례를 살펴보는 것도 빅 데이터 시대에 반드시 필요한 일이라고 여겨진다. 우선 데이터라고 다 같은 것이 아니고, 남용하지 않으면 유익한 점도 무궁무진하게 많기 때문이다. 몸에 좋은 약도 남용하면 분명히 해독이 있지만, 남용되는 것이 두려워 판매 금지를 하는 대신, 전문가인 의사나 약사에게 처방을 통해 다루도록 하는 것과 비슷하다고 생각할 수 있다.

 
남용만 않으면 빅데이터 시대에 개인데이터 활용은 필수
여기서 여러 데이터의 종류들을 살펴보자면:

-PII (Personally Identifiable Information)
즉 개인정보를 가리키는 말이다. 여기에는 이름, 주소, 이메일, Social Security Number (SSN. 한국의 경우 주민등록번호)와 개인의 식별을 가능하게 하는 각종 ID Number가 포함된다. 대체로 마케팅의 경우 이름과 주소는 DM을 보낸다던가 근본이 다른 데이터를 합치는 match-key로 사용되고 있고 꼭 개인 허가를 받지 않아도 이런 활동이 가능하다. 하지만 이메일 주소의 경우 수신자의 허가 (opt-in이라고 함)를 받아야 한다. 주소와 이메일의 차이는 흔히 메일 박스는 집 바깥이라고 보는 경우가 많아서 그렇다고 하지만 사실은 통념의 차이이다.

반면, 같은 PII계통이라도 신용카드나 SSN등은 마케팅에 별 소용이 없을뿐더러 위험부담만 커지기 때문에 아예 마케팅용 데이터베이스나 파일에 넣지도 않는다. 한국에서 수년 전에 일어났던 정보유출 사건은 이런 정보를 주소 이름과 함께 저장했다가 사단이 난 경우이며, 의심의 여지없이 취급 부주의라고 볼 수 밖에 없다. 그리고, 한국에서는 인터넷 신문에 댓글만 달려고 해도 관행이라며 아무데서나 주민등록번호를 요구하는데, 이거야말로 화를 자초하는 행위이다. 미국에서는 마케팅용 파일에 카드번호가 실수로 딸려 오는 경우에는 파일 자체를 파기하고 그렇게 했다는 내용증명까지 해서 되돌려 보낸다. 이것이 다 정보 유출이 있을 경우 책임을 분명하게 하기 위한 일이다.

-Sensitive Data
여기에는 PII에 속하기도 하는 신용카드번호, SSN, 한국의 경우 주민등록번호, 면허증번호, 여권번호, 은행구좌번호, 의료보험 내역, 진료기록 등, 가지고 있기만 하면 쉽게 남의 Identity(신분)를 도용할 수 있는 모든 데이터와 개인 프라이버시에 관한 정보가 포함된다. 마케팅이 목적이라면 이런 데이터는 가지고 있지 않을수록 유리하다. 이런 정보는 아무리 데이터의 사용이 자유로운 나라라도 일단 유출되면 범죄에 악용되고 개인의 프라이버시를 침해하기 때문에 철저하게 관리된다. 진료내역은 환자의 허락이 없으면 의사가 보험회사로도 못 보낸다. 이름과 주소는 마케팅에 늘 사용되지만 이런 Sensitive Data와 합쳐지면 위험하게 된다. 고로 분리하여 관리하는 것이 상책이다.

마케팅에 사용되는 데이터의 종류
여기서 더 나아가 미국에서 마케팅에 사용되는 데이터에는 어떤 것이 있나 가려보자면, 크게 Descriptive Data(묘사적인 데이터), Behavioral Data(행동에 관한 데이터), Attitudinal Data(태도에 관한 데이터)로 나누어 볼 수 있겠다. 데이터베이스 마케팅이란 그 대상의 성향을 데이터 분석을 통해 잘 파악하고, 그 대상과 커뮤니케이션을 해야 할지 말아야 할지, 또 일단 상대를 하기로 정했으면 어떠한 상품을 어떠한 채널을 통해 최적화된 패키지로 권하여야 하는지를 정해주는 활동이다. 이런 경우 물론 데이터야 많을수록 좋은 것이지만, 이 커다란 세 종류의 데이터 군 중 두 가지만 제대로 다뤄도 고객의 성향을 성공적으로 파악할 수 있다. 또한, 데이터를 마케팅에 사용하면서 한 가지 종류에만 치중하는 것도 바람직하지 않다. 데이터는 다른 종류와 합쳐질수록 예측능력이 증가되기 때문이다.

-Descriptive Data
이런 데이터는 그 대상의 모습을 묘사하는 것들이다. Demographic Data는 개인이나 가구의 수입, 집의 규모와 가격, 가족사항 (나이, 성별, 결혼 및 자녀 여부), 교육수준, 직업 등이 포함되며, Business를 대상으로 할 때에는 조합된 단어인 Firmographic Data라고 부르며 거기에는 산업별 구분, 종업원 숫자, 연 매출액, 사업개시연도, 상장여부 등이 포함된다. 흔히 Data Compiler라고 불리는 회사들이 일일이 Entry를 만들어 전국적 데이터를 관리하고 판매하며, Missing Data가 발생할 경우 통계를 이용한 모델로 추측하여 채워 넣는다. 어찌 보면 노동집약적인 산업이지만 일단 데이터가 크게 모이면 그 수익률은 엄청나게 된다. 한국의 기준으로 보면 개인정보라고 할 수도 있지만 일단 이런 데이터베이스는 개인 하나 하나의 정보를 캐보는데 쓰는 것이 아니기 때문에 이런 산업이 가능한 것이다.

또 다른 Descriptive Data의 예는 미국 통계국(U.S. Census Bureau)에서 제공하는 Census Data인데, 개인이나 가구별로는 공개하지 않고 그 Census 자체도 많은 부분이 샘플링에 의존한 것이기 때문에 거주 지역별로 나누어져 있다. 아무나 다운 받아 사용할 수 있지만 가공되지 않은 데이터는 4만개가 넘는 변수(Variable)가 있어서 사용 목적에 적합하게 전문가의 손을 거쳐 추려져야 한다. 일반적으로 마케팅에는 300~400개 정도의 변수가 흔히 사용되며, 거기에는 지역별로 성별, 나이, 인종, 사용언어, 직업, 교육수준, 부동산 시세, 건물 크기 등이 퍼센트나 평균값으로 표현되어 있다. 개인이나 가구별 데이터는 아니지만 Missing Data가 발생하지 않기 때문에 아주 유용하다. 다른 종류의 정부 데이터는 부동산 거래 기록, 담보에 관한 데이터 등이 공공데이터(Public Data)라고 여겨져서 공개되어 있고, 감옥이나 군대 기지 등에 관한 데이터도 마케팅에 사용된다. 이런 데이터들이 정부에 의해 공개되는 것은 세금을 사용해서 축적된 데이터이니 일반에게 공개를 해야 한다는 인식이 있어서이다.

-Behavioral Data
사람들의 구매 기록에서 파생되는 경우가 많기 때문에 Transaction Data라고 불리기도 하는데 일반적으로 대상이 어떠한 행동을 했느냐에 대한 데이터이다. 미래 예측에 사용하기에는 가장 강력하지만 Descriptive Data에 비해 모으기도 어렵고 빈 곳이 많이 생긴다는 단점이 있다(그래서 많은 분석과정에서 다른 종류의 데이터를 함께 사용하는 것이기도 하다). 이러한 데이터에는 구매기록, 즉 언제, 어디서, 어떤 물건을 어떤 가격을 주고 샀느냐에 관한 것이 주를 이루고, 때로는 설문에 의존하기도 한다. 예를 들자면 어떤 사람이 골프를 좋아하는지를 구매기록을 보고 알 수도 있고, 설문에 대한 대답을 보고 알 수도 있으며, 그게 여의치 않으면 Descriptive Data를 보고 통계적 추측도 할 수 있는 것이다. 아무래도 구매기록이 있으면 그것보다 확실한 것은 없다고 할 수 있는데, 그런 데이터에 접근이 가능하면 앞으로의 구매가 언제가 될지, 가격은 어느 정도로 알아볼 것인지까지 구체적인 예측이 가능하게 된다.

그간 가장 널리 써온 것은 축적이 비교적 수월한 인터넷이나 카탈로그를 통한 구매기록이었는데, 기술의 발달로 매장에서의 판매 기록도 점점 치밀해지고 있다. 실제로 어떤 슈퍼마켓 체인은 구매기록을 바탕으로 쿠폰 북을 만들 때 100% 맞춤형을 실현하고 있다. 즉 그 어떠한 쿠폰 북도 아주 같지가 않고 대상에 따라 모두 다르다는 말이다. 이것이야말로 빅 데이터의 개념을 제대로 실현하고 있는 좋은 예라고 하겠다.

더 나아가 요즘에는 인터넷에서 발생하는 클릭이나 Page View, 혹은 모빌 기기에서 발생하는 데이터도 엄청나게 모이고 있는데, 그런 것들도 사람들의 행동에 기초한 것이므로 Behavioral Data로 분류된다. 다만 사람들이 클릭을 하거나 설문에 대답하는 행동은 구매기록과 반드시 따로 관리되어야 한다. 그것은 실제로 구매까지 간 행동이 미래를 예측하는데 훨씬 강력한 변수가 되기 때문이다.

-Attitudinal Data
이것은 사람들의 성향이나 태도에 관한 데이터이다. 가장 구하기 어려운 데이터이기도 하나 빅 데이터 시대가 도래하면서 사람들이 Facebook, Twitter나 각종 SNS를 통해 쏟아내는 정보를 분석해 그야말로 과거에는 상상도 할 수 없던 예측이 가능해 지고 있다. 예전에는 Focus Group이나 설문 조사 등 Primary Research 등을 통해서만 엿볼 수 있던 것을 이제는 거의 실시간으로 사람들의 동향을 파악할 수 있게 되었으며, Sentiment, 즉 호감/비호감에 관한 예측까지도 상품별로 가능하게 되었다.

다만 이러한 데이터는 아무리 방대한 양이 분석되었다 하더라도 대상 그 개개인이 누구인지까지 알아내기가 어렵고, 또 안다 하여도 프라이버시나 데이터 소유권의 문제로 직접 상대할 수 있는 단계까지 가기는 어려우며, 나오는 대답 또한 앞에서의 미시적인 예와는 달리 거시적인 경우가 많아서 처음 두 종류의 데이터와는 별개로 다루어지는 경우가 대부분이며 전문가들 또한 다르다. 하지만 빅 데이터의 굉장히 중요한 부분인 것은 확실하다. 여태까지의 미시적 분석이 대부분 “누가, 무엇을, 언제”라는 식의 대답을 제공해왔던 것이라면, 거시적인 성향적 분석은 “왜”라는 보다 근본적인 답을 줄 수 있으며 상품의 판매뿐 아닌 신상품 개발에 대한 결정까지 도와줄 수 있기 때문이다.

미래적 예측을 포함한 여러 가지 분석(Analytics) 일을 하다 보면 이보다 더 많은 다양한 종류의 데이터를 대하게 된다. 마케팅 이외의 용도까지 따지자면 한이 없겠지만, 일단 사람을 대상으로 하는 데이터는 대부분 이 기본 틀 안에 있다고 봐도 무방하겠다.

정보가 공포의 대상이어서는 곤란, 유용한 도구로 여겨야
간략하게 정리를 했지만, 결론은 데이터라고 다 같은 것이 아니며, 사용하기에 따라 개인정보, 즉 PII와 Sensitive Data는 보호하면서도 얼마든지 고객에게 유익한 마케팅 활동이 가능하며, 실제로 그런 것이 일상화 되어있는 나라들도 많다는 것이다.

간단한 예를 들자면 아침마다 같은 커피숍에 들리는데 그 주인과 친하게 되어서 그가 늘 나의 성향대로 커피를 만들어 준다면 그건 서로에게 도움이 되는 일이다. 데이터베이스 마케팅은 그러한 맞춤형 서비스를 수백만 명을 대상으로 한다는 것이 다를 뿐이다. 그런데 만약에 그 커피숍 주인이 커피를 제공하는 데에 전혀 필요하지 않은 개인정보까지 캐묻기 시작한다면 얘기가 확 달라진다. 그런 경우 대부분의 사람들은 그런 정보를 제공하기를 거부하고 당장 거래처를 옮길 것이다. 그러한 적정선은 모두들 묵시적으로 알고 있는 것이며, 데이터를 다루는 사람들이 항상 기억해야만 할 일이다.

데이터를 남용하는 것이 고객을 화나게 하는 첫째 이유이며, Sensitive Data를 자신의 정보를 대하듯 철저히 관리하는 것은 너무나 당연한 일이다. 사실 그런 데이터는 마케팅에 써서는 안 되는 것이다. 그것은 데이터베이스 마케팅이 수십 년간 자리를 잡아온 곳에서도 마찬가지다.

우리는 데이터 수집의 대상이자 사용자
정보유출 등의 사건이 터질 때마다 데이터를 다루는 모든 사람들이 같이 뭇매를 맞는 경우가 많은데, 그건 마치 어느 한 은행이 관리를 잘못해 돈이 털렸다고 금융시장 자체를 싸잡아 비난하는 것과 비슷하다고 하겠다. 그리고 감히 말하자면 정보의 유통을 원천적으로 막아 놓는다고 모든 것이 해결되는 것이 아니라 데이터의 종류를 제대로 인식하고, 그 종류에 따라 따로 관리하면서 규제도 다르게 하는 것이 해법이라고 생각한다. 일단 합법적인 데이터 교류의 통로가 열리면 더 양질의 데이터가 전문적 분석을 통해 좋은 목적으로 사용 될 것이며, 나쁜 의도를 가진 사람이 데이터의 암시장을 통해 유통을 독점하는 범죄적 요소도 줄어들 것이다.

현대사회에서 데이터란 곧 파워이며, 그래서 정보의 민주화란 곧 경제의 민주화에 직결된다고 생각한다. 개인정보와 특히 Sensitive Data를 제외한 데이터의 자유로운 공유는 일반인도 데이터를 들여다보고 가게 터를 잡을 수 있게 되는 환경을 만들 것이다. 우리는 모두 데이터 수집의 대상이기도 하지만 뒤집어 보면 기술의 발달로 인해 우리 모두가 다 정보의 사용자도 될 수 있는 것이다. 빅 데이터 시대라면 데이터를 잘 알고 다룰 도구로 여겨야지 그것이 단지 공포의 대상으로 남겨서는 바람직하지 않다. 기차가 처음 등장했을 때 그것을 철마라고 부르며 두려워하고, 사진기를 처음 본 사람들이 사진에 찍히면 혼이 빠진다고 여겼던 시절이 있었으나 그것도 다 지나갔듯이, 데이터도 친해지다 보면 많은 사람들에게 유용한 도구로 다가올 것이다. 그 유통 자체를 막아버려서 그것을 음성적으로 남용하는 사람들이 주를 이루게 되지 않으면 말이다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지