고객 데이터 마이닝을 숨 쉬게 하라



▲ 전용준 xyxonxyxon@empal.com 리비젼컨설팅 대표 / 경영학박사


데이터 마이닝을 연기를 피우면 비둘기가 상자에서 나오는 마술 쇼와 같이 여겼던 사람들이 많았던 것 같다. 데이터 마이닝이라는 것을 하면 데이터가 자동적으로 중요한 지식으로 변하도록 할 수 있다는 생각이었는지도 모른다. 어쩌면 데이터 마이닝에 관한 이러한 막연한 기대는 연금술이 그 오랜 동안 금이나 신비한 물질을 만들어 내려고 엉뚱한 노력을 해왔던 것과도 비교될 수 있을 듯하다.

데이터 마이닝을 통해서는 진정 가치 있는 지식을 찾겠다고 했으나, 마치 연금술에서 금을 만들어내지는 못하고 다른 물질들을 만드는 방법들을 부산물로 얻어 냈듯이, 지식 그 자체 보다는 데이터를 다른 형태로 빠르게 가공하는 기술들을 많이 발전시키는 효과를 가져 온 듯 보인다.

결국 지금에 와서는 데이터 마이닝에 대해 지식을 발견한다든지 경영활동에 있어 가치 있는 유용한 정보를 자동으로 탐색한다든지 하는 미사여구를 사용해 포장한 설명을 하는 것은 그다지 바람직하지 않을 수 도 있어 보인다. 오히려 '데이터 분석'이라는 냉정한 이름이 더 적합해 보인다. 불필요한 포장으로 인한 오해가 더 이상은 도움이 되지 않을 것이다.

데이터 마이닝의 과제는 크게 두 가지로 하나는 예측(predictive modeling)이고 나머지 하나는 설명(descriptive modeling)이다. 기업 환경에서 예측 모델링은 주로 미래를 예측하기 위해 사용되는 분석방법이라고 하면 쉽게 이해할 수 있을 것이지만 'supervised learning(무감독 학습)' 또는 'classification'과 같은 다분히 학술적인 용어를 사용하게 되면 좀 더 의미를 정확히 전달할 수 있을 것이다.

설명을 위한 모델링에는 연관규칙분석이나 군집화 등이 포함되는데 'unsupervised learning'이라고 부른다. 기업들의 활용 측면에서, 상대적으로 본다면, 예측모델링이 설명을 위한 모델링에 비해 좀 더 많이 전파되고 활용되고 있는 것으로 보인다. 이 글을 통해서는 좀 더 많이 실무에 사용되고 있는 예측 모델링 보다는 unsupervised 분석, 특히 연관규칙분석에 집중해서 데이터 마이닝을 살펴본다.

연관규칙 분석이란?
연관규칙 분석은 개체와 개체간의 관계를 파악한다. 여기서 개체는 상품일 수도 점포일 수도 팀이나 직원일 수도 있다. 예를 든다면 한 회사에서 어느 상무님이 어느 상무님과 자주 식사하는지를 분석해서 규칙을 만들어 내게 되면 그것도 일종의 연관규칙이 될 수 있다. 어떤 점포를 이용하는 고객이 다른 어떤 점포도 이용하는지 역시도 연관규칙이 된다. 여기서 어떤 '개체'에 대해 어떤 '관계'를 파악할 것인가는 분석하는 사람의 선택에 달린 것이다.

연관규칙은 '규칙'이라는 형태로 가공된 정보를 만들어지기 때문에 데이터 마이닝을 연구하는 과학자들의 오랜 관심사였다. 물론 그다지 쉬운 숙제는 아니었다. 데이터 마이닝이라는 이름을 가진 많은 분석 방법들 중 가장 심하게 컴퓨터 자원을 사용하는 분석 방법이라는 점에 특히 큰 도전이 있었다.

가장 단순한 형태의 연관규칙 분석을 하는 경우라 해도, 개인용 컴퓨터를 사용해서 백만 건의 거래 내역을 상용 데이터 마이닝 도구로 수행한다면 컴퓨터나 데이터 마이닝 도구가 멈춰서는 경우도 흔히 볼 수 있다. 사실 오늘날에 백만 건의 거래 내역이라고 해봐야 데이터 크기로 본다면 MP3 음악파일 10곡만큼도 되지 않을 수 있다.

한 유통업체의 고객이 수백만씩 되는 상황에서 십 만명의 고객이 열 번 거래한 내역에 지나지 않으니 그다지 많은 데이터라고도 할 수 없을 것이다. 그러나 연관규칙분석에서 있어서 처리해야 할 조합은 무제한이라 할 만큼 엄청난 양이다. 결과적으로 분석방법에 따라서는 멈춰서기 까지는 하지 않는다 해도 열흘 밤낮을 실행해도 종료되지 않을 수 도 있다. 그만큼 복잡도(complexity)가 큰 분석이다.

이처럼 쉽지 않음에도 불구하고 분석방법에 따라서는 연관규칙 분석을 통해 찾을 수 있는 규칙의 형태가 매우 다양하고 다른 분석방법을 통해서는 얻을 수 없는 결과들을 찾을 수 있다는 점 때문에 주목 받아온 것이다.

맥주와 기저귀의 진실
꼭 데이터 마이닝이나 통계분석의 전문가가 아니라고 하더라도 소위 '맥주와 기저귀'의 신화에 대해 한번쯤은 들어 보았을 것이다. 가장 유명한 연관규칙 분석 결과의 예가 바로 '기저귀를 사면 맥주도 산다'는 것이다. 이 분석은 유통업체에서 고객들이 구매한 내역을 분석해 보면 한 번의 쇼핑에서 함께 구매한 상품들의 조합을 찾을 수 있다는 아이디어에서 출발한다. 그 때문에 속칭 '장바구니 분석'이라는 이름으로 불린다.

1990년대 말 장바구니 분석이 널리 알려지기 시작했을 때 한국에서도 많은 사람들이 장바구니 분석의 마법에 걸렸던 것으로 기억된다. 피상적으로 맥주와 기저귀의 관계와 같이 전혀 예상하지 못했던 중요한 사실을 찾아낼 수 있는 것이 바로 데이터 마이닝이며, 그렇게 찾아진 지식은 사업의 성과를 놀랄만큼 높여줄 수 있을 것이라는 것이었다. 백화점, 홈쇼핑, 은행… 도대체 어떤 기업에서 장바구니 분석이 금쪽같은 지식을 찾아낼 것인지 기대를 모았다. 분명 신비한 마법으로 보였다. 하지만, 그것은 그저 막연한 기대에 지나지 않았음이 얼마 지나지도 않아 밝혀졌다.

그렇다면, 맥주와 기저귀에 관한 전설은 과연 어디서 나온 것이며 실제로 그 전설에서는 드라마틱한 효과가 나왔던 것일까? 혹자는 월마트에서 있었던 일이라고도 하고 혹자는 다른 슈퍼마켓에서 있었던 일이라고도 했다. 금요일 저녁에 발생되는 패턴이었다는 이야기가 덧붙여지기도 했다. 전설은 여러 가지 버전으로 파생되어 갔지만, 많은 관심이 일고 나서 오랜 시간이 지난 후에야 그 전설의 본래 출발점에 대해 진실이 밝혀졌다. 실제로 그 상황을 목격했다는 사람의 회고에 따르면 그 진실은 대략 이렇다.

1990년 미국의 한 드럭스토어 체인인 Osco Drug은 새로운 머천다이징 방안을 찾고 있었다. 그 과정에서 물론 여러 외부 업체와의 공동 노력도 있었을 것이다. 그 중 한 곳으로 NCR의 Teradata industry consulting group과 협의를 했던 모양이다. Teradata 팀은 Osco의 데이터베이스로부터 25개 점포에서 발생된 90일간의 거래 내역 데이터(즉, 영수증 데이터)를 가져다가 분석하는 작업을 실시했다.

이 분석 작업을 담당했던 허스라는 직원은 유아관련 품목이 포함된 수익성 있는 품목 조합을 찾기 위해 'self join SQL'을 실행해 보았고, 그 결과 중에서 하나로 오후 5:00~7:00 사이 시간대에 맥주와 기저귀간의 동시 구매 패턴이 존재하는 사실을 찾아내었다. 허스 자신은 이 패턴이 특별히 큰 의미가 있을 것으로는 생각지 않았으나 '(상품간의 동시 구매) 연관성'을 잘 설명하는 한 예 정도로만 생각했다. 후에 다양한 분석결과를 바탕으로 Teradata 팀은 Osco에 머천다이징에 대한 여러 제안을 했으나 Osco는 흥미로운 결과가 나올 수 있다는 사실에 관심을 가지는 정도였을 뿐 제안된 대로 실제 진열 변경 등 조치를 실행하지는 않았다고 한다.

그러나 당시 팀을 이끌고 있었던 브리스콕이라는 사람은 많은 사람들에게 이 패턴이 유용하게 사용되었던 것처럼 이야기를 하면서 정확한 소스는 밝히지 않았던 것 같다. 그 후 그 이야기에 감명을 받은 많은 사람들이 이 이야기를 전했고, 결국 입에서 입으로 여러 버전이 만들어지면서 전설처럼 퍼져나가게 되었다는 것이다.

분명 정식 데이터 마이닝 도구를 사용한 것도 아니고 그저 SQL 조회구문을 사용했던 것이며, 또 실제로 업무에 적용해 어떤 구체적인 성과를 얻은 것도 아니라는 이야기이다. 내막을 알고 나서 생각해 보면 월마트와 같은 할인마트가 아니라 드럭스토어라는 사실이 들어맞는 듯하다.

미국에서 드럭스토어는 간단한 편의품을 사는 간단한 쇼핑을 하기 위해 많이 찾는다. 퇴근길에 남자들이 기저귀 한 박스에 여섯 병들이 맥주 한 박스를 사가지고 가는 정도는 늘상 볼 수 있을 듯한 조합이다. 대형 슈퍼마켓이나 할인마트라면 좀 더 계획된 쇼핑이 이루어지고 통상 남자 혼자 보다는 가족단위의 쇼핑이 이루어질 것이다. 이처럼 상식선에서 나타날만한 패턴이다 보니 그다지 흥미로운 패턴이 아니었을 수 도 있을 것이다. 결국, 안타깝게도, 장바구니의 전설은 허구였던 모양이다. 하지만, 그 허구는 데이터 분석 내지는 데이터 마이닝에 대한 붐을 일으키는데 크게 공헌했으니 Blischok이 한 일은 비난 받을 일은 아닐지도 모른다.

한편 장바구니의 전설이 나돌기 시작하면서 부터는 아류로 볼 수 있는 여러 가지 이야기들이 거론 되었다. 바비 인형과 캔디의 조합도 많이 회자되는 조합이다. 월마트에서 바비 인형을 구매한 사람은 캔디도 구매했었다는 것이 그 내용이다.

이 사례 역시 사람들이 이야기 하듯 월마트에서 실제로 발견된 것인지 아닌지는 사실 확인이 필요하겠지만, 더 큰 이슈는 바비 인형과 캔디간의 조합을 찾았다고 했을 때 그 사실을 바탕으로 어떤 조치를 해야 할 것인가를 정하는 일이라는 점을 설명하기 위해 많이 언급된다. 이 패턴으로부터 떠올릴 수 있는 조치의 대안들로는 바비 인형과 캔디를 바로 인근에 배치한다거나 바비 인형과 캔디를 멀리 떨어 뜨려 놓는다거나 바비 인형과 캔디를 동시에 구매하는 경우에는 가격을 할인해 준다는 등이 있다.

한발 더 나아가면 캔디를 들고 있는 바비 인형을 제작해서 새로운 상품으로 판매한다거나 캔디를 바비 인형처럼 생긴 모양으로 만들어 판매한다는 등의 '엽기적인(?)' 수준의 방안을 포함하는 무제한의 의견이 나올 수도 있다. 답답한 사실은 이와 같이 무제한으로 많은 의견을 내는데 연관규칙분석이 큰 도움이 될 수 는 있으나 그 대안들 중 어떤 방법이 진정으로 업무 성과를 크게 높이는데 도움을 줄 수 있는지를 판단하는 것은 결국 사람의 몫이며 또 쉽지 않다는 것이다. 이러한 한계는 연관규칙 분석을 포함한 데이터 마이닝 전반의 구조적 한계로, 데이터 마이닝에 대해 실망하는 분위기를 확산시키는데 크게 기여한 듯하다.

그러나 커다란 성과를 얻었다는 사례가 전혀 없는 것은 아니다. 대표적인 예의 하나가 마루이이마이 백화점이다. 이 백화점에서는 '스포츠 용품 매장에서 상품을 구입한 고객 중에 50%가 한달 이내에 여성용 양말을 구입했다' 는 사실을 발견했고 이를 참고해 DM을 사용한 캠페인을 전개한 결과 DM 반응율이 이전의 1%에서 10%를 넘는 수준까지로 상승했으며 간접 반응율(아마도 여성용 양말 이외의 상품이라도 구매한 경우의 비율일 것으로 생각됨)을 포함하면 40%수준을 넘었다는 것이다(일본앤더슨컨설팅에서 지은 '고객관계관리'라는 제목의 책에 소개된 사례임).

사례의 성과에 대해 따져보기 이전에, 분석의 내용에 대해 먼저 살펴보면 이 경우에서는 단순히 상품간의 조합만을 찾아내는 것이 아니라 구매가 이루어진 시점을 고려해서 좀 더 정교한 내지는 좀 더 구체화된 분석결과를 얻는 방법을 시도 했던 것으로 보인다. 아마도 이 분석은 처음부터 DM캠페인에서 어떤 특성을 가진 고객을 대상으로 삼으면 좋을 것인가를 찾아내겠다는 목적을 명확히 했던 것으로 보인다.

연관규칙분석과 고객데이터 마이닝
고객데이터 마이닝은 고객데이터를 데이터 마이닝에 사용하는 것을 일컫는다. 데이터 마이닝을 사용하는 많은 분석 중에서 고객과 관련된 데이터를 사용하는 것을 특별히 고객데이터 마이닝이라고 부른다는 것이다. 사실 엄격히 따진다면 연관규칙을 만들어내는 구매내역 분석 즉, 장바구니 분석은 고객데이터 마이닝의 범주에 들지 않을 수 도 있을 것이다. 고객이 누구인지 한 사람 한 사람에 대해서는 파악되지 않는 경우 (대표적으로 슈퍼마켓)에도 적용 가능한 것이기 때문이다.

하지만 연관규칙 분석이 고객에 의해 이루어진 거래내역을 분석하는 것이며 오늘날 대부분의 유통업체들이 로열티프로그램을 통해 대부분의 거래를 고객별로 식별하고 있기에 현실적으로는 고객별 구매패턴을 연관규칙 분석 방법을 통해 발견하는 것이 가능하고 또 유통업체들이 더 많은 관심을 기울이는 것은 식별이 되지 않은 고객들 보다는 식별이 이루어진 '고객'들의 행동 쪽이다.

본래 장바구니 분석은 고객이 누군가에 상관없이 영수증 한 장 단위로 발생되는 조합 중 빈번하게 발생되는 조합을 찾는 것이었으나, 고객단위의 분석이 되면서부터는 한 영수증 안에 포함된 상품의 조합이 아니라 고객이 구매한 모든 구매 이력 또는 일정기간 예를 들어 한 달, 한 시즌 또는 일 년간 구매한 상품의 내역을 하나의 장바구니로 간주하고 분석한다.



▲ <그림1> 영수증 단위분석과 고객단위 분석의 비교



<그림 1>은 영수증 단위 분석과 고객단위 분석 간의 차이를 보여준다. 그림에서는 고객에 상관없이 총 세 건의 거래가 존재하므로 각 영수증을 단위로 분석하게 되면 라면과 우유, 사과와 우유 두 가지 조합에 대해 각각 2회씩이 발생됨이 분석결과로부터 파악될 것이다. 하지만 고객을 단위로 분석하게 되면 고객1이 발생시킨 두 거래가 하나로 간주될 수 있으므로 고객1의 구매내역은 사과, 라면, 우유가 된다. 따라서 고객2의 영수증에서 발견되는 사과와 우유간의 조합만이 2회 발견되는 조합이 된다.

일단 고객단위로 분석을 실시하게 되면 구매 금액이 많은 고객 또는 소위 우수 고객의 구매품목에서 발견되는 품목 조합과 그렇지 않은 고객의 품목에서 발견되는 조합을 각각 찾아 비교하는 것이 가능해진다. 백화점이나 슈퍼체인의 경우라면 그 조합이 서로 다른 점포에서 어떻게 발생되는가를 고객의 가치별로 구분해서 살펴볼 수 도 있게 된다. 그 결과로부터 어떤 점포에서는 어떤 고객층을 대상으로 어떤 프로모션을 해야 하는지에 대한 아이디어를 찾을 수 도 있을 것이다.

<그림 2>는 서로 다른 두 점포에서 각각 발생된 고객들의 구매내역들 중 우수고객들이 발생시킨 내역들만으로 부터 발견된 연관규칙을 점포간 비교하는 예를 보여준다. 그림에서는 두 점포 간에 발견된 연관규칙에 차이가 발생되었다. 한쪽에서는 사과의 구매가 두드러지지만 다른 한쪽에서는 사과 대신 과자, 맥주 대신 주스가 나타난다. 이러한 차이가 발견되면 그 원인을 파악하기 위해 추가적으로 해당 고객들의 프로파일들을 살펴볼 수 도 있다. 예에서는 프로파일링 결과 고객들의 인구통계적인 특성 차이가 원인으로 밝혀진 것이다.



▲ <그림2> 우수고객에 대한 연관규칙 분석결과의 점포간 비교



<그림 3>에 보여지는 것은 실제로 상용 데이터 마이닝 도구(SPSS 클레멘타인)를 사용해 장바구니 분석을 실시한 결과의 예이다. 그림에서는 분석을 통해 채소류와 맥주를 구매한 경우 냉동육도 함께 구매하는 경우가 많다는 것 등 여러 가지 연관규칙을 찾아내었다.



▲ <그림3> 장바구니 분석결과 화면의 예



앞서 설명한 바와 같이 장바구니 분석에 계절, 연도, 캠페인 전후, 점포 등과 관련된 여러 가지 임의의 조건 (custom constraints)를 적용하게 되면 다양한 성격의 연관규칙을 찾아낼 수 있다. 상품별 또는 고객별의 수익성을 반영할 수 도 있고, 프로파일링을 통해 특정한 규칙과 관련된 고객들의 특성을 비교해 볼 수 도 있다. 거꾸로 특정한 고객집단의 구매패턴을 쉽게 이해할 수 있는 패턴으로 만들어내기 위해 (즉, 프로파일링을 하는 것과 같은 목적으로) 각 집단별로 각각 프로파일링을 한 후 비교하는 방식도 가능하다.

이 모두가 사람의 아이디어를 필요로 하는 부분이다. 어떤 유형의 규칙을 찾아서 어떤 업무에 적용할 것인가 (예를 들어 캠페인을 통한 상품 추천인지 또는 assortment를 최적화하고자 하는 것인지 등)를 미리 정해두고 그에 적합한 내용의 데이터를 사용하고 분석을 실시하는 것이 중요하다.

여기서는 장바구니 분석이라는 분석방법을 중심으로 응용방법을 모색해 보았으나 반대로 응용에 따라 서로 다른 방법들을 하나의 문제를 분석해 가기 위해 사용하는 것도 가능하다. 상품간의 구매 연관성을 분석하기 위해서 기본적인 장바구니 분석 이외에도 순차구매패턴 분석(Sequential Pattern Analysis), Collaborative Filtering, Web Graph 분석 등 여러 가지가 활용될 수 있다.

이 중 Web Graph 분석은 비록 단순한 그래프 작성에 지나지 않지만 그래프를 통해 규칙을 눈으로 볼 수 있는 시각적인 데이터 마이닝이라는 점에서 분석하는 사람에게 매우 유용한 정보를 직관적으로 파악할 수 있도록 전달한다는 점에서 훌륭한 분석방법이다.

또 마루이이마이 백화점의 예에서와 같이 연관규칙 분석에 시간 개념이 반영되거나 순차구매패턴 분석 방법이 적용되면 좀 더 구체적이고 실제 업무에 적용하기에 적합한 정보를 얻을 수 도 있다. 기초적인 순차구매패턴 분석에서는 단순히 구매한 상품의 선후관계만을 찾는데 그치지만(예를 들면, 사과를 구매한 이후에 우유를 구매한다는 식의 규칙), 시간을 어떤 방식으로 반영하는가에 따라서 분석은 다양한 형식으로 구체화될 수 있다.

데이터 마이닝에 대한 기대의 변화
앞서 장바구니 분석이라는 구체적인 분석방법 중 한 가지를 중심으로 데이터 마이닝이 이루어지는 세부 내용을 살펴보았으나, 여기서부터는 좀 더 거시적인 시각에서 데이터 마이닝에 대해 살펴보자. 저명한 조사기관인 가트너는 이미 데이터 마이닝이 '심곡(trough of disillusionment)'을 벗어나 이제는 그 실체와 한계가 모두 드러나고 본격적으로 제 몫을 해 나가는 단계(peak of productivity)에 올라섰다고 한다(2003년 가트너 보고서 참조).

어쩌면 부시맨이 콜라병이 콜라를 담는 것이라는 것을 알게 될 때가 된 것과도 비슷할 것이다. 이제는 그 콜라병에 물도 담아 마시고 술도 담아 마실 수 있는 역량을 가지게 된 듯하다. 물론 데이터 마이닝의 범주에 포함되는 모든 것들이 동일한 단계에 와있는 것은 아니다. 가트너도 구체적으로 텍스트 마이닝이나 개인화, 유전자 알고리즘 등의 상용화에는 아직도 좀 더 시간이 걸릴 것으로 내다보고 있다.

하지만, 현실에서, 특히 우리나라 안에서 접하게 되는 현실에서, 예측과 설명이라는 기본적인 사항에 관해서도 데이터 마이닝과 관련된 오해는 아직까지 완전히 사라진 것은 아닌 듯하다. 여전히 완전히 사라지지 못한 오해들은 어떤 것이었는지 그 중 몇 가지를 살펴보자.

오해1. 데이터 마이닝 도구는 무엇을 찾아내라고 이야기 해주지 않아도 자동적으로 필요한 것을 찾아낸다.
데이터 마이닝을 위해서는 사용할 데이터와 찾아내어야 할 결과의 종류가 정해져야 한다. 이것을 정하는 것은 사람이 담당해야 할 몫이다. 특히 군집분석으로 대표되는 Unsupervised learning 분석 방법들에 관해 많은 오해가 있다. 본래 군집분석은 많은 개체들을 몇 개의 집단으로 묶어내는 것이다.

분명 데이터가 주어지면 그 데이터를 컴퓨터 알고리즘이 처리하여 자동적으로 결과를 만들어내게 된다. 하지만 분석을 통해 만들어지는 그 몇 개의 집단이라는 것은 분석에 처음에 어떠한 입력 데이터 항목들이 사용되었는가에 따라 천차만별로 달라지게된다.

결국 원하는 것이 무엇인가를 정해놓지 않고서는 어떤 입력 데이터 항목을 분석에 사용할 것인가가 정해질 수 없기 때문에 사실상은 알고리즘이 자동으로 처리한다고 해도 분석의 결과에 미치는 영향은 극히 제한적일 수밖에 없다.

<그림 4>는 입력되는 데이터 항목에 차이가 있을 경우 군집분석 결과가 얼마나 크게 달라지는가를 보여준다. 그림은 군집분석을 위한 대표적인 방법인 K-Means를 사용한 두 가지 분석결과이다. 두 가지 모두가 같은 유통업체의 고객데이터를 사용하여 군집을 찾아낸 것이지만 구매액과 구매일수라는 두 가지 입력 데이터 항목은 두 분석 모두에 사용되었으나 위쪽 분석에서는(A) 고객이 주로 구매한 상품을, 아래쪽 분석에서는(B) 고객의 최초 구매로부터 마지막 구매까지의 기간 즉 관계의 지속이 얼마나 되었는가를 각각 사용하였다. 겨우 단 한 가지 항목에만 차이가 있는 두 분석결과는 판이하게 다르다.

예를 들면 A에서 가장 많은 고객이 포함된 집단은 3번 군집이며 이 집단은 평균적인 구매액이 매우 높다. 하지만 B에서는 5번 군집에 과반수의 고객이 포함되어 있는데 이들은 구매액이 매우 낮은 고객들이다. 예를 통해서 살펴본 바와 같이 입력변수를 선택하는 일은 어떤 결과를 얻을 것인가를 구체적으로 지정하는 것과도 마찬가지라 할 수 있다.



▲ <그림4> 입력데이터 항목에 따른 군집분석 결과의 차이



오해2. 데이터 마이닝은 엄청나게 복잡한 과정이다.
복잡하다는 것 자체는 분명 사실이다. 단순히 고객의 수를 세는 정도의 데이터 처리에 비해서는 엄청나게 복잡하다. 또 그 복잡한 분석에 사용되는 알고리즘을 이해하기도 쉽지 않다. 물론 알고리즘을 이해한다 해도 그것만으로 어떤 비즈니스 문제에 어떤 식으로 적용해야 할지를 제대로 정하는 것이 보장되는 것도 아니다.

하지만 이와 같이 복잡하다는 것은 사실이라고 해도 그 복잡한 세부사항을 모두 알아야만 데이터 마이닝을 잘 활용할 수 있는 것은 아니다. 마치 요리를 하는 것과도 같다. 요리를 하는 주부가 도마와 칼이 어떤 성분으로 구성되어 있는지의 화학적 배합 구조까지를 모두 알아야만 좋은 요리를 할 수 있겠는가. 오히려 더 중요한 것은 레서피(recipe)다. 어떤 재료를 물이 끓기 전에 언제 어떤 굵기로 썰어서 언제 준비해야 하는가가 플라스틱으로 된 도마를 쓸 것인지 아니면 나무로 된 도마를 쓸 것인가에 비해서는 월등히 더 중요한 것이다.

오해3. DM에서 데이터는 많을수록 좋으므로 모든 데이터를 한 번에 다 넣어야 한다.
다시한번 요리를 생각해 보자. 아니 좀 더 간단하게 라면이라도 마찬가지일 것이다. 라면을 하나 끓이는데 열 가지 있다고 해서 스프 열 개를 한 번에 모두 넣는다고 맛있는 라면이 되겠는가? 파, 버섯, 김, 마늘을 모두 넣는다고 무조건 맛이 좋아 지겠는가? 라면 두 개에 스프 하나면 더 좋을까? 균형이 맞아야 한다.

앞서 보았던 군집분석의 예를 생각해 보면 네 가지 데이터 항목이 있다고 해서 그 모두를 사용하는 것이 가장 좋은 결과로 이어질 것이라 할 수 없다. 어떤 목적을 가지고 분석을 하는가에 따라서 구매금액이나 구매상품 등 어느 한 가지는 빠지고 다른 한 가지는 들어가는 것이 적절할 수 있기 때문이다.

오해4. 표본을 사용하게 되면 정보 상실이 발생되므로 모든 데이터를 전부 사용해야 한다.
샘플링이 필요했던 가장 큰 이유는 기본적으로는 데이터가 많다 보니 전체를 처리하게 되면 너무나 오래 걸리거나 분석이 종료되는 것 자체가 불가능하기 때문이었다. 그러나 하드웨어의 성능이 좋아진 오늘날에는 특수한 경우를 제외하면 그 점이 주된 이유는 아니다. 웬만한 규모의 데이터는 전체를 사용해서 분석해도 불가능하지는 않다.

그러나 역시 효율성의 문제는 여전히 남아있다. 주어진 자원을 더 효율적으로 사용하기 위해서라면 한번을 분석할 시간에 여러 각도로 여러 번을 분석해보는 편이(물론 결과에 큰 차이가 없는 상황이라고 전제할 때) 바람직할 수 있을 것이다. 이러한 이유에서 실제로도 대부분의 기업들이 표본을 사용한 분석을 주로 하고 본격적인 적용을 위한 제한된 경우에만 전체에 대한 분석을 실시하고 있다.

더 많은 노력이 필요한 이슈들
앞서 이야기한 몇 가지를 포함해 여전히 데이터 마이닝에 대한 오해들이 존재하지만 그와 같은 부분들은 인식이 개선되면 자동적으로 사라질 수 있는 부분으로 생각된다. 하지만 다음의 두 가지와 같은 이슈들은 그렇게 쉽게 해결될 것으로만 기대하기 어려운 부분들이다.

이슈1. 분석 결과를 제대로 해석하지 못함
어찌 보면 데이터 마이닝 전체 과정 중에서 가장 어려운 부분이 이미 수행된 분석의 결과를 해석하는 부분이다. 동일한 분석결과라 해도 해석하는 사람이 어떻게 의미를 부여하는가에 따라 업무에 적용할 방향은 얼마든지 달라질 수 있기 때문이다. 특히나 처음부터 분석의 방향과 목적이 명확히 정해지지 못했던 경우라면 문제는 매우 심각해질 수 도 있다.

조선시대 과거를 치르는 모습을 생각해 보자. 반나절 동안 치러지는 과거 시험을 보기 위해 적어도 몇 년을 준비한 선비들이 줄을 이어 앉아 있다. 이들이 써내려 가는 과거 답안지에는 수 십 문장이 쓰여 있다. 하지만 그 많은 고민과 그 많은 준비를 주어진 시제 한 글자를 잘못 읽음으로 써 그저 허망하게 날려 버릴 수밖에 없는 것이다.

데이터 마이닝을 통해 찾고자 하는 것은 소위 '유용한 지식'이지만, '유용한' 것이 무엇인지를 제대로 정의할 수 없다면 정작 유용한 것을 만난다 해도 그 사실을 인식할 수가 없다. 질문이 없다면 답도 없다. 질문을 잘못 이해하면 답은 엉뚱한 것이 된다. 이러한 현실적 문제를 해결하기 위한 방안 중 하나를 CRISP-DM이라는 방법론(http://www.crisp-dm.org/new.htm 참고. 1990년대 말에 그 첫 버전이 완성되었던 CRISP-DM은 이제 두 번째 버전을 준비 중이다.)에서 찾을 수 있다.

이 방법론이 가진 가장 특징 중 하나는 Business Understanding을 그 시작으로 한다는 것이다. 어떤 문제에 데이터 마이닝을 적용할 것인가를 제대로 파악하고 그 문제와 관련된 여러 가지 주변 상황을 충분히 이해하는 것이 데이터 마이닝을 수행하는 전체 과정과 최종적으로 얻어진 결과를 해석해 업무에 제대로 적용하기 위해 관건이 된다는 실전적 경험이 반영된 것이다.

이슈2. 시계를 만드는 법은 신경 쓰지 않고 그저 당장 시간을 보는 데에만 급급함
요즈음 텔레비전에 나오는 '주몽'이라는 드라마를 보면 강철검을 만들려고 수 십 년의 고초를 겪는다. 강철검이라는 것이 기술을 알지 못하고 그 기술을 찾아내고자 하는 사람에게는 무한한 어려움일 수밖에 없는 것은 당연하다. 강철검은 필요 없으니 몽둥이를 사용해서 한 두 명이라도 강철 갑옷을 입은 철기군을 치고 그들이 가진 무기를 빼앗을 생각을 한다면 그것도 전혀 불가능한 것은 아니리라 보인다.

물론 드라마에서야 상대를 죽이고도 그 무기를 챙기는 장면은 없다. 하지만 많은 사람들이 오늘날의 현실에서는 강철검 개발은 관심을 두지 않고 그저 숨진 적군의 옷과 무기를 챙기는 일에만 급급한 듯 보인다. 어차피 세상이 그렇다면 그에 맞춰준다고 비난할 일은 아닐 수도 있다. 당장의 일을 생각한다면 무기를 뺏고자 하는 의욕을 무시할 수 도 없는 노릇이다. 당장의 전투에 그보다 유용한 것은 없으니. 하지만 그렇다고 해서 영원히 신무기 개발은 포기하고 강철검 노획만 생각한다면 발전이란 있을 수 없지 않겠는가. 데이터 마이닝의 경우 막연하게 복잡하다는 인식들을 가지고 있다 보니 그 내용에 대해 이해하고자 하는 사람들이 적다.

고객 분석의 책임을 가지고 있는 많은 실무자들이 초보적인 분석방법 조차를 스스로 적용하는 것을 꺼리고 있다. 분석은 전문가들이 알아서 해줄 일이라 치부해 버리고 만다. 또는 분석결과를 통해 전문가들이 제안한 방향이 이해되지 않으면 데이터 마이닝이라는 것 전체가 무용지물이라고 치부해 버리기도 한다. 하지만 대부분의 전문가라는 사람들이 한 회사의 한 업무에 속했다기 보다는 주어지는 일에 따라 하는 일이 달라진다는 점을 생각해 본다면 그들에게만 모두 맡겨버리는 것은 처음부터 적절하지 않음을 알아야 할 것이다.

데이터 마이닝에 관해서만 깊이 있는 지식과 경험을 가진 이가 특정한 회사의 고객관리를 위한 최적의 방법을 찾아낼 것으로 기대하거나 요구하는 것은 분명 어리석은 것이다. 고객 데이터 마이닝은 실제로 고객관리의 책임을 맡고 있는 담당자들이 본격적으로 참여하고 이해할 때 효과적으로 사용될 수 있는 가능성이 커질 수 밖에 없다.

데이터 마이닝 권고 사항
데이터 마이닝을 실제 적용하는 과정에서는 좀 더 많은 사항들을 유념해야 한다. 그 중 아래의 세 가지는 대표적인 항목들로 보인다.

권고 1. 데이터 구조와 용어를 먼저 정비하라
대표적인 예가 상품코드의 체계일 것이다. 대부분의 기업에서 상품에 대한 분류는 과학적 체계나 구체적인 방향을 가지고 만들어진 것이라기보다는 직관적으로 이루어진 것이며, 시간이 흐르면서 추가와 삭제를 반복하면서 진화한 '자연발생적'인 모습을 가지고 있다.

앞서 살펴보았던 장바구니 분석만을 생각한다고 해도, 상품이 그 단위로 사용되기 때문에 상품에 대한 분류가 제대로 이루어지지 않았을 경우 유용한 정보가 드러나지 못한다거나 또는 의미 없거나 활용가치가 없는 엉뚱한 규칙들만 다수 만들어 질 수 도 있다.

권고 2. 간단한 모델을 먼저 만들어라
앞서 장바구니 분석에서 고객의 종류를 구분하고 점포나 기간을 구분하는 방법들을 적용할수 있다고 언급했다. 하지만, 장바구니 분석뿐 아니라 어떤 분석에서도 마찬가지이겠지만 일단은 충분히 간단한 형태의 분석이 선행되어야 할 필요가 있다.

하나의 군집분석을 하기 위해 수백 개에 달하는 데이터 항목을 수개월에 걸쳐 만들어 낸 후, 그 결과의 복잡함으로 인해 정작 군집분석을 수행한 결과를 일일이 확인할 수조차 없어진다면 그것은 결코 바람직하지 않다. 간단한 분석은 그만큼 큰 그림을 명확하게 보여준다. 그리고 그 이후에 좀 더 복잡한 분석을 하더라도 그 결과를 이해하기 쉽도록 꼭 필요한 준비 운동을 시켜 준다.

권고 3. 데이터 마이닝 이외의 주변정보도 활용하라
어떤 조치를 할 것인가를 정하기 위해서는 즉, 경영 활동을 계획하기 위해서는 복잡한 판단이 필요하다. 어떤 활동을 해야 하는지는 데이터베이스에 들어있는 데이터로부터 만들어진 것만으로 충분치 않을 수 있다. 또 그 중에서도 오직 직접적으로 데이터 마이닝에 의해 얻어진 내용만을 가지고 충분할 가능성은 더더욱 적다.

업무적인 판단을 위해서는 주어진 상황에 대한 다양한 내용과 형식의 정보들이 총동원되어야 한다는 상식을 잊지 말아야 한다. 구태어 왜 주변정보들이 필요한가를 열거해 본다면, 기술적인 측면에서 필요한 모든 데이터 항목들이 데이터베이스에 저장되지 않았을 수 있으며, 기록을 실제로 실행해야 하는 사람들이 그저 '게을러서' 제대로 하지 않았을 수 도 있다.

또 분석에 적용한 방법이 문제에 접근하는데 필요한 모든 중요한 사항을 다루지 않았을 수 있다 조사 결과와 데이터 마이닝 간의 결합이나 텍스트 마이닝, 웹마이닝 등이 고객데이터 마이닝에서 점차 비중이 커져가고 있는 최근의 추세도 이러한 점을 반영하는 것으로 해석된다.

데이터 마이닝 시장의 변화
강조했던 바와 같이 데이터 마이닝에는 제품, 도구 보다는 사람이 해야 하는 역할이 더 중요함에는 틀림이 없다. 그러나 그렇다고 해서 데이터 마이닝 공급자나 제품이 전혀 중요하지 않은 것은 아닐 것이다. 게다가 데이터 마이닝 개념이 등장한지 십 년 이상이 지나면서 이제 초기의 제품들과는 비교될 수 없을 정도로 제품들이 발전되었고 그 공급자들도 세기를 갖추어 가고 있다. 공급자와 제품을 묶어 '시장'이라는 이름으로 부른다면 그 시장에 대한 얼마간의 이해도 도움이 될 수 있을 것이다.

1) 생각보다는 많은 제품과 공급자들이 존재한다
시장조사기관인 가트너가 분야별 공급자들을 비교해 발표하는 보고서 (Magic Quadrant)를 살펴보면 대표적으로 알려진 SAS와 SPSS 등 통계분석에서 출발한 대형 공급자들이 압도적인 리더의 위치를 지키고 있기는 하지만 우리에게 그다지 익숙하지 않은 이름들도 많이 만나게 된다.

KXEN(kxen.com)은 많은 수의 변수와 많은 수의 모델을 사용하는 초대형 분석에 촛점을 맞춘 전문적 데이터 마이닝 기능과 산업별로 특화된 솔루션들도 제공한다. 단, 흔히 제공하는 기능들 중 일부를 제공하지 않는 제한도 있다.

Fair Isaac(fairisaac.com) 은 특정 산업에 특화된 분석 솔루션을 공급 왔으나 최근에는 그 범위가 교차판매 분석까지도 포함할 정도로 확대되고 있다. Chordiant(chordiant.com)는 BPM(Business Process Management)에 주력하고 있으나 실시간 상품추천을 위한 마이닝 기능을 제공한다.

Unica(unica.com)와 Quadstone(Portraitsoftware.com)은 캠페인 관리에서의 고객 타게팅에 특화된 데이터 마이닝 기능을 제공하고 있다. 둘 다 캠페인 관리를 주력으로 하지만 완성된 캠페인관리를 위해 캠페인관리 솔루션에 내장 또는 밀접하게 결합되어 운영될 수 있는 데이터 마이닝 도구를 필요로 하다 보니 그에 어울리는 제품을 공급하는 것이다.

통상 데이터 마이닝 제품들이 많은 고급 기능들을 빠짐없이 제공해야 한다는 요구를 충족하느라 무거워지는 운데 비해 일부 제품들은 전문적인 분석가 보다는 마케터 등 최종 사용자들이 필수적으로 사용할 최소한의 기능만을 묶어 가능한 한 가볍게 구성하는 경우도 있다.

그러나 보니 SAS나 SPSS 등의 제품들이 기본적으로 제공하는 GUI 방식의 모델링 환경 조차 제공하지 않는 경우도 있다. 데이터 마이닝 결과도 자체적인 방식 대신 스프레드시트를 통해 보여주기도 하며 대표적인 데이터 마이닝 방법 중 하나인 의사결정나무 분석 조차 제공하지 않는 경우도 있다. 그럼에도 불구하고 상당수의 기업에서 KXEN이나 유니카와 같은 제한된 기능의 제품을 실전에 적극 활용하는 경우를 찾아볼 수 있다.

그 외에도 데이터베이스 또는 ERP등의 범용 패키지 공급자들이 데이터 마이닝을 기능의 일부로 제공하는 추세도 관심을 끈다. 이들은 DBMS 또는 ERP 등의 기존 주력제품의 기능을 확장하는 노력의 일부로 데이터 마이닝을 제공하는데, 그 수준이 점차 고도화 되고 있다. 마이크로소프트, 오라클, SAP 등이 이러한 범주에 속한다.

특히 마이크로소프트의 경우 자사의 데이터베이스관리 시스템의 넓은 사용자층과 가격경쟁력을 바탕으로 급속하게 확산되는 모습을 보이고 있다. 이와 연관된 추세 중 하나는 데이터 마이닝 제품간의 호환성이 증가된다는 것이다. 서로 다른 제품의 데이터 마이닝 기능이 연결되어서 사용될 수 있는 장치들이 제공되고 있다.

대표적 예로 개방형 구조를 표방하는 SPSS의 클레멘타인에서는 KXEN이나 MS, IBM 등의 제품이 제공하는 기능들을 외부 인터페이스를 통해 연결하여 클레멘타인을 사용한 단일한 사용자 인터페이스를 통해 분석 업무를 수행할 수 있도록 한다. 이러한 경향은 향후 점차 한 회사내에서도 분석 업무의 성격과 분석을 하는 사람의 취향에 따라 서로 다른 복수의 데이터 마이닝 도구를 사용하는 것을 촉진할 것으로 예상된다.

실제로 인도의 HDFC 은행은 SAS를 분석을 위한 기본 도구로 사용하고 있으나 캠페인 타게팅을 위해서는 캠페인 관리 시스템에 결합된 유니카의 Affinium Model을 적극 활용한다고 한다. 제품간 호환성이 증가된다면 이러한 경향은 급속 확산될 수 있을 것이다.

2) 국내 시장의 어려움
국내에서 본격적으로 활동하고 있는 공급자의 절대수가 적다는 것이 가장 우선적인 이슈가 될 것이다. 소위 리더로 불리는 SAS와 SPSS 두 업체를 제외하면 국내에는 전문 데이터 마이닝 공급자는 존재하지 않는다. 그 영향은 시장규모의 확대나 적용영역의 확대, 전문인력 양성 등 많은 부분에서 제약으로 작용하는 듯하다.

또, 데이터 마이닝이 제대로 활용되려면 좋은 제품과 사용자의 의지도 중요하지만 체계적인 교육 환경도 존재해야 한다. 각 제품에 대해서도 다양한 사용방법이 교육되어야 하겠지만, 제품과는 무관한 업종별 데이터 마이닝 적용방법이나 사례에 관한 교육이나 세미나도 다양하게 존재해 주어야 할 것이다.

미국의 경우를 보면 기초 개념, 제품 사용법 교육, 예제를 통한 실전 과정, 실무 응용 방법 등 내용을 구분한 다양한 교육 프로그램이 1년내내 진행된다. 시장이 일정 규모 이상이 된다는 점이나 유상으로 진행되는 교육에 대한 인식이라는 측면 모두가 이러한 필수적인 조건이 충족될 수 있는 원인들이 되는 듯하다.

교육을 보완할 수 있는 다른 방법으로는 전문서적을 생각할 수 있을 것이지만 여기서도 차이는 심각하다. 아마존 웹사이트에 나와 있는 데이터 마이닝 관련 서적의 수와 국내에서 판매되는 한글 서적 간에는 그 양이나 질 모두의 면에서 엄청난 차이가 있다.

참고로, 교보문고 웹사이트에서 '데이터 마이닝'이라는 단어로 검색해 보면 17권이 올라오는데 그친다. 반면 아마존에서 'data mining'을 키워드로 검색해 보면 수천 권이 나온다. 학술서도 있고 실무서도 있고, 다양한 응용분야를 다루고 있으며, 기술적 측면과 응용 측면 등 다양한 내용이 담겨있다. 이상의 여러 가지 측면이 국내에서 데이터 마이닝을 원활하게 하는데 제약이 된다는 것은 무시하고 싶어도 결코 그럴 수 없는 부분이다.

고객데이터 마이닝 시작하기 또는 되살려내기
규모가 작은 기업이나 제조업 등 특정 업종에서는 데이터 마이닝이 상대적으로 활발히 도입/활용되지 못하고 있는 듯하다. 하지만 규모나 업종이 데이터 마이닝 활용에 절대적인 제약이 되는 것은 아니다. 한 예로 만 명의 고객이 연간 10만원정도의 매출을 일으키는 회사가 있다고 가정해 보자. 연간 10억원의 매출 규모이다. 데이터 마이닝에 힘입어 고객 당 만원씩의 매출이 늘어나고 그것이 10% 만큼은 내년의 매출이 증가하는 효과로 연결될 수 있다고 한다면 데이터 마이닝의 기여도는 1억원이 된다.

데이터 마이닝과 그 활용에 소요되는 모든 비용을 포함해서 1억원 이내로 소화될 수 있다면 남는 장사가 된다. 인력 한명을 할당하는데 천오백만원 (실무경력 3년차 인력 한 사람의 업무 중 30% 만큼을 데이터 마이닝을 담당하도록 한다고 가정.), 하드웨어와 소프트웨어에 삼천오백만원을 투자한다면 전체 투자는 오천만원이 되지만 오천만원이 남았으니 산술적인 ROI(Return on Investment)는 오천만원으로 200%가 된다. 5천만원이면 총매출 5%에 해당하는 금액이며 20%의 이익율을 가진 회사였을 경우 전체 이익의 1/4에 해당한다.

단순한 추산을 해 본 것이지만 이 정도의 효과가 날수 있는 경우를 찾는 것은 어렵지만은 않다. 그럼에도 불구하고 매출 10억원 이상의 회사에서 이 정도의 데이터 마이닝 활용이 이루어지는 사례가 실제로 얼마나 있는가? 심지어는 데이터 마이닝을 위한 하드웨어와 소프트웨어를 갖추어 두고도 활용이 전혀 이루어지지 않는 경우가 많은 것 같다.

사실 반드시 많은 비용 투자가 필요한 것도 아니며 대규모의 전문 인력으로 팀을 구성해서 보유해야 하는 것만도 아닐 수 있다. 회사의 규모가 작아 내부에 인력을 보유하는데 어려움을 겪는다면 외부의 힘을 빌어쓰는 것까지도 생각할 수 있을 것이다.

국내에도 금융, 통신 등 대기업들을 중심으로 이미 여러 기업들이 적극적으로 데이터 마이닝을 마케팅이나 고객관리에 활용하고 있다. 그러나 또 다른 기업들에서는 한두 번의 쓴맛을 본 이후 데이터 마이닝에 관해서는 더 이상 거론 조차하지 못하는 분위기인 경우도 있다. 특히 경영진을 비롯한 고위관리자들의 이해 부족으로 인해 실무진들이 의욕적으로 무언가를 추진하려는 시도조차 하지 못하는 경우도 만나게 된다. 무조건 하지 말라는 데는 별 수가 없었을 것이나 그저 낙담만하는 것도 대안이 될 수는 없다.

분명 전 세계적인 큰 흐름은 마케팅과 고객관리에서 데이터 마이닝의 역할이 확대되는 것이며, 지금 문제를 제기하는 경영진 내지는 관리자들도 언제까지나 그곳에 있는 것이 아닐 것이기 때문이다. 점점 더 많은 국내 기업들이 세계화되어 가고 있고 점점 더 많은 새로운 관리자와 경영자들이 주먹구구식이 아닌 체계적인 경영방식을 도입하고 하고 있다는 것을 본다면, 당장은 어떠한 이유에서이든 데이터 마이닝을 본격 적용하고 그 효과를 향유하고 있지 못하고 있다고 해도, 내일의 데이터 마이닝을 위한 드러나지 않는 여러 가지 사전 준비에 노력을 기울이는 것이 실익을 줄 것이다.

필자 ; 전 용 준 xyxonxyxon@empal.com
리비젼컨설팅 대표 / 경영학박사
케이엔티컨설팅그룹, 이씨마이너, 엑설루션컨설팅 등을 거쳐 현재는 고객 전략과 고객 분석에 대한 전문 컨설팅을 제공하는 리비젼 컨설팅의 대표로 일하고 있다. 백화점, 홈쇼핑, 캐피탈, 교육서비스, 제조유통 등 다양한 업종의 CRM 고객전략과 분석 CRM에 관한 컨설팅 실무를 수행해 왔으며 여러 전문 기관들에서 CRM 전략, eCRM, 고객데이터 분석 등에 관해 강의하고 있다.



저작권자 © 아이티데일리 무단전재 및 재배포 금지