11.18
뉴스홈 > 칼럼
[김동철의 블로그] Big Data : 만드는 것이다김동철 / 데이타솔루션 총괄본부 전무(공학박사)
   
▲ 김동철 / 데이타솔루션 총괄본부 전무(공학박사)
  
 [아이티데일리] 30년전 토플 시간에 타임지에 실렸던 기사를 독해하던 중 미국의 쉐일 가스에 관한 기사를 접한 기억이 있다. 가스가 지하 암반층의 한곳에 모여 있지 않고 땅속에 여기저기 퍼져있는 상태라 당시의 기술로서는 채굴도 어렵고 어렵게 채굴하여도 생산성이 맞지 않아서 훗날을 기약하며 그대로 방치해 놓고 있다는 것이다. 그런데 요즘은 그 생산성이라는 것이 실현 가능한 상태에 도달하여 미국과 중국에 엄청나게 매장되어 있는 쉐일 가스를 적극적으로 채집하기에 이르렀다. 이유는 가스 값이 수십 배가 올랐고 기술의 발달로 효과적인 채굴이 가능해 졌기 때문이다.
 
빅데이터를 이러한 현상에 비교할 수 있을까 의문이다. 동일한 논리로 비교해 보자면 빅데이터를 다루기 위한 IT측면은 가격도 싸지고 기술의 발전도 상당히 이루었다. 그러나 시중에 나돌고 있는 대부분의 데이터는 데이터로서의 가치가 없는 것들이 대부분이어서 모으기만 하면 쓸모가 있는 쉐릴 가스의 경우와는 다뭇 다르다.
 
그러면 빅데이터는 쓸모 없는 것인가? 빅데이터가 의미를 가지자면 데이터들간에 연결고리가 있어야 하며, 진실이든 거짓이든 방향성이 있어야 한다. 그래서 빅데이터를 바라보는 시각을 달리해 보는 것도 하나의 방법이 될 수 있다. 빅가비지를 양산할 수 있는 외부로부터의 데이터 수집이 아니라 기존에 모아져 있는 데이터를 기반으로 해서 빅데이터를 만들어 가는 것이다. 일반인들의 시각에서 보자면 지금까지의 데이터를 모으는데도 얼마나 힘이 들었는데 그걸 가지고 다른 정보를 어떻게 만드냐고 반문할 것이다. 또 어떤 이들은 실험실도 아니고 만들어진 데이터가 실제 사회에서 무슨 소용이 있느냐고 강하게 어필할 수도 있다. 그러나 데이터 과학자 측면에서는 어느 정도의 데이터만 있다면 충분히 수십 수백 배의 데이터를 만들어 낼 수 있다. 그것도 데이터들간의 연결고리와 방향성을 가진 데이터들로 말이다.
 
실제로 덩치 큰 기업들에서는 통계 컨설턴트들을 동원해서 이러한 일들을 해보려고 시도를 해왔다. 마케팅 차원에서 실시간 마케팅을 구현하려고 소비자의 구매 형태를 파악하여 소비자의 선호도와 동선에 적합한 내용을 실시간으로 제공한다. 예를 들면 모백화점에서 어린이 옷을 10만원어치 구매한 여성 고객에게 가족레스토랑 할인권을 제공한다든지, 어린이와 연관된 다른 상품의 정보와 근처의 주유소 할인권을 준다든지 하는 것이다. 위의 상황에서 설명된 데이터는 백화점의 단말기 데이터, 밴사의 구매내역 데이터, 카드사의 고객 사용 데이터, 통신사의 고객 전화번호 관련 데이터들이 복합적으로 연결되어 있으며 그들의 유기적인 결합으로 고객은 관련 정보를 받아 볼 수 있게 되는 것이다. 이러한 노력으로 고객들의 단 몇 퍼센트만이라도 의도대로 움직여 준다면 데이터를 이용한 마케팅은 성공한 것이며 비용대비 효과는 충분하다고 생각된다. 그러나 이마저도 여러 회사가 유기적으로 연결되는 것이 쉽지 않으며, 법적인 제약도 있어서 모든 데이터를 통합해서 빅데이터적으로 이용하기는 어려운 실정이다.
 
좀 더 간단하고 쉬운 사례로 빅데이타 구현의 접근 방법을 알아 보자. 우선은 목표가 필요하다. 콜센타의 직원이 고객에게 전화해서 한번에 일을 처리하는 적중률이 10%밖에 안 되는 기업이 적중률을 20%로 올리려고 한다. 콜센타의 직원들은 주어진 시나리오에 의거하여 고객 데이터를 가지고 하루에 200통의 전화를 하고 있다. 콜센타 직원들에게 전화하는 전문적인 방법, 예를 들어 끈질기게 물고 늘어지는 방법, 협상하는 방법, 먼저 사과하는 방법, 가벼운 협박 수단 등을 아무리 가르쳐봐야 별 소용이 없다는 것을 경험으로 알았을 것이다. 그런 것들은 전화요원들에게 기본적으로 필요한 항목일 뿐이고, 정작 필요한 사항은 그들이 통화하고자 하는 고객에 대한 데이터도 함께 고도화 되어야 한다는 것이다.
 
어느 고객이 언제 전화하면 받을 가능성이 큰지 어떻게 알 수 있을까? 어느 고객이 지금 무슨 생각을 하고 있을까? 하는 내용을 사전에 알 수 있다면 전화를 거부하는 확률이 크게 떨어질 것이며 아울러 고객의 문제를 해결해 주는 것은 물론이며 새로운 영업기회를 잡을 수도 있을 것이다. 고객이 주로 물건을 사는 시간 정도는 쉽게 알 수 있다. 이러한 데이터로 미루어 보아 고객이 직장인 인지 아닌지를 알 수 있으며 직장인 이라면 점심시간 또는 퇴근 시간 이후에 전화를 거는 것이 바람직하겠다. 직장인이 아니라면 자주 물건을 사는 시간대에 전화를 거는 것이 관심 통화를 성공시키는 방법이 될 수 있겠다. 무상 보증기간 1년의 에어컨을 만드는 제조업체는 1년 이후에 에어컨이 자주 고장 난다는 가정을 가지고 있다. 그리고 가정에서의 에어컨은 여름이 시작될 무렵 고장 신고가 많이 들어온다는 것도 알고 있다. 이 회사의 콜센타는 전체 고객의 자료 중에서 지난해 여름 무렵에 에어컨을 구입한 고객의 자료를 가지고 예방, 점검 그리고 추가 구매를 위한 전화를 선제적으로 하는 것이 당연하다. 그렇지 않은 고객에게는 다른 방면으로 만족도 조사를 하여 고객만족을 위한 성의를 보이면서 다른 상품의 판매로 연결하는 전략으로 연결의 끈을 놓지 않는 방안이 가능하겠다.
 
데이터 과학자는 고객 관점에서 또는 데이터 관점에서 어느 데이터가 추가로 필요한지, 그러한 데이터는 어떻게 만들어질 수 있는지를 생각한다. 그리고 기존의 데이터는 어떻게 이용될 수 있는지 모든 연관된 상상력을 발휘해서 영역을 확장해 나간다. 고가의 수산물을 자주 구매하는 40대의 여성 고객이 있다면, 그러한 정보만으로도 고가의 수산물 구입 이유, 그러한 고가의 제품을 살 수 있는 수준의 경제력 정도, 특정 수산물 선호 정도, 가족의 수, 거주지 동네, 직장인지여부 등등 수많은 정보를 유추해서 알아낼 수 있다. 또한 이러한 유추된 정보를 바탕으로 할 수 있는 것들은 무수히 존재한다. 어느 정도의 정보를 유추하느냐 하는 것은 데이터 과학자와 현업의 전문가가 함께 고민해야 하는 몫이며, 현재와 비교하여 충분히 빅데이터를 만들 수 있다고 본다.
 
상상력의 한계가 없듯이 빅데이터도 이러한 맥락에서 한계가 있을 수 없다. 손에 잡히는 빅데이터는 외부에서 구하는 것 보다는 내부적으로 만드는 것이 좀 더 효과적으로 실현 가능한 접근 방법이 될 것이다.
 
인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오