오해와 혼란에 대한 극복 사례, 그리고 당면 과제들

▲ 전용준 리비젼컨설팅 대표/경영학 박사
[컴퓨터월드]

무엇이 빅 데이터인가? 그렇다면 스몰 데이터는 또 무엇인가?

빅 데이터 분야 최고의 석학으로 꼽히며, 프로세스 혁신(Process Innovation)이라는 개념의 창시자이자 현재 전세계 3대 경영전략가로 칭송 받는 토머스 데이븐포트(T. H. Davenport) 교수조차 자신의 저서에서 “빅 데이터라는 단어 자체가 많은 오해를 양산할 수 있는 가능성이 있기에 처음에는 사용하기를 망설였다”는 사실을 고백하고 있다.

이와 함께 데이븐포트 교수는 빅 데이터라는 개념이 성립하려면 그 반대편에 대비될 수 있는 스몰 데이터 개념이 명확해야 된다는 점도 이야기하고 있다.

필자는 이 지점에서 빅 데이터의 개념을 되짚어 보기를 제안한다. 빅 데이터의 목표는 무엇이며 우리가 빅 데이터라는 단어를 사용해서 새로운 논의를 해야만 하는 동기는 대체 무엇인가? 그리고 빅 데이터라는 단어가 주는 환상과 꿈은 어떤 식인가?

‘Data Scientist: The Sexiest Job of 21st Century라는 글을 발표하며 전세계를 데이터 사이언스 열풍에 몰아 넣었던 파틸(D. J. Patil)은 최근의 현상에 대해 데이터만 빅이고 정작 이에 대한 분석은 스몰(Big Data Small Math)이라고 일침을 가한다. 머리가 퇴화된 수준의 공룡 이미지가 떠오르지 않는가?

빅 데이터가 약속하는 것은 실제로 크게 두 가지 모습으로 구분될 수 있을 듯 하다.

하나는 개개인의 특성에 맞는 맞춤형 제안을 한다는 것, 나머지 하나는 텍스트, 오디오, 비디오 등 구조화되지 않은(Unstructured) 비정형적인 데이터로부터 전체적인 구조나 패턴을 보여준다는 것. 이 과정에서 과연 우리는 진정 매우 큰 데이터를 가지고 있는가? 그리고 그것이 꼭 필요한 것인가?

 

스몰 데이터의 장점들

그렇다면, 그 반대방향에 있다고 할 수 있는 스몰 데이터는 어떤 장점을 가지고 있는가? 몇 가지 장점을 나열해 보면 다음과 같다.

● 쉽고 간단하다(Easy and Simple)
● 빠르게 분석할 수 있다(Quick)
● 관리가 용이하다(Manageable)
● 선택이 가능하다(Selectable)
● 효율적이다(Efficient)

그렇다면, 이제 이즈음에서는 빅과 스몰을 구별하는 세가지 차원들(양, 다양성, 속도)을 들여다 볼 필요가 있다. 그리고 그 중 다양성의 중요성에 대해서도 생각해볼 필요가 있다. 세가지 차원들을 동시에 고려한다 치면, 그 안에서 경계선을 구별하기가 그렇게 쉬울까? 과연 어디까지가 빅이고 어디부터는 스몰인가에 대한 통일된 기준을 정할 수 있겠는가?

▲ 세가지 차원을 동시에 고려하여 빅과 스몰을 구분하기

▲ 데이터와 분석, 가치로 연결되기 용이한 조합은 무엇인가

세 가지 차원들 중 특히 주목해야 할 차원은 바로 다양성이다. 특히 최근 공공데이터 개방이라는 범국가적인 차원의 활동들이 벌어지고 있는 상황에서 더 이상 조직이 내부에 보유하고 있는 데이터만을 사용해서 분석해야 할 이유가 없어졌다. 다양한 내용을 담은 수많은 데이터들이 공개되고 있고, 수집과 분석을 용이하게 해주기 위한 장치들이 개선되고 있다.

비록 각각의 데이터들은 집계가 되어 있는 상태로 공개되고 있기 때문에 때로는 A4 한 장에 들어갈 분량의 매우 작은 데이터이지만, 하나의 분석 대상 주제와 관련된 수십 수백 가지 자료들을 쉽게 수집할 수 있는 환경이다 보니, 이들의 조합(Mash up)은 세가지 차원 중 다양성이라는 부분을 충분히 충족하고도 남음이 있다. 결국 스몰 데이터의 결합은 빅 데이터(최소한 다양성 차원에서는)로의 변신이 된다.

그러한 예를 단적으로 보여주기 위해 올해 개최된 R 사용자그룹 컨퍼런스에서는 <비키니>라는 여름에 어울리는 키워드에 대한 관심 추이를 예측하는 모델을 개발하는 사례를 준비해 공개한 바 있다.

▲ 비키니 관심 추이 예측 분석을 위한 다양한 데이터의 결합 활용 사례

비키니에 대한 관심을 예측하기 위하여, 통계청의 포털과 네이버, 구글의 검색지수를 결합하고, 수백개의 파생변수(Derived Variable)들을 생성, 그 수많은 변수들 중 중요한 예측변수들을 최근 주목 받고 있는 랜덤 포리스트(Random Forest) 기법을 활용하여 선정한 후 다변량 회귀분석 방법으로 예측을 실시하는 방식이 적용되었다.

선정된 변수들 중 대표적인 것을 들어보면, 통계청의 생활물가지수, 선글라스에 대한 검색지수 등이었다. 이 간단해 보이는 사례에서 조차 개방된 공공데이터와 인터넷 검색 데이터들이 접목되었으며, 이전에는 상상조차 가능하지 못했던 수준의 다양성을 소화한 것이다.

그러나 그렇다고 해도 여전히 그 사이즈(Volume)는 엑셀 한 페이지를 넘지 않는 수준이었다. 이는 우리가 막연히 페타바이트의 사이즈를 자랑하거나 그에 놀라는 것이 아니라, 실질적으로 유용한 결과를 얻기 위해 어떤 데이터를 어떻게 가공해나가야 하는가를 보여주기 위한 연습 문제였다.

 

스몰 데이터를 잘 사용한 실전 사례들

스몰 데이터는 빅 데이터가 아니기 때문에 오히려 어디에서나 흔히 사례를 발견할 수 있을 것이고 나열하기 시작하면 수백만 가지를 이야기할 수 있을 터이지만, 그 중 떠오르는 몇 가지 실전에서의 사례를 들어본다. 이 사례들이 가지는 유일한 공통점은 실제로 주어진 업무에서 활용될 수 있는 내용의 정보를 제공한다는 것뿐이다.

▲ 스몰 데이터 활용의 실전 사례

● 딜로이트 컨설팅의 인력관리(HR) 분석
: 인력관리를 위한 보상 수준에 대한 정책 수립을 위해 성과와 보상, 만족도간의 관계를 분석

● 국내 대형마트의 개인화된 종이 할인쿠폰
: 고객멤버십 카드와 결합된 POS 데이터를 분석하여 고객 개인별 취향과 가능을 고려한 맞춤형 상품제안 할인 쿠폰을 제공

● 건강보험심사평가원의 진료경향모니터링
: 개별 상병별 진료비 미래 추이를 전체 상병에 대해 예측. 정책적 대응을 위한 참고자료 확보

과연 이들이 규모가 매우 크기 때문에만 유용한 분석결과를 만들어 낸 것인지, 또 트위터의 빅(?) 데이터를 사용했기 때문에 중요한 결론을 만들 수 있었던 것인지를 심각하게 생각해 봐야 한다. 결국 중요한 것은 세가지 V 그 자체가 아니라 마지막 V이며 가장 중요한 V, 즉 가치(Value)이다.

맹목적으로 데이터 양이나 속도 등에 관해 고민하는 것은 적절하지 않다. 오히려 그 고민에 투자할 시간과 노력을 데이터와 분석간의 균형을 이루는데, 그리고 그로부터 주어진 업무가 더 잘 본래의 목적을 달성할 수 있도록 고민하는데 투자하는 것이 훨씬 더 쓸모 있는 일일 것이다.

 

스몰 데이터를 120% 활용하기 위한 방법과 고려사항

그렇다면, 스몰 데이터로부터 더 큰 가치를 얻어내기 위해서는 어떤 방법을 사용해야 할 것인가? 그리고 어떤 사항들을 고려하면서 스몰 데이터에 대한 깊이 있는 분석 작업을 수행할 것인가?

단순히 데이터가 작고 단순하다고 해서 바로 유용한 결과로 이어지는 것은 아니다. 불필요하게 많은 데이터를 확보하는 데만 시간을 버리지 말아야 하는 것일 뿐이다. 일단, 어떤 문제를 데이터를 활용해서 풀 수 있는가를 검토하는데 노력을 집중한 후에는 다음의 세 가지 사항을 실행에 옮겨야 한다.

(1) 큰 문제를 잘게 쪼개서(즉, Segmentation) 관리 가능한 수준의 작은 문제로 변형하라

(2) 중요성, 용이성, 긴급성, 투입소요자원, 근본적 제약이라는 다섯 가지를 고려해서 우선순위를 결정하라. 조직의 특성과 상황적인 필요에 따라서 이 항목들간의 상대적인 가중치는 조금씩 달라져야 할 수도 있다. 그러나 대부분의 경우에서 이 모두가 동시에 고려되어야 한다. 한번에 모두를 소화해야만 하는 것은 아니므로 우선순위가 높은 문제부터 풀어나가는 것이 현실적이다.

(3) 한번의 실패는 훈련으로 간주하라. 데이터를 활용해서 분석하는 것은 미리 정해진 답을 놓고 문제를 푸는 것과는 다르다. 실패과정에서 얻어지는 부산물은 어떤 다른 문제를 풀어야 하며, 어떤 다른 방식으로 분석해야 하는가와 같은 수많은 값진 교훈들을 준다. 스몰 데이터일수록 빠르게 경험을 축적하고 새로운 접근방법을 부담 없이 도입할 여지는 많다.

이 글을 통해 ‘빅 데이터’라는 막연하고 추상적인 단어에 집착하고 있었던 사람이 있었다면 조금은 현실적인 관점도 경험할 수 있었기를 기대한다. 그러나 글을 쓰는 이가 스몰 데이터를 주창하면서 빅 데이터에 대해 회의적 시선을 가지고 있다거나, 빅 데이터라는 단어 자체가 사라지기를 바란다고 오해하지는 않았으면 한다.

스몰 데이터를 이야기하는 이유도 스몰 데이터에 대해 설명하기 위해 쓰여지는 이 글도 결국 이 스토리 전체가 빅 데이터를 향한 진보의 일환이라고 여겨야 하며, “스몰은 무시하는 빅 이라는 것의 허황됨”을 지적하기 위함에 한정되어 있는 것이라는 본래의 의도가 이해되기를 바란다.

분명한 것은 이 시점에서 대한민국의 정부도 기업들도 빅 데이터에 거는 기대가 매우 크다는 점이다. 부존자원이 제한적인 땅에서 디지털 환경을 빠르게 수용하는 국민들 덕분에 가능한 기회, 그리고 상대적으로 다른 국가에 비해 유리한 인프라가 구성되어 있는 상황에서, 주어진 기회를 최대한 활용해서 창조적인 돌파구를 찾아내고자 하는 마음은 남녀노소를 불문하고 대부분의 사람들이 가진, 진정성 있는 것으로 보인다. 이때야말로 보다 구체적이고 현실성 있는 활동이 요구되는 시점이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지