전용준 / 리비젼컨설팅 대표 / 경영학 박사

▲ 전용준 대표 / 리비젼컨설팅, 경영학박사

[아이티데일리] 2014년 한 해가 저물어가고 있다. 본의 아니게, 어쩌다 보니 빅 데이터와 관련된 행사와 강연에 많이 참여하게 되면서 “당신이 빅 데이터 전문가라면서? 대체 빅데이터가 뭔데?” 이런 류의 질문들을 무수히 받게 된 것이 사실이다. 한줄로 답해드리고 싶어도, 그게 그게 아닌데라고 할 수도 없고, 한 줄로 답을 그 자리에서 드릴 수 있도록 준비되어 있지도 않다는 곤란함을 많이 느꼈다.

이 글은 그런 질문들에 대한 나름의 답장이라고 생각한다. 최근에 지인으로부터 받은 질문이 대표적으로 그런 유형인데 내용을 요약해 보면 두 가지로 나누어진다.

 질문1: 대체 빅 데이터란 무엇인가? 용어정의 측면에서

 질문2: 국내에서 빅 데이터를 다루고 활용할 수 있는 조직은 어떤 곳이며 얼마나 있는가?

정의부터 살펴본다면, 가트너가 이야기하는 건수가 많고, 종류는 다양하며, 실시간으로 즉시 수집되고 처리되는 것을 빅 데이터라고 이야기하는 것에는 모두가 동의하는 것으로 보인다. 여기서 문제는 두 가지. 그 구분점이 없다는 것(참고로 유명한 데이븐포트 교수는 최근 저서에서 100TB가 넘어야 빅이라 할 수 있지 않겠는가 하는 견해를 보였다). 즉, 어디까지가 빅이고 어디부터는 빅이 아닌지는 각자 다른 주장을 하고 있고, 소위 다수설이란 것 자체가 존재하지 않는 다는 것이다. 또 하나의 문제는 세가지가 모두 빅이라야 빅인가 아니면 어느 한쪽만 빅이라도 빅인가의 문제이다. 역시 다수설도 없고, 그리 심각하게 고민하고 가려서 이야기하는 사람도 없는 것이 현실이다.

결국, 말하는 사람마다 서로 다른 빅을 이야기하고 있는 것이다. 대화도 소통도 가능하지 않은 상황이 된 것이다. 작년 정보화진흥원에서 발간한 빅 데이터 사례집에 보면 현대백화점의 CRM 조차 빅데이터 사례로 소개되고 있다. 현대백화점은 이동통신사처럼 많은 고객을 가지고 있지도 않으며, 대부분의 고객이 매일매일 데이터를 생성시키지도 않는다. 당연히 100TB의 데이터를 가질 이유도 방법도 없을 것이다. 그렇다면 빅이 아닌가? 누구 기준이 적절한 것인가?

개인적인 견해를 보탠다면 ‘빅 데이터’라 할때의 빅의 기준은 세가지 차원 중 어느 쪽이라도 비교적 크다고 볼 수 있는 경우에 모두 적용해도 바람직하다고 보는 것이다. 지금 이야기하는 빅은 아주 초기이고 서막에 불과하다. 십년만 지나면 얼마나 많은 새로운 데이터들이 실시간적으로 다양한 곳에서 생겨나고, 조직들이 그 데이터를 내부 및 외부로부터 수집하여 분석할 것 같은가? 지금의 모습, 전통적으로 주로 관리하던 것으로 한정해서는 이야기 거리가 되지 않을 것이다.

빅 데이터의 빅은 상대적인 개념, 즉, 과거와 미래를 비교하는 개념으로 여기는 쪽을 권하고 싶다. 앞으로 데이터는 많아지고 다양해질 것이고, 더 빠른 속도로 생산, 활용되며 그 속도는 점차 증가되는 사물들과 사람들간의 연결(Connection or Wiredness)에 의해 가속화될 것이다. 백화점이 더 이상 몇 달에 한번 만나는 고객의 영수증만 들여다 보고 고객을 관리하지 않게 될 것이고, 약국이 한 달에 한 두번 들리는 고객의 표정만 기록해서 관리하지는 않게 될 것이라는 이야기다.

이런 원론적인 정리는 물론 중요하지만, 현실에서 사용되는 ‘빅 데이터’라는 단어의 사용패턴을 보면서 짚어볼 몇 가지가 추가로 존재한다고 보인다.

그 대표적인 사례가 바로, 비정형 데이터에만 관심을 집중하는 유형이다. 대표적으로 각종 전자기기들이 실시간으로 상태에 대한 데이터를 생산한다. 대표적인 것이 바로 우리가 모두 들고 다니는 휴대폰이다. 컴퓨터도 온도계도 실시간으로 데이터를 생산한다. 모두 축적한다면 너무나도 방대할 이 데이터들은 기본적으로 정형화된 틀안에서 값을 만들어낸다.

소셜미디어로 대표되는 비정형 데이터가 빅 데이터의 원천의 다가 아니라는 점을 알고 있을 필요가 있다. 또, 자신의 업무에서 보지 못하는 다른 종류의 데이터를 한번 정도는 생각해봐야 빅 데이터에 대해 다른 이들이 이야기하는 다양한 정의에 대해 이야기할 수 있을 것이다.

한 예가 될 수 있는 부분이 바로 진료기록이다. 전국민이 아프고 병원을 가고 보험을 처리하며 처방전으로 약을 산다. 한번 병원가면 수많은 정형 데이터와 비정형 데이터가 발생된다. 혹시 무릎이 아파 CT라도 한번 찍게 되면 그 진료가 벌어졌다는 자체에 대한 정형화된 기록뿐만 아니라 사진 자체도 데이터로 남는다. 대표적인 비정형데이터이다. 그 때문에 건강보험공단과 심평원이 빅 데이터를 가지고 있다고들 이야기하는 것이다.

 

꼭 그런 유형의 특수한 조직에서만 빅 데이터가 발생되는 것은 아니다. 단지, 발생되고 축적가능한 데이터를 모두 포착하고 축적하지 않기에 많은 조직들이 그리 많은 데이터를 가지고 있지 않을 뿐이다. 작은 포장마차에서 조차 손님의 표정과 식습관, 나무젓가락이나 국물을 담을 종이컵을 활용하는 패턴을 디지털 데이터화 한다면, 당연히 분석을 통해 상품개발이나 마케팅, 물류 등 다양한 용도로 사용할 수 있을 것이다. 다만, 이 경우에는 그렇게 한다고 해도, 한 포장마차의 규모가 너무 작아서 100TB가 되는데 백년이 더 걸릴지 모른다.

비록 충분한 설명은 아닐지언정 이 정도의 자잘한 부연설명을 바탕으로 다시 원래의 질문에 간단히 답을 해보고자 한다.

질문1: 대체 빅 데이터란 무엇인가?
답: 건수든 다양함이든 속도든 이전 보다 양이 많아진 데이터 자체 또는 그에 대한 분석활동. 절대적인 구분 기준은 별 의미 없음

질문2: 국내에서 빅 데이터를 다루고 활용할 수 있는 조직은 어떤 곳이며 얼마나 있는가?
답: 어느 조직도 더 많은 데이터를 가질 수 있는 상황이므로 모두가 해당되지만, 그 사실을 알고 실행에 옮기고 있는 조직들은 주로 대기업들과 공공기관들, 그리고 일부 기술기업들로 한정되어 있음. 인식과 이해만 확산된다면, 다양한 형태로 모든 조직이 해당 되게 될 것.

과연, 빅 데이터의 정의에 대한 생산적이지 않은 논란을 각자 정리하시는데에 조금은 도움이 되셨는지 모르겠다.
 

저작권자 © 아이티데일리 무단전재 및 재배포 금지