빅 데이터 붐의 오해와 혼란

▲ 전용준 리비젼컨설팅 대표/경영학 박사

[컴퓨터월드]

2014년 빅 데이터, 무엇이 걱정거리인가

빅 데이터라는 단어는 이미 초등학생들도 들어 보았을 만큼 대중화되었다. 이렇게 확산되는데 걸린 시간이라고 해봐야 겨우 이삼년 정도 밖에는 되지 않는다. 그러나, 마냥 새롭기만 하지도 않을 뿐 더러, 장미빛의 미래로만 보이지도 않는다. 그렇다면, 대체 누가 무엇을 하고 있으며 어떤 우려사항들이 존재하는가?

물론, 빅 데이터에 대해 많은 사람들, 특히 전문적인 공부를 하거나 많은 시간을 투자해서 관련 서적과 자료들을 들여다 보지 않은 사람들은 편안하게 빅 데이터가 무언가 거창하고 미래지향적인 것이라는 단순한 이해를 가지고 있는 경우가 대부분이다. 그러나, 그렇기 때문에 더 걱정스러운 상황이다. 이런 단순한 이해를 바탕으로 얻어진 지지가 잘못되거나 엉뚱한 방향으로의 빅 데이터 투자를 부추기는 상황으로 연결되기 때문이다.

그렇다면 어떤 내용들이 잘못된 인식이며 문제를 일으킬 수 있는 걱정거리인가를 먼저 나열해본다.

▶ 빅 데이터는 무언가 새로운 데이터를 사용해야 가능한 것이라는 생각
▶ SNS 데이터(특히 개방형 SNS인 트위터)와 빅 데이터가 같은 것이라는 생각
▶ 데이터만 있으면 되지 분석(특히 고급분석 Advanced Analytics)이 빅 데이터에서 중요하다는 것을 인식하지 못함
▶ 과거 내지는 최근에 대한 단순집계만 있으면 충분한 것이라는 생각
▶ 시각화가 분석의 끝이라는 생각
▶ 상용 제품(패키지 내지는 솔루션) 도입이 빅 데이터의 전부라는 생각
▶ 하드웨어와 IT 기반 구조만 달라지면 빅 데이터라는 생각

이러한 일련의 문제점들 내지는 오해들이 바로 스몰 데이터의 역습(Strike Back of Small Data)을 논하게 하는 결정적인 이유이다. 스몰 데이터 자체에 대한 논의는 천천히 하기로 하고 우선은 이 오해들이 어떤 내용이며 의미를 가지고 있는지부터 살펴본다.

빅 데이터는 무언가 새로운 데이터를 사용해야 가능한 것?

첫째로, 빅 데이터와 관련되어 가장 납득되지 않는 부분이 바로 빅 데이터라는 이름을 붙이기 위해서는 무언가 새로운 데이터를 사용해야 가능한 것이라고 생각하는 점이다. 빅 데이터는 특히 데이터양의 증가에 대한 현상을 설명하기 위한 용어 그 이상도 이하도 아니라는 점을 오해하기 하기 때문에 이런 이상한 강박관념이 생기는 것 아닐까?

이미 또는 업무 특성상 오래 전부터 대량의 데이터가 실시간으로 포착되고, 다양한 데이터들이 결합되고 있는 성격의 조직들이라면(예를 든다면 신용카드사나 슈퍼마켓 체인), 어떤 새로운 데이터가 추가되면서 갑자기 빅 데이터가 아니던 (즉, Non-Big) 데이터가 빅 데이터로 바뀔 수 있겠는가.
실제로 모 공공기관의 예를 들어 보면, 이미 다양한, 그리고 매우 방대한 정형과 비정형 데이터를 보유하고 있던 이 기관은 수년 전부터도 가능한 많은 데이터 분석을 실시해왔다. 그러나, 빅 데이터라는 새로운 제목에 부합하기 위해서는 무언가 새로운 데이터를 추가해서 새로운 결과를 내 놓아야 하는가를 고민하기에 이른 것이다. 과연 이 고민이 적절한 것이었을까? 이 기관은 전국민의 의료기록이라는 너무나도 큰 데이터를 가지고 있기에 그 처리와 분석을 위해 필요한 하드웨어, 소프트웨어, 인력을 투자하는 것 자체도 늘 어려움을 겪고 있는 상황이었는데 말이다.

결국 이 기관은 외부 전문가들과 함께하는 수시간에 걸친 심각한 자문회의를 통해 불필요한 고민이었음을 확인하는 과정을 거치게 되었고, 더 이상은 이런 문제를 고민거리로 남겨두지 않게 되었다. 현실적으로 빅 데이터라는 단어는 데이터를 방치해 두고 있거나, 확보 가능한 데이터를 축적하지 않는 유형의 조직들이 데이터 활용의 중요성을 자각하기 위해 필요한 단어이다.

SNS 데이터(특히 개방형 SNS인 트위터)와 빅 데이터는 같은 것?

다음으로, 매우 위험하기도 하고, 수많은 사람들이 이미 사로잡혀있는 착각이 바로 SNS 데이터(특히 개방형 SNS인 트위터)와 빅 데이터를 동일시하는 것이다. 이런 류의 생각들은 특히 뉴스기사들을 통해서 쉽게 접하게 된다. 아래는 그런 표현들 중 일부이다.

"SK플래닛이 지난 16일 발표한 빅데이터 트렌드에 의하면, 올해 다수의 시민들은 ‘휴식’보다는, 새로운 것을 추구하고…"

"최근 세월호 참사와 관련한 트위터 빅데이터를 분석한 결과 '정부', '눈물', '분노' 같은 키워드가 많이 등장한 것으로..."

이 대목에서 눈 여겨 봐야만 할 추세 중 하나가 바로 개방형 SNS가 퇴조하고 페이스북 등 폐쇄형 SNS가 대세가 되어가고 있다는 점이다. 누구나 의견을 이야기하고 느낌을 말할 수 있다는 점에 큰 기대를 모았었던 것이 사실이지만, 실제로는 개방형 SNS는 전체 SNS의 극히 일부만을 차지하고 있는 것이 이미 2014년 현재의 상황이다. 대표적인 개방형 SNS의 예라고 할 수 있는 트위터는 이미 정치계와 기업의 홍보물로 도배되어 있으며, 누구나 들여다 보는 곳에서 개인적인 이야기를 솔직하게 하기를 꺼리는 일반인들의 심리가 작용하여 일반 개인들이 커뮤니케이션에서 활용도가 매우 낮아져있는 상황이다. 그 결과, 전세계 사용자의 트윗량을 모두 모아봐야 하루 2억 건에 불과하다. 전세계에서 하루 얼마의 신용카드가 승인되는가와 비교했을 때 과연 2억 건을 새로운 '빅' 데이터라고 부르는 것이 어울리겠는가. 게다가 이런 추세는 앞으로 더 심해질 것으로 전망된다.

▲ 페이스북과 트위터 관심도 변화 추이 (출처: [구글 트렌드] Twitter, Facebook 검색지수(전세계). 기간 – 2006.11~2014.04)

대중의 실질적인 관심을 나타내는 구글 트렌드 검색지수의 추이를 그림을 통해 비교해 보면 절대적으로 페이스북에 대한 관심이 트위터의 그것에 비해 높으며, 트위터에 대한 관심이 되살아날 것으로는 보이지 않는다. 이는 특정한 목적을 가지고 데이터를 분석하는 경우에서 트위터가 제공할 수 있는 데이터 량이 많을 수 없음을 의미한다. 단적인 예로 '빅 데이터' 라는 키워드로 몇 년간의 트윗을 모두 수집해 봐야 십만건 미만 수준 밖에는 되지 않는다.

데이터만 있으면 되나…고급분석은?

다음으로 이름 자체가 빅 '데이터'이다 보니, 데이터만 있으면 무엇이든 다 되는 것으로 착각하고는 그 다음 단계인 분석(특히 고급분석 Advanced Analytics)을 어떻게 하는가가 빅 데이터에서 중요하다는 것을 생각조차 하지 않는 것도 흔하다. 데이터는 결코 스스로 어떤 의미를 전달하거나 의사결정을 할 수가 없다. 그것을 가공하고, 요약하는 처리작업에 의해 의미가 결정되고 의사결정을 지원할 수 있는 정보로 바뀌는 것이다. 아무리 많은 그리고 다양한 데이터가 있다고 해도 그 변환을 어떻게 하는가가 그 데이터의 가치를 결정한다.

과거나 최근의 단순집계만 있으면 충분하다?

이와 연관되는 문제로 과거 내지는 최근에 대한 집계정보만 있으면 충분한 것이라는 착각도 있다. 오늘 많은 사람들이 로맨틱 코미디 영화를 관람하는 패턴을 데이터를 통해 확인했다고 치자. 내일은 어떤 영화가 인기를 끌 것인가? 그것이 오늘의 패턴과 동일할 것인가? 만일 내일은 월요일이고, 오늘은 일요일이었다면? 월요일에 영화를 볼 사람들은 일요일의 구성과는 크게 다를 수 밖에 없지 않겠는가? 이런 사소한 예가 왜 우리가 예측을 필요로 하는가를 단적으로 보여준다. 작년 여름에 수박이 많이 팔렸다는 사실은 농민들에게 중요한 정보가 되지 못한다. 이번 여름에 어떤 가격으로 얼마나 팔릴 것인지가 중요한 정보가 된다.

시각화가 분석의 끝이다?

한편 시각화가 분석의 끝이라는 생각도 심각한 문제점이 되고 있다. 빅 데이터 바람이 불면서 특히 주목 받고 있는 분야인 시각화는 어떤 문제와 관련된 수많은 고려 요인들을 사용자의 입맛에 맞도록 자동적으로 나열해주고 단순화시켜 보여주는 강점을 가지고 있다.

그러나, 각종 솔루션 공급자들이 시각화를 집중적으로 강조하는 데는 그런 특성 이외의 나름의 계산과 논리가 깔려있는 것이다. 시각화는 복잡한 계량적 분석에 비해서 많은 수의 사용자들이 자신의 업무를 위해 사용하고 싶어할 수 있는 항목이기 때문에, 쉽게 제품을 판매할 수 있으며, 큰 규모의 판매가 쉽게 일어날 수 있다. 또 전문적인 데이터 분석에 대한 이해나 경험이 없는 경영진도 쉽게 이해하고 (올바른 것인지는 모르겠지만) 구매를 결정할 수 있다. 바로 여기에 함정이 있다.

쉬운 것이 잘못된 것도 아니고 시각화는 전문 분석가이든 업무 전문가이든 간에 무관하게 데이터를 분석하는 과정에서 큰 도움을 줄 수 있는 것이 사실이지만, 시각화가 데이터 분석의 마지막 단계도 아니며, 시각화된 결과물 자체가 직접적으로 어떤 결정을 의미하는 것도 아니라는 점을 분명히 기억해야 한다. 또 시각화가 누구나 사용하기 편한 만큼 전혀 엉뚱한 결론이나 분석을 과학적이고 체계적인 것으로 오해시키기에 딱 좋은 장치라는 점, 즉 약일 수도 독일 수도 있는 특성을 기억해야 한다.

상용 패키지나 솔루션, HW나 IT 인프라 도입이 빅 데이터다?

상용 제품(패키지 내지는 솔루션)을 도입하면 빅 데이터 도입이 완성된 것이라는 착각도 문제가 된다. 또 하드웨어와 IT 기반 구조만 달라지면 빅 데이터라는 생각도 심각한 문제이다. 기존의 데이터웨어하우스 외에 추가로 하둡을 도입했으니 이제 우리는 빅 데이터를 하고 있는 것이라고 자평하는 식의 경우를 흔히 볼 수 있다. 이런 경우는 하둡이 적절한 상황인지에 대한 제대로 된 검토도 없는 경우가 많다.

2014년 여름 현재, 지금의 이 땅에서의 빅 데이터에 대한 관심은 공공 부문에서의 활동이 절반 이상을 차지한다. 이는 SK텔레콤이 실시한 분석에서도 확인된 바가 있다(2014년 7월 투이컨설팅 주최로 열린 이그나이트Y 세미나 참조). 이는 정보기술과 관련되어 이전의 어떤 새로운 개념이나 패러다임이 등장하는 시점에서도 흔히 볼 수 없었던 특이한 현상이다. 그 자체는 문제가 될 일이 아니겠지만, 앞서 나열했던 여러 가지 오해가 깔려있는 상황에서 공공부문의 빅 데이터 열기가 뜨겁다는 점이 문제를 일으키고 있는 것이다.

특히, 각종 지방자치단체들이 앞다투어 구체적인 방향성과 결과에 대한 검토도 없이, 또 연관된 지자체간 긴밀한 상호 연계나 공조도 없이(예를 들면, 서울과 경기도 간 광역버스를 효율화하려면 데이터의 통합 수집 및 분석은 필수적이다), 대규모 일자리 창출을 약속하면서 빅 데이터 사업을 추진하고 있는 것이 현상이다.

공공데이터의 개방과 빅 데이터(사실은 트위터 분석 수준)를 통해 어떤 일자리가 얼마나 대체 만들어질 수 있겠는가? 과연 일자리가 만들어진다고 해서 양질의 일자리일 수 있겠는가? 국민의 피눈물과도 같은 혈세가 아무런 가치도, 가능성도 없는 사업에 집중 투입되고, 예정대로 얻어지는 결과는 없는 황당한 상황이 불을 보듯 뻔하게 전개되고 있다는 사실은 실로 개탄하지 않을 수 없는 일이다.

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지