09.23
뉴스홈 > 칼럼
[전용준의 IT마당] 대한민국 빅데이터는 바른 길을 가고 있는가?전용준 박사 / 리비젼컨설팅 대표

   
▲ 전용준 박사 / 리비젼컨설팅 대표

지난 주 코엑스에서 진행되었던 한 세미나에서 필자는 이 땅의 빅 데이터가 제 길을 가고 있는가에 대한 진단과 걱정을 담은 이야기를 진심을 채워서 청중들에게 전했다. 물론 개인적인 판단일지는 모르겠으나 너무 많은 오해와 너무 많은 방황이 가득해 보이기 때문이다.

과연 우리는 어디 정도에 서 있는가?
요즈음 빅데이터와 관련해서 신문기사를 채우고 있는 키워드들을 보면 공공기관과 지자체들의 빅 데이터 센터 창설이나 교육과정 개설, 통신사, 음원유통채널, 내비게이션 서비스 등 컨텐츠 사업자들의 맞춤형 정보제공, 건강보험관련 데이터의 개방, 그리고 여전히 하둡 플랫폼과 기술 같은 것들이 주된 내용들이다.

영화 컨텐츠를 추천해주는 왓챠(watcha.com)과 같은 맞춤형 개인화 기술을 적용한 모바일 앱의 기술적 완성도를 보면 기술적으로도 이 땅위의 기술이 아주 초기 수준은 넘어선 것으로 보인다. 제법 그럴 듯하게 그리고 편안한 인터페이스로 서비스를 제공해주고 있다.

온라인 유통기업들이 데이터를 축적하고 분석하여 마케팅을 수행하는 것이 보편화되고 이를 위해 데이터를 버리지 않고 상당히 오랜 기간에 걸친 데이터를 보유하는 것으로 방향을 잡아가고 있다.분명 실질적으로 '빅 데이터'라는 패러다임이 우리에게 다가온 것으로 보인다.

그런데 왜 무엇을 우려하는가?
사실대로 심정을 이야기한다면 우려가 매우 크다. 여러 가지 측면에 대해서 우려스러운 심정이다. 그중 몇가지를 지난 세미나에서 요약해서 언급했었다. 이 글은 짧은 시간동안 군살을 붙여 설명하지 못했던 아쉬움에 적어보는 보강판이다.

첫번째 우려는 공공분야에서의 빅 데이터 강박관념이다. 너무 서두르고 있다는 것이 걱정이다. 공공분야에서 데이터 개방을 추진하고 개방된 데이터를 범국가적으로 연결시켜 분석도 하고 민간이든 공공이든 새로운 활동으로 이어간다는데야 누가 반대하겠는가.

오히려 쌍수를 들어 환영할 일이다. 그러나 당장, 올해안에 가시적 성과를 내야한다는 강박관념은 적절해 보이지 않는다. 급하게 서두르려다 보니 쉽게 획득가능한 소셜미디어 데이터에 집중적으로 눈을 돌리고 있지만, 사실 공공분야의 데이터와 결합해서 활용하는데 소셜미디어로 부터 양산되는 데이터는 그 적절성(relevance)이 클리가 없다.

관세청이 밀수를 방지하는데 소셜미디어가 어떤 기여를 크게 할 수 있겠는가? 게다가 최근 트렌드가 개방형 SNS 보다는 폐쇄형 SNS 중심으로 이용자들이 몰려있고(주: 조선일보의 최근 관련기사 참고), 주고 받는 메시지의 양과 질(특히 사람들이 속마음을 드러내는가의 측면) 모두에서 폐쇄형 SNS의 가치가 커져가고 있는 것이다 보니, 이 상황이라면 트위터와 같은 매체로부터 사람들의 생각을 읽는 작업이 근본적인 한계에 봉착할 수 밖에 없다.

쉽고 빠르게 겉으로 드러나는 것을 만들어 내려고 하는 선택이지만, 진정으로 일자리 창출에 도움이 될 일인가를 묻지 않을 수 없다. 물론, 수많은 기관과 지자체들이 독자노선을 걷고 있는 것도 매우 심각한 문제이다.

단일 플랫폼을 구축하여 비용은 최소화하고 연계가능하도록 해서 시너지를 높이고, 남은 비용과 노력은 질적으로 컨텐츠와 서비스의 개선에 투입하도록하는 것이 정상적인 사고 아닐까? 한편 공적자금을 동원해서 SNS 분석 정도할 수 있는 초급 분석가들을 양성해서 빅데이터 전문가라고 자격증을 주면 그들에게 일자리가 생겨날 수 있겠는가?

그것도 지자체 별로 경쟁적으로 말이다. 우리가 진정으로 지향해야하는 창조와는 너무나 거리가 먼 부분에 돈과 힘이 집중되어있지는 않은지가 우려스럽다.

둘째로 소셜미디어에서 생산되는 데이터가 빅 데이터의 전부가 아니라는 점에 대해 이해하지 못한 경우가 많다는 점이다. 공공과 민간을 막론하고 아직도 무엇이 빅 데이터인가 과연 우리가 빅 데이터를 가지고 있는가에 대해 기초적인 이해도 없이 그저 SNS (사실은 트위터와 블로그, 뉴스 정도)를 분석하는 것이 빅 데이터라고 생각하는 사람이 많다.

이런 상황을 부추기는 것이 낮은 이해도 위해 생산되는 수많은 뉴스 보도 들이고 정부 역시 앞장서서 이런 흐름을 유도하는 느낌이다. 우리는 이미 닷컴 버블이 깨지면서 많은 젊은이들을 방황에 몰아넣었고, 게임산업의 퇴조로 인해 많은 창의력있는 젊은이들의 경력을 단절시킨 아픈 경험을 가지고 있다. 그러나 그런 아픔으로 부터 아무런 교훈을 얻지 못한 것이 아닌 것인지 참으로 우려스럽다.

세번째 우려는 빅 데이터를 말하지만 분석도 예측도 거의 빼놓은 상태로 이야기들이 되고 있다는 점이다. 데이터는 그저 데이터일 뿐이다. 아무리 많이 모아둔다고 해도 분석하는 사람이 없다면 아무 의미가 없다.

분석이 없다면 아무 것도 실행할 수 없고 가치라는 것은 나올 수가 없다. 분석의 일부이고 한 종류인 예측의 중요성도 잊어서는 안될 것이다. 과거 데이터를 많이 모아놓았으니 사람들이 알아서 그것을 바탕으로 예측하라는 식의 발상은 황당하기 그지 없다.

어제의 욕망을 읽었다고 해도 우리가 분석해야할 대상은 바로 내일 또는 다음달이다. 내일은 어제와 상황이 다를 수 밖에 없다. 씨는 봄에 심지만 수확은 가을에 한다. 주말을 즐겁게 보냈지만 내일은 월요일이다. 데이터가 보여주는 과거의 사실은 미래에 대한 예측을 위한 참고자료가 될 때 의미가 있는 것이다.

더 많은 우려들이 있으나, 우선 생각나는 마지막 우려는 많은 교육과정이 생겨나고 있으나 구체성도 깊이도 명확한 방향도 없이 양적으로만 늘어날 뿐이라는 점이다.

빅 데이터 전문가 내지는 데이터 과학자를 양성한다는 명목하에 벌어지고 있는 이 교육과정들은 대체 누구를 누가 가르쳐서 어떤 사람을 만들겠다는 것인지 이해가 가지 않는다. 데이터 사이언티스트 한 사람을 양성하기 위해 어느 정도의 시간과 노력이 필요할 것인가에 대해 깊은 고민을 해본 것일까?

데이터 사이언티스트가 어떤 분야들에 대해 역량과 경험을 가져야 실전을 수행할 수 있는지에 대해서 검토해 본 것일까?
그들을 양성한다면 그들에게 제공할 일자리가 국내 시장안에 충분한 만큼 존재하는지에 대해 숫자를 헤아려 본 것일까?
또, 과연 데이터 사이언티스트나 빅 데이터 전문가(specialist)를 양성할 수 있는(장기간의 실전 경험과 박사급의 이론적 지식을 바탕으로 가르칠 수 있는) '사범'의 풀이 존재나 하는가에 대해 고민해 본 것일까?
미취업자들을 구제하기 위해, 소셜미디어 데이터를 이미 정형화된 툴을 사용해 분석하는 정도의 기초 능력을 갖춰주는 것이 '양질의' 일자리 창출에 어울리는가?
2~3주간 R을 배우는 정도로 바로 취직이 되거나 스타트업을 만들 수 있겠는가?

그래서 대책은 무엇일까?
문제만 있다고 생각할 수는 없다. 그리고 얼마간의 혼란과 시행착오는 새로운 개념의 도입과정에서 일상적으로 겪는 문제점일 뿐일 수 있다. 그러나, 불필요한 방황으로 인해 혈세를 너무 많이 낭비해서도, 하필 이 시점을 살아가고 있는 젊은이들을 희생시켜서도 안될 것이다.

대책은 이미 지적한 문제점들 안에 그대로 들어 있다고 보인다. 공공분야에서의 빅 데이터 투자가 좀 더 긴 호흡을 가지고 이루어져야한다. 엄격하게 심사하고 충분히 검토하고 타당성이 보이는 작업들을 시험적용을 거쳐 확대시켜야 한다.

조금 더 천천히 가는 것이 진정 국민들을 위하는 길이고 양질의 일자리를 실제로 더 많이 늘리는 길이다. SNS이외에 더 중요한 데이터를 활용할 방안을, 이미 분석에 사용하고 있는 데이터를 더 잘 분석할 방안에 더 많은 관심과 노력을 기울여야 한다.

단순 집계나 알록달록한 화면 그리기가 아닌 분석, 그것도 예측 모델링을 포함한 고급분석(Advanced Anlytics)에 대한 공부와 적용이 강화되어야 할 것이다. 그리고 마지막으로, 좋은 선생님들의 확보와 양성을 교육과정을 만드는 것 보다 먼저 실행에 옮겨야 한다.

대학교수들이 해외 연수를 갈 수 있도록 주선하고, 방학기간을 통해 국내외 실사례들을 분석해서 역량을 키울 수 있도록 대학과 정부가 지원하는 사업들이 필요하다. 해외의 뛰어나 실전 경험자들을 한시적으로라도 초빙해서 국내에 전반적인 지식 수준을 높일 수 있는 구체적인 프로그램들이 많이 기획되고 진행되어야 한다.

국내의 경험자들의 경우에는 교육과정에 나설 시간이 없다는 문제도 있다. 시간이 없다는 것은 과정 진행에 참여 해봐야 본인과 소속된 조직 입장에서는 본래 하던 일을 하는 것에 비해 경제적 실익이 없다는 것을 의미한다. 이 문제를 해결하려면, 강사료를 높이면 된다. 매우 단순한 경제원리이다. 십만원짜리 강의 100개보다 백만원짜리 강의 하나가 필요한 시점이다.

대한민국의 빅 데이터 방황은 오늘 보고 있는 이 정도만 해도 충분히 빅하다. 이제 그 빅 방황도 마무리할 시점이 되지 않았는가?

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오