12.10
주요뉴스
뉴스홈 > 칼럼
[김동철의 블로그] Big Data’ vs. ‘Bigger Data’

▲ 김동철 / 데이타솔루션 총괄본부 전무 / 공학박사


[아이티데일리]

Big Data vs. Bigger Data

 

김동철 / 데이타솔루션 총괄본부 전무(공학박사) 

몇 년 전부터인가 빅 데이터가 화두로 떠오르기 시작하며 IT 트렌드를 뜨겁게 선도하고 있다. 흡사 지난 정부에서 혁신을 이니셔티브로 삼고 나서 혁신이라는 단어를 지나칠 정도로 사용했던 때와 비슷한 느낌을 받고 있다. 당시는 작은 변화조차 혁신이라 표현해야만 시대의 흐름을 따라가고 있다는 안도감이 들 정도였다. 심지어 혁신이라는 이름이 안 들어가면 예산 받기도 어려웠다는 얘기조차 있을 정도였으니. 

요새는 창조경제의 시대를 맞아 ‘빅 데이터’가 과거 정부의 혁신 이니셔티브를 승계한 느낌이다. 그런데 너도 나도 빅 데이터를 이야기하는데 실상을 제대로 아는 사람은 별로 없는 것 같다. 필자가 생각하기에 거기에는 이유가 있어 보인다. 

빅 데이터 하면 무엇이 떠오르는가. 하둡? 인터넷 데이터? SNS 데이터? 아니다. 사실 아무것도 잘 떠오르지 않는다. 왜냐하면 빅 데이터 그 자체가 형용사적 의미의 개념이기 때문이다. 도대체 ‘얼마나 큰 데이터이어야 하는지’에 대해 감을 잡을 수 없기 때문이다. 

자연스레 수요자들은 빅 데이터를 주장하고 있는 IT 업체들이 의도한 대로 그들에게 의존하게 된다. IT 업체들은 이야기만 던졌을 뿐 본질적인 솔루션이나 경험은 아직은 사실 별로 없는 상태여서, 시장을 먼저 흔들어 놓은 다음 자기들이 가지고 있는 하드웨어, 소프트웨어들이 필요한 단계가 오기를 기다리기 마련이다. 음모론까지 꺼내기에는 다소 무리가 있겠지만, 빅 데이터가 갑자기 핫 트렌드로 등장하는 데에는 이처럼 시장을 창출해 보려는, IT 업체들의 몇 다리를 거친 전략이 숨어 있다는 사실을 알아야 한다. 

혼동할만한 실무자들을 위해 단어를 약간 바꾸어 보자. ‘비거 데이터(Bigger Data)’라고 말을 바꾸어 생각해 보는 순간 작은 단어의 변화지만 상당히 많은 부분이 머리 속에서 정리가 되는 것을 경험하였다. 현재 우리는 어느 정도의 데이터를 분석에 이용하는지, 얼마만큼의 데이터를 추가로 이용할 수 있는지, 그렇게 하는데 어느 정도의 비용과 시간이 들어 가는지, 그리고 그로부터 어떤 것들을 얻을 수 있는지 하는 것 등이다. ‘빅 데이터’는 스마트해지고 있는 IT 소비자들을 무력화시키려는 IT 업체들의 전략이라고까지 말하면 과언일까. 아무튼 소비자들은 ‘비거 데이터’로 이에 맞서야 할 것이다. 

하둡을 이야기하는가? 빅 데이터라고 하니 엄청 큰 데이터가 분석의 대상이 되고 하드웨어 의 비용이 걱정되니 하둡이라는 저가의 파일 시스템이 대두되었다. 새로운 기술이 대두되어 모두가 혜택을 보게 되는 것은 대환영이다. 그러나 빅 데이터가 절실하게 필요한 수요자는 어느 정도 규모를 갖춘 대기업이나 정부 정도이다. 그러한 기업들은 이미 상당한 수준의 IT시스템을 갖추고 있으며, CPU 사용률은 피크 타임의 경우를 대비하여 50%가 넘지 않도록 설계되어 있다. 더구나 빅 데이터의 업무가 기간 업무라기 보다는 정보계 업무, 즉 시간을 다투는 업무가 아님을 감안한다면, 현재의 IT 자원을 효율적으로 사용한다면 하둡 시스템은 2차적인 문제가 될 것이라고 생각한다. 

인터넷 또는 SNS가 빅 데이터의 대상인가? 그럴 수도 아닐 수도 있다. 국가적인 차원에서 위험요소를 찾아야 하는 문제는 모든 데이터가 대상이 되며, 작은 것일지라도 놓치지 않고 분석하는 궁극적인 자세가 필요하다. 그것은 빅 데이터의 차원을 넘어선다고 할 수 있다. 모든 데이터 또는 토탈 데이터 정도의 표현이 가능할 것 같다. 그 외의 빅 데이터는 가능한 큰 데이터에서 필요한 인사이트를 얻어보자는 것이므로 효율성 문제가 대두되게 된다. 

특정 제품에 대한 불만이 인터넷에 전반적으로 널려 있기는 쉽지 않다. 모든 인터넷 데이터를 뒤지는 것은 시간과 비용 문제에서 자유롭지 못하게 된다는 것을 의미한다. 더구나 요즘 트위터, 구글, 페이스 북 등에서는 그간에 축적된 자료 데이터들을 엄청난 가격에 팔기 시작하였다. 하지만 그 중의 95% 이상은 잡담이거나 상관없는 데이터일 가능성이 크다. 

그렇다면 빅 데이터 문제는 본질적으로 무엇인가? 대부분의 기업은 전체 데이터의 단지 몇 퍼센트의 데이터만을 분석의 대상으로 삼고 있으며 그 데이터는 업무상 자연적으로 얻어진 데이터들로 이루어져 있다. 빅 데이터의 목표를 달성하기 위해서는 자연적으로 얻어진 데이터에 인위적으로 얻을 수 있는 데이터를 더해서 분석을 하는 것이다. 빅 데이터는 통계분석측면에서 본다면 데이터가 좀 더 커지는 것뿐 별 것 아니다. IT는 잘 알지만 통계를 잘 모르는 사람들이 멋진 말로 시장을 들었다 놓았다 하는 것일 뿐이다. 

그렇지만 진정한 빅 데이터가 구축된다면 무슨 변화가 생길까? 국가적 차원에서는 DNA 자료의 분석으로 어느 지역에서 무슨 질병이 생길 것인지를 예측하여 개인별로 예방이 가능해지며, 여러 가지 목적으로 도로에 설치되어 있는 CCTV의 데이터를 분석해서 상시로 범죄차량의 수배 및 보다 정교한 통행량 예측이 가능해 진다. 

또한 개인의 내비게이션에는 지역별 공사현황 및 사고 현황이 실시간으로 추가되어 최적의 이동 경로를 계산하고, 차량에 필요한 실시간 서비스 정보를 제공한다. 4대강 공사 이후에 녹조가 많이 발생하였다고 하는데, 이는 빅 데이타 측면에서는 녹조에 영향을 미치는 요인을 찾기 위해 좀 더 광범위한 데이터를 활용해야 한다는 의미이다. 예를 들어 좀 황당할 수도 있겠지만 녹조의 증가는 해수면의 높이, 빙산 면적의 변화, 댐의 수문 넓이, 상류의 농사 유형, 4대강 주변의 인구 수 등으로부터도 영향을 받을 수 있다는 생각으로 데이터의 새로운 축을 넓혀야 한다. 

민간 기업 부문에서는 품질관리를 위해서 기존의 분석 기법에, 제조 장치의 실시간 품질 데이터를 더하면 좀 더 정교한 품질관리가 가능해 진다. 불량 발생시 즉각 라인을 세우고 기 발생된 불량품의 개수를 최소화하는 방향도 가능해 지고 있다. 빅 데이터의 의미를 진정으로 구현하는 것은 확장된 데이터와 통계분석 이외에 어느 정도의 창의성도 요구된다. 

빅 데이터에 영향을 받은 교수님들의 자발적인 빅북 활동은 참으로 창의적이고 학생들에게 진실한 교수의 열정을 전달하는 계기라 할 수 있다. 이에 반해서 고객의 소리를 직접적으로 듣지 않고 여러 경로로 간접적으로 듣고자 하는 기업들의 의도는 첨단 기술을 활용한 사생활 들여다보기와 같은 것이다. 

빅 데이터는 현상 파악을 정확히 하고 데이터가 표현하는 바를 제대로 들여다보기 위한 하나의 단면일 뿐이다. 꼭 필요한 데이터를 골라내는 데이터 컬렉션이나 더 중요한 데이터를 걸러내는 크리티컬 데이터도 함께 고민해야 하는 것이다. 

날로 현명해지고 있는 소비자들을 대상으로 새로운 시장을 만들어 내려는 공급자들의 전략도 날로 치밀해 지고 있다. 소비자들은 공급자의 의도에도 관심을 두어야 하겠지만 이와 동시에 학문적인 해석과 경제성을 고려한 실현 가능성도 함께 관심을 가져야 할 때이다.

 

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오