11.16
뉴스홈 > 칼럼
[김동철의 블로그] Big Data: 내부 데이터에 관심을김동철 / 데이타솔루션 총괄본부 전무(공학박사)
 
   
 
 
[아이티데일리] 빅데이터에 관한 자료를 접하던 중에 자료를 내부에 저장하는 것이 중요하다는 글을 보게 되었다. 물론 스토리지 관련 업체에서 올린 글이라고 생각된다.
 
그런데 아무리 장비의 가격이 떨어졌다고 하지만 얼마나 커질지 모르는 데이터를 기업 내부에 저장하려 한다면 무리가 없을 수 없다. 또한 빅데이터는 어느 특정 분야에서만 필요로 하는 것이 아니라 모든 분야에서 저마다의 목표를 가지고 추진되게 된다. 그리고 빅데이터를 수행함에 있어서 기업 외부에 존재하는 SNS등의 데이터를 이용하고자 한다면 큰 낭패를 겪을 가능성이 크다.
 
몇 가지 사례를 들어 설명해 보자. IT가 대두되던 초창기에는 하드웨어의 비용이 터무니 없이 고가였기에 경제성을 고려하여 꼭 필요하지 않은 데이터는 스토리지에 저장하지 말자는 경제논리가 우세하였고, 심지어는 GIGO(Garbage In Garbage Out)라는 말도 생겨 났다. 직역하면 쓰레기를 넣으면 쓰레기가 나온다는 말이다.
 
그런데 이제 하드웨어의 가격이 저렴해 졌다고 해서 쓰레기를 넣고 중요한 정보가 나오기를 기대하는 것은 지나친 비약이다. 국가 보안이 걸린 사항이나 경찰 수사에 필요한 정보를 얻기 위함이라면 사소한 것이라도 면밀히 들여다 보아야 하는 것이 당연하다. 그러나 이러한 경우에도 모든 자료를 국정원이나 경찰청에 가져다 놓고 분석하지는 않을 것이다. 어디에 어느 데이터가 있는지를 알기만 하면 필요한 정보는 실시간으로 가져다 볼 수 있는 세상이다.
 
세상의 유행이 빅데이터라고 해서 누구나 다 빅데이터스럽게 일 처리를 할 수 있는 것은 아니다. 작은 데이터도 제대로 이용하지 못하는 기업이 큰 데이터를 이용한다는 것은 누가 봐도 무리가 있어 보인다.
 
작은 데이터를 이용할 줄 안다는 것은 데이터가 커지고 다양해지더라도 방법적으로 수용할 수 있는 역량이 있다는 것이다. 실상 데이터가 작아 질수록 통계방법론에 필요한 수 많은 가정들이 대두 되며, 이에 따라 데이터의 자유도가 줄어드는 것을 감수하게 되면서까지 의미 있는 정보를 이끌어 내려는 시도를 하게 된다. 다시 말하면, 작은 데이터가 큰 데이터 보다 분석적인 면에서 보다 다루기 어렵다는 뜻이다. 따라서, 작은 데이터를 통해 이러한 역량을 쌓게 되면 빅데이터를 다룰 경우 훌륭한 기반이 될 수 있다.
 
지금까지 어느 데이터도 시스템적으로 이용해본 적이 없는 기업이 있다면 작은 데이터로 시작해서 활용하는 것도 그들에게는 빅데이터라고 할 수 있다. 장기적인 로드맵을 가지고 접근하는 여유를 가지는 것이 빅가비지(big garbage)를 만들지 않는 길이다.
 
SNS상의 데이터, 비정형 데이터, 보이스나 화상의 데이터 등을 어떻게 빅데이터로 처리할 것인가를 가지고 세상이 시끄럽다. 몰론 그러한 유형의 데이터가 폭발적으로 늘어난 것은 사실이고 모든 개인들이 그러한 데이터의 성장에 기여해오고 있다. 그러나 그런 데이터들은 애초부터 미래에 이용을 목적으로 한 것이 아닌 경우가 대부분이다. 습관적으로 데이터의 위치를 밖에서 찾으려고 하면 어려운 문제에 봉착하게 된다.
 
이런 경우에는 역지사지의 방법을 도입하는 것이 뜻밖의 결과를 가져다 줄 수 있다. 기업의 내부를 자세히 들여다 보는 것이다. 나에 대한 정보는 내 안에 제일 많이 들어 있다. 기업에서 그간에 만들어 놓은 데이터는 컨설팅 업체가 가이드하고 SI 업체가 프로그램 해놓은 대로이다. 실제로 데이터는 기업내부에 다양한 형태로 존재한다. 아직 우리가 데이터라고 부르기에는 원시적인 수준으로 존재하기 때문이다. 그것은 장비 속에 디지털 또는 아날로그 형태로 존재할 수도 있고, 직원들의 머리 속에 아이디어나 경험으로 존재할 수도 있다. 방대한 양과 중요도 측면에서 엄청난 가치가 있는 이러한 데이터를 방치하고 외부로 눈을 돌리고 있는가? 참으로 안타까울 뿐이다.
 
가까운 사례를 들어보자. 대개 인사부 중역들은 신입사원 선발에 상당한 노력을 기울인다. 신입사원들은 서류심사, 시험과 면접 점수를 합해서 선발된다. 최종선발에 이용되는 데이터는 응시자가 제공한 데이터뿐이다. 합격자와 인사부 중역의 고민은 그 다음부터이다. 합격자들은 막상 취업해 보니 배치된 부서의 업무가 본인의 적성과 잘 맞지 않아 고민이고, 인사부 중역은 합격 후에 위와 같은 이유로 이탈하는 자원을 줄여야 한다.
 
이를 내부의 자료를 이용하여 빅데이터스럽게 해결해 보자. 신입직원을 보충해야 하는 부서에서 충성도를 가지고 수 년 동안 근무한 우수한 직원의 수식적인 모델을 만들고, 그 모델에 따른 응시자들의 점수를 산정하여 신입사원을 뽑아보자. 그렇다면 합격하는 인적 자원들이 어느 정도 달라질 것이고, 업무의 적합도 향상과 회사를 중도에 이탈하는 비율을 줄이는데 기여할 것이다.
 
또한 품질 관리를 함에 있어서 지금까지는 완제품의 표본 조사 또는 상황에 따라 전수 조사를 해왔다. 그렇지만 품질 관리에 영향을 미치는 회사 내부의 모든 프로세스를 망라하는 모델을 만들 수 있다면 빅데이터 품질관리가 될 것이다. 그렇게 하자면 제품에서 나오는 데이터에 더하여 공정 과정에서 관계된 데이터를 함께 수집하여 분석하는 것이 필요해진다. 생산라인의 수명 데이터, 원료의 투입 비율 데이터, 공정 시간 데이터, 포장 품질 데이터 등등 상당히 방대한 데이터가 분석되기를 기다리고 있다.
 
엔지니어링 관점에서 본다면 피드백 시스템을 가동해서 문제점을 찾아내고 개선해 나가는 일련의 프로세스를 반복하는 것이 필요한데, 여기에 예를 든 바와 같은 빅데이터 접근 방법이 적절히 구사된다면 상당한 정밀도를 구현할 수 있을 것이다. 이는 효율적인 엔지니어링의 차세대라 할 수 있을 것이며, 함께 대두되고 있는 서비스 엔지니어링 분야와 연결되어 소비자의 데이터까지 망라하는 총체적인 빅데이터 모델의 구현이 가능하리라 생각한다.
 
아무리 기술이 발전하고 장비의 가격이 저렴해 진다고 하더라도 빅가비지를 만들어 내는 시도는 시간과 돈의 낭비이다. 기본으로 돌아가서 차분하게 한 단계 도약할 수 있는 저마다의 빅데이터 필요성을 도출하고 우선 내부적인 모델을 만들어 보는 것이 필요하다.
 
인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오