09.24
뉴스홈 > 칼럼
[김동철의 블로그] Big Data : 유효한 데이터김동철 / 데이타솔루션 총괄본부 전무(공학박사)

 
   
▲ 김동철 / 데이타솔루션 총괄본부 전무(공학박사)

[아이티데일리] TV프로그램에 보면 인기 연예인들을 대상으로 빅데이터 분석을 해본다고 하면서 인터넷상의 연관단어 분석을 표로 만들어서 보여준다. 어느 연예인이 누구와 관련이 되어 있고 특정한 사건과 관련이 있다고 사람들과 언론이 인터넷상에 이야기하는 것들을 모아서 하나의 도표로 보여주는 것이다. 이러한 내용들은 굳이 그러한 분석을 하지 않아도 조금만 관심이 있으면 알 수 있는 것들이며 빅데이터로 포장해서 최신의 트랜드를 보여주기 위함에 지나지 않는다. 그 정도만 해도 시청자들에게는 놀라운 반응을 이끌어낼 수 있다. 아쉬운 점은 한 단계 더 나가서 차트가 가지고 있는 내용이 추가적인 분석으로 보여지지 않고 진행자들의 이야기로 채워지고 있다. 연예계에서 사용되는 빅데이터는 그 정도 일 것이다. 그러나 그것이 뉴스라면 경우는 달라진다. 상당한 수준의 데이터와 수준 있는 분석을 기반으로 하여 보도 자료를 만들어야 할 것이다.

어차피 빅데이터라는 것도 문제를 해결하기 위한 방편이므로 무엇이 문제인지를 알고 이것을 해결해 나가는 방편의 하나로 빅테이터적인 접근을 해야 할 것이다. 문제 자체를 빅데이터적으로 접근해서는 시작이 잘 못된 것이다. 빅데이터와 다소 거리감이 있다고 하더라도 문제는 고유의 성질을 가진 것으로 존중해 줘야 하며 해결방안으로서의 빅데이터적 접근이 바람직하다고 생각한다. 빅데이터적인 문제를 만들려고 애쓸 필요 없다는 것이다. 이외 사례로 몇 가지 오래된 문제들을 생각해 보자. 뉴스에 자주 나오는 화재들로 생태계 교란에 대한 문제들이 몇 가지 있다. 외래 어종인 배스들이 토종 물고기의 씨를 말리고 있다. 애완용인 청거북이를 방류하여 물가의 무법자가 되었다. 큰 쥐로 불리는 뉴트리아가 한국 전역에서 농작물에 막대한 피해를 주고 있다 등등의 뉴스들은 시간을 가지고 정확인 데이터를 모아서 분석해야 할 중요한 과제들이다.

하천의 생태계 교란이라는 주제를 해결하기 위하여 전국의 하천을 관리하는 공무원 분들이 주기적으로 어종을 관리하고 있다. 물속에서 일어나는 물고기들의 세계를 좀 더 면밀히 관찰하기 위해서는 National Geography나 Discovery같은 민간 단체나 관련 과학자들의 면밀한 연구가 필요하다. 이 문제를 체계적으로 파악하기 위해서는 실험계획법적인 접근으로 데이터를 모이야 할 것이다. 모든 하천에서 구간별로 물고기를 채집하여 종류별 개체 수를 측정하고 시간이 지남에 따라 개체 수의 변동을 측정하여야 할 것이다. 국토 해양부 직원들이 수시로 물고기 잡으러 다닐 수도 없고, 물고기 살리자고 현황 파악하는데 원리 원칙 대로 하다간 국가 예산이 남아나지 않을 것이다.

이 문제를 해결하기 위해서 빅데이터적인 접근 방법을 생각해 보자. 우선 지역별 초중등학교의 도움을 구하는 것이 좋겠다. 초중등학교들은 모든 지역에 산재해 있으므로 균형있는 자료가 모아질 수 있을 것이다. 초중등학교의 자연 실습중의 하나로 하천의 생태계 조사라는 프로젝트를 진행한다. 학생들은 과학교사와 함께 특정월에 물고기를 잡아서 개체 수를 파악한 후에 자료를 모은다. 이러한 내용을 일년에 몇 차례 반복하면 분석할 만한 자료가 구해지게 된다. 이것 만으로는 빅데이터라 하기에 아직 부족하다. 하천 주변에 살고 있으면서 어업을 생계로 하는 주민들에게도 어로행위 시에 잡은 물고기의 종류별 개체 수를 기록하도록 하여 자료로 쓸 수 있어야 한다. 또한 정부도 일년에 한번 정도는 대표적인 몇몇 곳의 하천에서 물고기 개체 수를 측정하는 인수센서스 같은 행위를 하여야 한다. 이미 하고 있겠지만 하는 정도를 좀더 심화하여 진행해야 한다는 의미 있다. 예를 들어 호수의 물을 모두 빼고 조사 해본다든지 하는 스케일로 말이다.

데이터를 만들어 내는 방법과는 별도로 데이터를 한곳에 모으는 방법도 강구하여야 할 것이다. 위에서 만든 데이터들이 학생들의 리포트 용지에, 정부의 보고서에 그리고 지역 어민들의 경험 속에 녹아 있는 상태의 데이터로서는 분석하기가 불가능하다. 이러한 목적을 가진 인터넷 포털을 만들어 모두 함께 사용함으로써 데이터가 축적이 되어 간다. 잠자리채로 곤충을 채집하듯이 포털이 특수한 목적의 데이터를 채집하는 것이다. 이렇게 해서 모아진 데이터들은 사막에서 바늘 찾듯 단순 연관어 검색으로 모아온 빅데이터와는 품질이 크게 다를 것이다. 데이터가 모일 수 있는 구심점이 있고 이미 어느 정도 데이터가 형성되어 있다면 관련된 데이터는 저절로 그리로 모이는 관성을 가지게 되어 있다.

물고기 개체 수만을 가지고 어떠한 결정을 한다는 것은 일차원적은 분석이 될 것이다. 하천은 주변 환경이나 기후 등에 민감하게 반응한다. 토종 물고기들이 감소한다면 외래종인 베스의 출현과 더불어 환경적인 변화도 함께 고려해 봐야 한다. 기후에 대한 자료는 이미 잘 기록되어 있고 예측도 상당히 정확해졌다. 그러나 물속에 산소 요구량 이나 미세 원소의 함량 등의 자료는 거의 없는 것이 현실이다. 모든 하천에 구간별로 센서를 설치하고 필요한 자료를 모아서 물고기들이 살고 있는 환경변화에 대한 데이터 또한 모아야 할 것이다.

이러한 절차를 거친 데이터로 분석한 결과는 상당한 신뢰도를 가진 의미 있는 결과를 제공한다. 전국 하천의 베스를 비용을 들여서라도 잡아야 하는 건지 아니면 우리의 토종 물고기들이 새로운 천적이 나타난 상황에서 생존력을 키워가고 있으므로 좀 더 두고 봐야 하는 건지 토종 물고기 입장에서는 생사의 기로를 결정하는 엄청난 결정을 하여야 한다. 데이터가 정확하지 않고 신뢰도가 떨어진다면 국가적인 노력과 비용이 들어가는 결정을 하기에 어려움이 따른다. 사람들은 말로 글로 행동으로 의사전달을 함에 어려움이 없다. 하천의 생태계가 우리에게 어떤 신호를 보내고 있는지 최대한 정확히 알아내야 가려운 곳도 긁어주고 생존의 문제 해결해 줄 수 있다. 물 속이 살기 어려워지면 물 밖도 살기 어려워지는 법이다. 빅데이터적인 방법으로 당면한 문제를 해결하지는 취지는 너무도 현실에 와 닿는다. 그러나 제대로 계획되고 얻어진 데이터가 아니라면 문제 해결과는 동떨어진 데이터를 분석하는 결과로 이어지게 된다. 문제 해결에 유효한 데이터를 모으기 위해서 들어가는 수고로움은 아무리 더해도 지나치지 않은 법이다. 
 

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오