11.15
뉴스홈 > 칼럼
[김동철의 블로그] Big Data: 데이터의 입장에서김동철 / 데이타솔루션 총괄본부 전무(공학박사)

 
   
▲ 김동철 / 데이타솔루션 총괄본부 전무(공학박사)

[아이티데일리] 매트릭스라는 영화를 보면 여러 차원의 가상현실이 등장한다. 또한 소설적인 발상으로 차원을 넘나들면서 지구를 침략자들과 숨막히는 추격전을 벌인다. 침략자들은 죽어도 계속 같은 모습으로 변하여 나타난다. 수 백 년 전에는 상상도 할 수 없었고, 수 십 년 전이라면 상상 정도는 가능했고 현재에는 상상 정도가 아니라 상당한 정도로 실현 가능한 일이 되고 있다. 그 이유는 모든 것이 데이터로 이루어져 있기 때문에 가능한 것이다. 하느님이 태초에 세상을 창조하셨지만, 인간들은 이것을 데이터로 재발견 하고 있는 것이다.

대학에서 수학을 배워본 사람들은 어떠한 집합에 속하는지 안 하는지를 알려면 연역법과귀납법을 총동원하여 객관적으로 설명이 가능한 사례를 들어서 증명을 한다. 또는 반대의 사례를 들어서 증명을 하기도 한다. 그런 식으로 데이터 집합을 가정하면 그 집합에 들어가지 않는 사례를 찾기 어렵다. 데이터로 이루어진 가상의 사람들이 사랑도하고 전쟁도하고 게임도 한다. 사람이 데이터로 이루어져 있으니 날아다니고 총알도 피하고 전지 전능한 입장에서 활약도 한다. 물리적으로만 강했던 슈퍼맨은 그냥 힘이 센 외계인일 뿐이다. 건물이나 도로를 달리는 자동차들도 데이터들이다. 영화 속에서 구체적으로 거론이 되고 있지는 않지만 자연 현상들까지도 데이터로 설명이 된다. 데이터관점에서 현실을 들여다 보면 어떠한 해석이 나올지 현실을 사례들을 재해석 해보자.

인간은 원래 자기 중심적이므로 인간들이 만드는 이론들은 인간의 관점이다. 역지사지의 방법을 취한다 해도 다른 사람의 관점일 뿐이다. 종교는 새로운 차원을 제공한다. 즉 신의 관점에서 세상을 재해석 하려고 하는 것이다. 인간세계에서 죄는 처벌의 대상이지만 종교에서는 용서의 대상이다. 그래서 죄를 지은 사람들이 다른 차원으로 이동하는 것처럼 매주 교회에 가서는 용서를 구하는 것이다. 그리고 나서는 용서를 받았다고 가정하고 다시 자기의 차원으로 돌아와 계속 죄를 짓는다. 내가 아는 하느님은 항상 용서하지 않는다. 계속 죄를 지으면 하느님은 경우에 따라 다양한 카드를 사용한다. 감기, 지독한 무좀, 불면증, 변비 등등은 가벼운 옐로우 카드다. 레드 카드로 퇴장명령을 발동하면 어떤 건지는 말할 필요도 없을 것이다. 데이터의 관점에서는 죄라는 데이터는 처리되어야 할 하나의 대상일 뿐이다. 신과 응징의 방법들도 전부 데이터들이다. 데이터를 누가 어떻게 쓰느냐 하는 것은 데이터를 이용하는 프로세스에 달려있다.

인간의 집합에서는 사칙연산이 어떻게 해석될까? 결혼하면 덧셈이고 이혼하면 뺄셈이 되는 것일까? 아이를 낳으면 곱셈인가? 나눗셈은 인간을 나누란 말인가? 신이 만든 피조물에 인간이 만든 연산을 가져다 대면 혼란이 온다. 실제로는 연산이라는 것은 무궁무진하게 다양한 것이며 이 것 또한 데이터를 다루기 위한 프로세스의 일종이다. 그렇다면 인간을 데이터로 표현할 수 있는가? 당연히 영화에서처럼 가능하다. 전문가적인 수준에 따라 인간을 데이터로 표현하는 차이가 있을 뿐이다. 정치인들은 인간을 유권자인가 아닌 가로 표현하고, 의사들은 정상인지 환지인지로 표현한다. 좀 더 구체적으로 들여다 보면 사람을 표현하는 데이터는 나이, 키, 몸무게, 팔 길이, 허리둘레 같은 신체 치수와 지방량, 혈액형, 건강 지수 등 같은 특수한 지표 그리고 각종 분야의 지식의 정도 등등을 포함한다. 이외에도 유전자 정보 같은 상상을 초월하는 세세한 분야의 데이터를 만들어 낼 수도 있다. 사람이 결혼하여 애기를 낳는 것은 데이터 세계에서는 데이터들간의 확대 재생산일 뿐이다. 그렇기 때문에 매트릭스에서는 성장과정을 무시하고 바로 똑 같은 인물들을 즉시 재생산해 내는 것이다. 인간들이 가진 병 중에서 조로증이라는 것이 있는데, 이것이 아마도 데이터적 측면에서 성장 시간을 단축하는 그러한 프로그램일 것이다. 더 나아가서 산 사람과 죽은 사람의 차이는 데이터를 만들어 내는 능력의 차이 정도로 보일 것이다.

현실에서 아픈 사람이 병원을 찾는 다면 병원에 들어서는 순간 그 사람은 데이터에 이상이 있는 객체라고 볼 수 있다. 환자를 특정 지을 수 있는 모든 데이터를 뽑아내고 데이터에 어떤 이상이 있는지를 의사들이 분석한다. 간에서 나온 자료가 이상한 소견을 보인다면 의사들은 사람 몸 속의 데이터를 정상 데이터로 바꾸려고 처방을 한다. 데이터를 살짝 바꾸어도 된다면 간단한 약물 치료를 한다는 의미이며, 데이터가 지나치게 변질되어서 새로운 데이터로 변환을 하여야 한다면 수술이나 장기 교환을 의미하는 것이다. 컴퓨터 바이러스도 데이터이고 이를 치료하기 위한 백신도 데이터다. 이미 현실에서 데이터가 데이터를 치료하는 상황이 발생하고 있는 것이며, 우리는 어느 틈에 그러한 일들에 익숙해져 가고 있다.

이러한 데이터의 세상에서 데이터인 인간이 데이터로 표현되는 다른 객체들을 분석하는데 있어서는 최근 갑론을박하는 빅데이터는 그다지 존재감이 커 보이지 않는다. 심지어 매트릭스라는 영화는 빅데이터 주장이 나오기 한참 이전에 나온 영화다. 추측 하건데 분석의 대상이 되는 데이터의 한계를 넓혀보자는 의도로 보인다. 실제로 데이터를 모으고 분석하는 상황을 들여다 보면 의도적으로 구하거나 자연적으로 발생하여 쌓이는 데이터의 규모에 비해 아주 적은 데이터만이 분석되고 있다. 그러한 상황에 대한 이유는 간단하다. 엄청난 양의 데이터를 분석해서 무엇을 얻을 수 있는지 알기 어렵기 때문이다. 의사가 환자를 진료해서 병명과 원인을 알아내고, IT 컨설턴트가 ISP(Information Strategic Planning: 전략적 정보 계획)를 수행해서 정보시스템의 방향을 제공 하듯이, 데이터도 들여다 볼 수 있는 데이터 사이언티스트의 진료가 필요하다. 상당수의 통계 전문가들이 배출되었음에도 불구하고 특수한 분야의 분석에만 매달려 큰 그림을 간과한 것은 갑과 을 모두의 실수로 의사가 환자의 말만 듣고 처방을 내리는 것과 같다. 분석 도구나 방법론도 필요하겠지만 이제는 차원을 넘어서 데이터에 좀 더 다가가고 데이터가 말하는 내용에 귀 기울일 때이다.

 

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오