김동철 / 데이타솔루션 총괄본부 전무(공학박사)

 

▲ 김동철 / 데이타솔루션 총괄본부 전무(공학박사)

[아이티데일리] 빅데이터 시대에 살면서 아직도 집계 수준에 머무르고 있는 사례들을 수없이 봐왔다. 수준 있는 통계를 구현하고 깊이 있는 통찰력을 제공하기 위하여 엄청난 예산을 들여 프로젝트를 했지만 결과물은 스프레드 시트 기반의 집계와 약간의 계산일 뿐이다. 그나마도 조금 복잡하게 만들어진 것들은 세월이 지나면서 시스템 이해도의 저하와 와 그에 따른 사용률의 감소로 새로운 비용 발생의 요인을 제공한다. 복잡한 분석이 아니더라도 일차적인 데이터에 대한 통계적인 시각을 제공한다면 고도의 분석 요건은 저절로 발생하기 마련이다. 이러한 통계적 궁금증을 자아내는 작지만 소중한 분석들에 대해 알아보자.

원시 데이터는 그 자체만으로 분석을 하기에는 무리가 따른다. 대표적인 경우가 특이치나 이상치가 포함되어 있는 경우이다. 이는 부자연스러운 데이터가 내재되어 있다는 것이며 이를 포함하여 다른 연산을 한다면 또 다른 특이치를 만들어 내기 때문이다. 초등학교에 다니는 학생의 키의 평균을 알고자 할 때 이런저런 사정으로 고등학생 정도의 학생이 늦게 초등학교에 다니고 있다면 어찌할 것인가? 이런 학생의 데이터는 빼고 계산하는 것이 옳다. 이 학생은 다른 초등학생들과 나이 또래가 같지 않기 때문이다. 그러나 같은 또래의 유난히 키가 큰 학생이 있다면 이야기는 달라질 수 있다. 이런 경우에도 신중하게 접근해야 한다. 그 학생의 키가 전체 집단의 분포를 왜곡시키냐 아니냐가 관건이 될 수 있다. 조심스럽게 다루는 경우라면 그러한 이상치를 넣은 경우의 분석과 별도로 처리한 분석의 두 가지 경우를 함께 검토하는 것이 바람직하다. 하물며 빅데이터의 경우는 제약조건이 없는 경우에서 생성된 것들도 있을 것이므로 기본적으로 데이터를 분석할 수 있는 상태로 만드는 과정에 상당한 노력을 기울여야 할 것이다.

데이터를 모으기 위해서 설문지를 이용하는 경우도 연구 및 통계 전문가적인 검토를 반드시 거쳐야 한다. 어느 설문지의 문항은 긍정문과 부정문이 섞여 있어서 설문의 의도를 제대로 알 수 없는 경우도 있고, 동일한 의도를 상반된 질문으로 측정하여 신뢰도를 떨어뜨리는 경우도 허다하다. 이 경우는 동일한 척도에서 제일 높은 점수에 표시한 내용이 완전히 반대의 의미를 나타내서 요인분석과 같은 고도의 분석을 진행할 때 어려움을 겪을 수 있다. 비용은 분기별 데이터이고, 매출은 월별 데이터라면 함께 분석이 가능한가? 이러한 경우는 비용과 매출은 그 자체로 각각의 시계열 분석이 가능하고, 함께 분석을 해야 한다면 데이터가 적은 쪽으로 맞추어 분석하는 것이 가능하다.

어디든 빠지지 않는 분석이 상관 분석이다. 두 변수의 간의 관계가 어느 정도인지를 알아보는 상당히 중요한 척도이다. 우리나라의 지역별 소득과 지출의 상관 관계를 알아보고자 전국민의 자료를 수집하였다. 수학적 공식에 따라 계산된 상관계수가 의미를 가질까? 물론 아니다. 지역별로 상황이 다를 수 밖에 없다. 도시와 농촌의 경우에 소득에 따른 지출 구조가 같을 수가 없다. 또한 소득과 지출에 미치는 다른 영향이 반드시 존재한다. 가족의 수, 어머니의 소득 수준 그리고 자녀들의 나이 등등이 한 가구의 소득과 지출에 어떤 식으로든 영향을 미치게 되어 있어서, 이러한 영향을 제거한 순수 소득과 지출의 상관 관계를 알아보는 것은 상당히 중요하지만 자주 간과되는 절차이다. 이것을 편상관계수라고 하는데, 일반적인 상관계수만을 가지고 관계를 파악하는 것과 반대의 결과를 가져오는 경우도 종종 발생한다. 데이터를 추가해서 반대의 결과를 보인다면 이것이 보다 진실에 가까울 것이며 과학적인 접근 방법에 한발 더 다가선 모습이라 할 수 있다.

쉬운 방법일수록 함정이 많은 법이다. 통계 좀 배웠다고 하는 사람들이 좋아하는 분석 방법 중에 회귀분석이 있다. 최근에 출판된 서적들에는 각종 응용 회귀 사례들이 즐비하다. 그러나 10여년 전에 만 해도 초창기의 회귀 기법들에 의존한 분석들이 허다했다. 단순한 직선을 좋아했다는 것이다. 데이터들을 그림으로 그려보면 곡선의 형태인데도 굳이 직선으로 표현하려 했다는 것이다. 과격한 말로 데이터 강간이라고 표현하고 싶다. 공간상에서 물렁물렁하고 자유로운 데이터를 평면상의 직선으로 표현하려는 시도는 데이터의 자유를 강탈하고 데이터가 원하는 방향의 예측보다는 대부분의 사람이 긍정할 수 있는 보편적이면서도 보다 덜 정교한 예측을 권유한다. 도메인의 구간별로 여러 개의 직선으로 표현하거나 곡선적인 성격을 가진 데이터 변환을 이용한다면 더욱 정교한 예측력을 보여줄 수 있을 것이다. 현대의 데이터들은 보다 복잡하고 다차원적인 성격을 가짐으로 한번에 모든 것을 해결하는 방법 보다는 다소 수고스럽지만 손이 더 가는 방법이 적합하겠다.

통계적 추론에는 자유도라는 생소한 전문용어가 따라다닌다. 전체 데이터를 가지고 분석을 하면 자유도는 최대치가 될 것이나, 표본을 가지고 분석하거나 전제 조건이 많아 질수록 자유도는 줄어든다. 조건이 많으면 데이터가 자유롭지 못하다는 뜻이다. 자유도를 희생하면서도 정교한 예측을 할 수 있다면 엄청난 경쟁력을 가진다. 즉, 적은 데이터로 만족할 만한 추론을 이끌어낼 수 있다는 뜻이다. 그러나 그렇지 못한 경우가 대부분이므로 객관성 확보를 위해 데이터를 추가로 확보하는 작업이 필요하게 된다. 빅데이터로 가는 길이다. 진실로 접근하는 과정은 비용이 들게 마련이다.  들어간 비용 대비 가치의 양이 얼마나 되는 지가 투자의 배경이 된다. 아무리 데이터가 충분히 확보된다고 하더라도 위에서 열거한 데이터를 바라보는 시각과 기본적인 통계의 활용이 바탕이 되지 않는다면 원래 데이터가 말하고자 하는 진실을 거꾸로 말하는 우를 범하고 말 것이다. 최악의 상황을 생각해 본다. 통계적으로 무장이 덜 된 분석가가 영향력 있는 기관에 들어가서, 적은 데이터를 가지고 분석하여 국가적 중대정책에 영향을 미치게 될 경우에 피해는 엄청날 것이며, 부담은 바로 국민에게 돌아갈 것이다. 수학과 물리학 같은 기초학문이 뛰어난 국가에서 원자 폭탄을 만들듯이 빅데이터나 분석 부분에서도 시간이 걸리더라도 기초를 튼튼히 하는 것이 국가적 우를 범하지 않고 결국 앞서가는 길이다.
 

저작권자 © 아이티데일리 무단전재 및 재배포 금지