09.20
주요뉴스
뉴스홈 > 칼럼
[전용준의 IT마당]빅 데이터 시대의 연금술사, 데이터 사이언티스트는 무엇을 하는가

▲ 전용준 박사 / 리비젼컨설팅 대표

[아이티데일리] 빅 데이터의 시대. 그 데이터를 분석할 데이터 사이언티스트가 필요하다는 이야기를 많이들 한다.
 
뛰어난 프로그래밍 능력과 수학적인 두뇌 그리고 세상을 꿰뚫어 보는 혜안과 언변까지 많은 것을 데이터 사이언티스트가 해 줄 것으로 기대하고 있는 것이 사실이다. 

데이터 사이언티스트는 실제로 무엇을 해야 하며 어떤 부분에서 어려움을 겪게 될까?

오랜 동안 데이터 분석을 업으로 살아오면서도 아직까지 스스로 데이터 사이언티스트라고 자신 있게 이야기해본 적이 없는 입장에서 데이터 사이언티스트가 가지게 될 특성을 생각해 본다.

<그림>은 구글 트렌즈에서 ‘love’와 ‘money’ 라는 두 개 키워드를 가지고 검색한 수치를 가져온 것이다. 쉽게 기술적인 면에서만 본다면 그저 구글로부터 데이터를 추출해오고, 그 것을 그래프로 그려내는 것으로 작업이 간단하게 끝나는 듯 하다.

그려진 그래프를 보면서 love가 money 보다 많이 검색된다는 정도의 단순한 이야기를 하는 것이 평이한 결론이 될 것이다.
 


▲ 구글 트렌즈의 ‘love’와 ‘money’ 검색 추이(2013년 10월 30일 기준)

그러나, 우리가 기대하는 데이터 사이언티스트의 역할은 그 것 보다는 좀 더 심오한 것일 것이다. 우선 검색량이 서로 다른 두 개의 시계열 추이의 패턴을 비교할 수 있도록 스케일부터 조정해야 할 것이다.

<그림>의 두 개 시계열은 이미 그런 조정을 마친 모습을 가지고 있기에 패턴을 비교해서 시각적으로 이해할 수 있게끔 되어 있다.

다양한 데이터의 패턴을 서로 비교가능 하도록 조정하여 그 안에서 관계에 대한 정보를 끌어낼 수 있도록 한 것이다. 여기까지는 기술적인 경험만으로 충분할 것이다.

데이터 사이언티스트는 기술적인 작업 그 자체의 전후에 대해서도 역량을 필요로 한다.

근래에 누군가가 이야기한 Discover-Access-Distill, 줄여서 DAD 라고 하는 개념은 데이터 사이언티스트가 해야 하는 일들을 매우 잘 요약해서 표현해준다.

예제로 든 love와 money에 대한 검색이라면, 왜 하필 이 키워드들에 대해서 관심을 가지고 왜 분석을 하려고 하는가를 판단하는 것, 분석 결과가 의미하는 바는 무엇인가를 밝혀내고 그 분석의 가치와 그 정보를 사용할 사람들에게 무엇을 전달할 것인가를 생각해내는 것이 Distill에 해당하는 과정이다.

일단 이 내용에 대해 탐구하기로 했다면 어떤 곳에서 어떤 데이터를 가져올 것인지를 찾아내는 것이 Discover에 해당하는 과정이 될 것이다.

구글에서, 트위터에서 아니면 공공통계에서 필요한 데이터를 파악했다면 실제로 그 데이터를 가져오기 위한 작업을 하는 것은 Access에 해당한다.

이러한 전체 과정은 상당히 여러 번 반복적으로 이루어지면서 데이터의 의미와 시사점을 점점 더 다듬어진 형태로 만들어 내게 된다.

<그림>으로 돌아가 보면, 때로는 사랑에 대한 관심이 때로는 돈에 대한 관심이(이전에 비해서 상대적으로) 증가하는 시기가 있다. 이 패턴으로부터 그 시기의 사람들의 심리적인 또는 물리적인 상태에 대한 힌트를 포착해내야 한다.

만일 새로운 상품이나 서비스를 개발하고자 하는 사람이라면 이 특성으로부터 그 시기에 맞는, 변화하는 상황을 반영하는 상품과의 관계를 찾아내기 위한 추가적인 분석을 가미하면서 매우 중요한 힌트를 얻어내게 될 수도 있다.

예를 들어 최근 들어 사랑에 대한 관심이 돈에 대한 관심보다 더 높다는 패턴을 찾았다면 기존의 서비스에 대한 경제적인 혜택 보다는 감성적인 혜택을 더 강조하도록 서비스를 개편하거나 홍보내용을 변경하는 식의 아이디어를 낼 수도 있을 것이다.

하지만 데이터의 패턴만으로 의미를 해석하는 일은 그리 간단하지만은 않다. 사람들이 돈이라는 단어보다 사랑이라는 단어에 관심이 많아진다는 것은 반대로 경제 상황이 나빠진다고 느끼기 때문에 이를 보상하기 위한 것일지도 모른다.

심리적으로 그런 상태라면 오히려 약간의 경제적인 혜택에 더 직접적인 반응을 보일지도 모른다.

이와 같은 가설은 무수히 만들어질 수 있을 것이며, 이를 실제로 어떤 업무에건 활용하고자 한다면 다양한 테스트들이 필요할 것이다.

황당한 소설이 아닌 설득력 있고 타당한 논리를 찾아내기 위한 끝없는 Discover-Access-Distill의 과정이 반복되고 여기에 테스트까지 가미되는 활동이 데이터 사이언티스트의 일상이다.

데이터 사이언티스트를 연금술사로 칭한 이유는 바로 이런 특성 때문이다.

지치지 않는열정으로 끝없는 탐험을 해나가는 일은 결코 쉽지도 않고 항상 장미 빛의 결과를 얻게 되는 것도 아니기 때문이다. 때로는 한줌 흙을 황금으로 오해하고 환호할 수도 있다.

운이 좋은 날엔 작은 보석 한덩어리를 찾아낼 수 도 있다. 어쩌면 엉뚱한 이름을 붙일지도 모르지만. 데이터 사이언티스트들은 마치 연금술사들이 오늘날의 과학을 있게 했듯 그 과정에서 황금도 다른 보석도 아닌 또 다른 무언가를 찾아낼지도 모른다.

빅 데이터와 데이터 사이언티스트와 관련해서 우리는 그런 가능성에 희망을 가지고 있는 것이다.

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오