11.18
뉴스홈 > 칼럼
[기고] 빅데이터는 ‘데이터 정제’에서부터 시작된다알터릭스로 ‘No coding, No programming’ 실현

[컴퓨터월드]
   
▲ 이영선 넥스엔정보기술 대표

빅데이터(Big data)란 용어는 이미 일반화되어 사용되고 있다. IT 분야 종사자가 아니더라도 일반인 모두가 널리 사용하고 있다. 그만큼 우리가 사는 사회 모든 분야에 빅데이터가 활용되고 있으며 그 중요성이 강조되고 있다는 의미다.

빅데이터를 처리하는데 가장 먼저 하는 작업이 데이터 정제다. 데이터 정제는 모든 빅데이터 처리를 비롯한 데이터 사이언스(Data Science) 영역에서 첫 시작으로 매우 중요한 영역이다. 분석방법이 아무리 뛰어나더라도 분석에 사용되는 데이터의 품질, 즉 데이터 정제가 제대로 되지 않았다면 분석 결과가 왜곡되거나 다른 결론이 나올 수밖에 없다.

데이터 정제는 그러나 데이터 사이언스나 빅데이터 분야에서 그리 주목을 받거나 언급되지 않고있다. 중요성에 비해 소홀하게 다뤄지는 경향이 있는 것이다.

사실 데이터 사이언티스트(Data Scientist) 입장에서 보면 데이터 정제 영역은 본인들의 영역이 아니라고 생각할 수도 있다. IT부서에 잘 정제된 데이터를 생성해주면 이를 바탕으로 데이터 분석을 처리한다고 하는 이상적인 생각을 하고 있을지도 모른다.

그러나 데이터 정제 작업은 데이터 사이언티스트가 해야 할 일이며 데이터 사이언티스트가 해야만 데이터에 대한 왜곡 문제를 사전에 차단할 수 있다. 데이터 정제 작업은 단순하고 지루한 작업이다. 많은 데이터 사이언티스트들은 복잡한 알고리즘을 만들어 적용한 뒤 결과가 엉뚱하게 나오게 되면 그때서야 데이터 정제의 심각성을 깨닫게 된다.

현실에서 잘못된 데이터를 분석하여 나온 결과에 대한 책임은 데이터 사이언티스트에 있다. 그리고 잘못된 데이터를 분석으로 인해 나온 잘못된 결과를 사후에 파악하고 수정하는데 드는 비용, 시간, 인력은 사전 정제작업에 소요되는 것과는 비교가 되지 않는다.

데이터 사이언티스트에게 데이터품질을 관리하는 일은 달가운 일이 아니라 지루하고 어려운 일이다. 기술적인 면에서 DB 쿼리 랭귀지(Query language)를 기본적으로 알아야 하고 IT 전문가수준은 아니라도 IT적인 사고방식과 지식이 필요한 것은 사실이다.

데이터 사이언티스트에게 No coding, No programming을 제안한다면 매우 반가운 일이 될 것이다. 그리고 데이터 정제작업을 쉽게 처리하고 처리과정을 쉽게 보고 수정할 수 있다면 데이터 분석의 시간도 줄이고 보다 정확한 데이터 분석이 이루어 질 것이다.

   
▲ 알터릭스는 Data preparation, Data Blending, Data Analysis, Analysis and Data Share 등
데이터분석에 필요한 대부분의 기능을 가지고 있다.

여기에서는 알터릭스 디자이너(Alteryx Designer)를 통해서 데이터 사이언티스트가 받을 스트레스의 일부를 해소하는 방법을 제시해 보겠다. 알터릭스(Alteryx)는 미국에서 개발된 데이터분석을 위한 솔루션이다. 이 솔루션은 알터릭스 CEO가 강조하는 ‘Citizen analysist’라는 말에서 알 수 있듯이 비 IT인력이 프로그램(program)이나 코딩(coding)기술없이 데이터를 정재하고 분석할 수 있다. 알터릭스는 데이터분석에 필요한 대부분의 기능을 가지고 있다. 크게 나누면 Data preparation, Data Blending, Data Analysis, Analysis and Data Share이다.

데이터 정제는 Data preparation과 Data blending에서 다루는 부분이다. 알터릭스(Alteryx)와 같은 툴이 없을 경우 데이터 분석가들은 프로그램이나 SQL를 이용해 데이터를 정제한다. 앞에서 언급했듯이 데이터 분석가에게 이러한 코딩과 지루한 작업은 스트레스이기 마련이다. 알터릭스를 이용할 경우 이러한 스트레스 없이 얼마나 단순하게 처리가 가능한지를 보겠다.

일반적으로 데이터에 null 이 있고 이를 숫자필드는 null값을 ‘0’으로 처리하는 프로세스를 만들려면 데이터베이스(Data base)는 쿼리 랭귀지를 이용하고 텍스트 데이터는 프로그램을 만들어야 한다. 알터릭스(Alteryx)는 아래 그림과 같이 간단하게 처리 할 수 있다.

   
▲ 알터릭스를 이용하면 코딩작업 없이 데이터를 정제할 수 있다.

그림에서 알 수 있듯이 클릭 몇번과 간단한 조건문만으로 데이터정제가 가능해 멋진 기계 학습 알고리즘을 적용하기 전에 데이터 사이언티스트가 거쳐야 하는 아주 따분한 일을 없앨 수 있다. 그리고 복잡한 알고리즘을 적용한 후 말도 안 되는 답을 얻고 나서야 비로소 데이터 품질의 중요성을 깨닫는 실수를 범하지 않을 것이다.

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오