[기획특집] 데이터 전처리가 분석 결과 좌우한다

‘셀프 서비스’ 대세…필요성에 대한 인식 부족

[컴퓨터월드] 데이터 분석을 위해서는 그에 적합한 데이터가 필요하며, 이를 확보하기 위해서는 충분한 데이터 전처리(Data Preparation) 과정이 필수적이다. 그러나 국내에서는 데이터 전처리를 데이터 분석 과정의 일부로 여길 뿐, 별도의 기술과 솔루션이 필요하다는 점에 대해서는 인식이 부족한 실정이다. 국내에서 전문적으로 데이터 전처리 기술을 제공하는 기업과 BI솔루션을 제공하는 기업을 대상으로 데이터 전처리에 대해 알아봤다.

분석을 위한 기본
쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)는 것은 데이터 분석의 기본 전제다. 올바른 분석 결과를 얻기 위해서는 올바른 데이터를 입력해야하므로, 우수한 분석 알고리즘을 설계하는 것만큼이나 충분히 가다듬어진 데이터를 확보하는 것이 중요하다. 고도의 분석 기술과 올바른 절차를 따르더라도 정제된 데이터가 확보되지 않으면 왜곡된 분석결과가 나올 수 있으며, 이는 데이터 분석에 대한 신뢰도를 떨어트림과 동시에 잘못된 의사결정을 유도함으로써 경제적·사회적 비용을 발생시킬 수 있다.

분석의 소스가 될 데이터는 기업의 다양한 분야에서 동시다발적으로 생성된다. 그러나 이렇게 얻은 데이터 그 자체는 품질이 낮고 불완전하기에 분석에 그대로 활용할 수 없다. 따라서 기업은 전통적인 ETL(Extraction, Transformation, Loading)을 포함해 데이터에 대한 통합(Integration), 품질(Quality), 보강(Enrichment), 관리 체계(Governance), 협업(Collaboration) 등 다양한 개념과 수단을 통해 분석에 사용 가능한 데이터를 확보해야만 한다. 이처럼 올바른 데이터 분석 결과를 얻기 위해 획득한 데이터를 올바르게 처리하는 과정, 이를 데이터 전처리라 할 수 있다.

하지만 국내에서는 아직 데이터 전처리에 대한 인식이 충분하지 않다. 정확히 말하면 날것 그대로의 로우(raw) 데이터에 전처리가 필요하다는 것 자체는 인지하고 있으나, 이것이 어느 정도의 중요성을 가지며 어느 정도의 범위에서 수행돼야 하는 지에 대해서는 미흡하다는 것이다.

글로벌 데이터 전처리 전문 기업인 팍사타(Paxata)는 이에 대해 “국내에는 아직 데이터 전처리에 대해 정형화된 기준이 없고, 이를 데이터 분석과 따로 떼어놓고 생각하지도 않는다. 데이터 전처리가 무엇인지도 모르는 고객도 많기에 이런 고객에게 자사 솔루션을 소개하기 위해서는 아예 데이터 전처리의 개념을 설명하는 것부터 시작해야 한다”고 밝혔다.

실제로 데이터 전처리를 전문으로 하는 기업은 모두 글로벌 기업이며, 이 중 국내에 정식으로 진출해 서비스를 제공하는 기업은 팍사타가 유일하다. 비즈니스 인텔리전스(Business Intelligence, BI) 프로세스를 갖추고 있는 국내 기업들 역시 대부분 데이터 전처리 영역이 통합된 BI 솔루션이나 서비스를 활용하지, 별도의 프로세스를 갖추는 경우는 드물다.

DB 잘 만들어도 전처리는 필수
기업의 의사결정권자들은 흔히 DB(Database)로 관리되는 데이터를 분석에 그대로 활용할 수 없다는 것에 의문을 표하곤 한다. 비즈니스 상에서 발생한 데이터를 일정한 기준에 맞춰 축적해왔다면 이를 데이터 분석에 그대로 활용할 수 있지 않느냐는 얘기다. 하지만 DB에 축적된 데이터에는 얼마든지 오류가 발생할 수 있으며 축적된 데이터끼리 완벽히 같은 형태나 구조를 갖추고 있을 가능성도 낮다.

가령 영미권 고객에 대한 정보를 수집한 데이터가 있다고 가정하면, 해당 고객의 이름을 표기할 때 성과 이름을 별도의 항목에 표기하는 경우, 함께 표기하는 경우, 함께 표기하지만 성-이름 순서로 표기하거나 이름-성 순으로 표기하는 등 여러 가지 형태가 있을 수 있다.

데이터 수집 단계에서 어떤 기준을 세웠느냐에 따라 각 데이터들은 사소한 차이를 보일 수 있지만, 알고리즘 입장에서는 ‘도널드 트럼프’와 ‘트럼프 도널드’는 다른 사람으로 인식될 수 있다. 이런 문제를 방지하기 위해 데이터 전문가는 사전에 분석에 사용되는 데이터를 표준화하고 불일치 데이터를 정제할 필요가 있다. 이는 데이터 전처리 단계에서 이뤄져야 하는 기본적인 과정이다.

데이터의 수집 창구가 많을 경우 이런 현상은 더욱 심하다. 과거에는 분석을 위한 데이터를 확보할 때 기업의 DB에 의존하는 경향이 컸지만, 지금은 기업 내외부로 DB, ERP, SCM, SNS, IoT센서 등 수많은 데이터 수집 창구가 존재한다. 서로 다른 수집 창구로 얻은 데이터를 연결하기 위해서는 별도의 통합 과정이 요구되며, 여기에는 데이터 표준화를 위한 정형·비정형 데이터의 처리나 데이터 간의 상관관계 파악, 데이터 품질에 대한 문제도 함께 발생한다. 이러한 것을 무시하고 그동안 축적해온 DB를 그대로 분석 알고리즘에 연결한다면 올바른 분석 결과를 얻을 수 없다.

▲ 데이터 전처리는 IT 조직의 많은 시간과 역량을 필요로 하며, 이를 줄이는 것이 중요 화제로 떠올랐다. (출처: TDWI)

문제는 이처럼 처리해야 할 데이터의 양이 증가하면서 전처리 업무에 대한 부담 역시 증가했다는 점이다. 실제로 수많은 고객 데이터를 관리하는 금융권의 경우에는 500개 이상의 컬럼을 가진 데이터셋을 활용하기도 한다. 이러한 데이터들의 전처리를 IT조직이 수작업으로 진행한다는 것은 거의 불가능한 일이며, IT담당자가 직접 매크로 등을 통해 표준화를 진행한다고 해도 작업 단계를 공유하거나 재사용하기 어려워 임시방편에 불과할 수 있다. 따라서 대량의 데이터를 분석하고자 하는 기업에서는 데이터 전처리를 위한 솔루션이나 기술을 갖춰야 한다.

특히 과거에는 기업의 IT 조직이 정보계 혹은 분석계라는 명칭으로 기업의 로우 데이터를 통합한 DW(Data Warehouse)를 구성하고, 이를 비즈니스 조직의 현업 사용자가 활용할 수 있도록 리포트나 대시보드 위주의 UI를 제공해왔다.

하지만 이러한 분석을 위한 DW를 구축하는 것에도 수개월 단위의 시간이 소요되고, 이를 한 번 구축한다고 해도 시장의 변화에 따라 비즈니스 조직의 요구가 변한다면 실시간으로 기능 및 데이터 품질을 관리해야 한다는 문제가 있다. 이에 따라 IT조직이 보유한 역량의 많은 부분이 DW 구축과 리포팅에 투입되게 마련이다. 이러한 영역에 많은 시간과 역량을 투입하게 되면 실제로 가장 중요한 데이터 분석에 활용할 역량이 부족해지는 것은 당연하다.

비즈니스 조직의 ‘셀프서비스’ 요구
지난해 5월 국내에 진출한 팍사타는 데이터 전처리 자동화를 지원하는 동명의 솔루션 ‘팍사타(Paxata)’를 공개하며 국내 비즈니스를 진행하고 있다. 팍사타 관계자는 데이터 전처리를 통해 로우 데이터를 유용한 정보(Information)로 바꾸는 것이 중요하며 이 정보가 비즈니스 조직의 현업 사용자에게 유용한 것이어야 한다고 강조했다.

하지만 대부분의 기업에서 IT 조직은 데이터만 바라보고 작업을 진행하며, 비즈니스 조직은 IT 조직의 업무 프로세스에 대한 이해가 부족하다. 로우 데이터를 가공할 수 있는 역량을 갖추고 있는 것은 IT 조직이지만, 이들은 현업에 대한 이해가 부족한 경우가 많아 적절한 정보를 만들어낼 수 없다는 설명이다.

이렇다보니 IT 프로세스에 대한 이해가 부족한 비즈니스 조직과 현업 비즈니스에 대한 이해가 부족한 IT 조직은 마찰을 일으킬 수밖에 없으며, 유용한 데이터를 가공해내기 위해 수개월 동안 수정사항에 대한 협의와 재구축으로 많은 역량을 낭비하게 된다. 이는 IT 조직이 현업 비즈니스에 대한 충분한 이해를 얻거나, 반대로 비즈니스 조직이 IT 프로세스에 대한 지식을 갖추게 된다면 해결될 수 있을 것이다.

이 중 대안으로 제시되고 있는 것은 후자에 가깝다. 그러나 비즈니스 조직이 IT 프로세스에 대한 전문적인 지식을 갖춰야 한다는 것이 아니라, IT 조직이 수행하는 데이터 전처리 프로세스를 IT 프로세스에 대한 지식이 부족한 현업 사용자가 활용할 수 있도록 쉽고 간편한 도구를 제공해야 한다는 입장이다. 만약 현업 사용자가 직접 로우 데이터에서 의미 있는 정보를 추출하고 분석을 위한 데이터를 확보할 수 있다면 IT 조직과의 마찰에서 발생하는 시간과 역량의 낭비를 막을 수 있다.

팍사타는 비즈니스 조직이 데이터를 손쉽게 활용할 수 있도록 로우 데이터를 손쉽게 취합·가공할 수 있는 셀프-서비스 데이터 전처리(Self-Service Data Preparation) 플랫폼을 제공한다. 현업 사용자가 코딩 등의 지식 없이도 키보드와 마우스를 사용하는 직관적인 UI를 통해 로우 데이터를 유용한 정보로 가공할 수 있도록 한다는 방침이다.

가령 데이터 통합과 품질관리를 위해 자연어처리(Natural Language Processing, NLP)나 머신러닝 등을 적용한 추천 시스템을 활용하고 있는데, 이는 서로 다른 정형·비정형 데이터의 공통적인 속성을 빠르게 찾아내 이들을 대표할 수 있는 표준을 사용자에게 추천한다.

앞서 제기된 예시인 ‘도널드 트럼프’-‘트럼프 도널드’와 같은 것은 자연어처리를 활용해 기준이 될 수 있는 가장 정확한 값을 제시하며, 사용자는 자동으로 추천된 예시를 보고 어떤 항목에 적용되는 것인지 확인한 후 표준으로 지정하고 싶은 값을 선택하기만 하면 된다. 대소문자나 공백 유무, 단순 오타와 같은 간단한 차이는 머신러닝 알고리즘이 적용된 클러스터 에딧(Cluster Edit) 기능을 활용해 유사한 항목끼리 묶거나 표준 값을 정할 수 있다.

또한 수백 개에 달하는 컬럼으로 관리되는 데이터끼리 통합할 경우에는 복수의 데이터셋을 비교해 가장 매칭 비율이 높은 컬럼을 찾아내 제시하며, 이때도 사용자는 통합하고 싶은 데이터셋을 선택하고 자동으로 추천된 컬럼의 매칭 비율을 확인해 선택하면 된다. 이처럼 전문적인 지식이 필요치 않은 직관적이고 간단한 조작을 통해 현업 사용자는 IT 조직의 도움 없이도 로우 데이터에서 의미 있는 정보를 만들어낼 수 있다.

이를 위해 ‘팍사타’ 플랫폼은 다양한 데이터 소스를 지원할 수 있는 환경과 데이터 샘플링 과정이 필요치 않은 스파크 인메모리 기반의 뛰어난 성능을 제공한다. 또한 작업 이력 및 버전 관리가 가능한 데이터 거버넌스 확보, 전처리를 마친 데이터를 외부 BI 툴에서 활용할 수 있도록 공유하거나 외부 BI 툴에서 URL 방식으로 ‘팍사타’의 기능을 호출해 데이터 전처리 로직을 확인할 수 있는 기능 등을 갖추고 있으며, IT 프로세스에 대한 지식이 부족한 현업 사용자가 사용하는 만큼 보안사고 방지를 위한 권한관리·암호화·비식별화 등을 지원한다. 또한 각 작업 단계를 저장하고 쉽게 공유할 수 있어 기업 내에서 자유로운 업무 인수인계와 공유가 가능하다.

마이크로스트레티지(이하 MSTR)는 동명의 엔터프라이즈 BI 플랫폼 ‘MSTR’의 최근 버전에서부터 셀프서비스 BI를 강조하며 현업 사용자가 로우 데이터를 바탕으로 리포팅을 시도할 수 있는 기능을 제공하고 있으며, SAS 역시 셀프서비스 빅데이터 전처리를 자사 솔루션의 중요한 기능 중 하나로 언급하고 있다.

이는 과거에 IT 조직의 반복적인 코딩이나 수작업으로 이뤄졌던 것들을 비즈니스 조직이 일부 수행할 수 있도록 하겠다는 것으로, IT 조직과의 마찰을 줄여 업무에 필요한 시간과 역량을 최소화하겠다는 방침이다. 전체적인 BI 플랫폼의 일부로써 제공하는 것이기에 데이터 전처리만을 위한 전문적인 솔루션을 제공하는 것은 아니며, 어디까지나 전체적인 분석 프로세스의 한 단계로써 데이터 전처리를 다루고 있다. 이는 데이터 전처리와 분석을 별도의 솔루션으로 나누지 않아도 같은 플랫폼 내에서 유기적인 프로세스 연결이 가능하다는 점에서는 일장일단이 있다.

BI 솔루션 전문기업 비아이매트릭스는 자사의 빅데이터 분석 솔루션 ‘아이스트림(i-STREAM)’에 데이터 전처리에 필요한 거의 모든 기술을 도입하고 있다고 밝혔다. 특히 인메모리 기반으로 모든 프로세스를 처리하기 때문에 보다 신속하게 업무를 진행할 수 있다. 한편 지난 2015년에는 BI 솔루션 ‘G매트릭스’를 출시, IT 조직에 요청하지 않고도 현업 사용자가 편리하게 비정형 분석 리포트를 만들 수 있는 기능을 제공했다.

‘G매트릭스는 DB와 연결된 검색창에 원하는 검색어를 입력하면 메타데이터에 기반을 두고 검색을 수행, 검색어와 일치하거나 관련성이 높은 데이터를 목록화해 보여준다. 사용자는 이를 그래픽이나 도표로 만들어 손쉽게 리포트를 구성할 수 있다.

데이터 전처리는 분석의 연장선
한편 비아이매트릭스 관계자는 “데이터 전처리는 데이터 분석의 일부이며, 내 마음대로 데이터를 수정하는 게 아닌 분석이 가능하도록 만드는 것”이라며, 데이터 전처리를 분석과 떼어놓고 생각하는 것은 바람직하지 않다고 우려의 목소리를 내비쳤다.

데이터 전처리는 어디까지나 데이터 분석이라는 명확한 목적을 가지고 이뤄지는 것이고, 이는 왜 데이터 분석을 하는가 하는 분석의 목적으로 귀결된다. 특정한 목적이 없는 데이터 분석이 의미 없는 일인 만큼 분석이 전제되지 않은 전처리 역시 의미가 없다는 설명이다. 데이터 전처리는 단순한 ETL의 과정이 아니며, 명확한 목적을 가지고 그 목적에 가장 부합하는 형태로 진행돼야 한다.

이와 관련, 수집된 형태를 기준으로 데이터 전처리가 이뤄지는 것도 올바르지 않다고 볼 수 있다. 실제로 많은 기업들이 자사가 수집한 데이터를 일정한 기준에 맞게 정리해 수납하는 것이 데이터 전처리라고 인식하고 있다. 물론 아무런 처리 프로세스 없이 수집한 데이터를 날것 그대로 쌓아두는 것보다는 일정한 사내 기준을 마련해 그에 맞게 수정하는 것이 바람직한 것은 맞다. 그러나 이렇게 모아둔 데이터를 활용하는 것은 앞서 말한 바와 같이 그저 DB에 쌓여있는 데이터를 분석 알고리즘에 그대로 적용하는 것과 다를 바가 없다.

실제 데이터 분석에 적용하기 전에 결국 다시 한 번 전처리 과정을 거쳐야 한다는 얘기다. 이와 같은 이중 작업을 방지하기 위해서는 해당 데이터가 수집된 형태와 경로가 아니라 해당 데이터가 어떤 분석에 활용되는지를 기준으로 데이터 전처리가 이뤄져야 한다.

이러한 관점에서 본다면 가장 이상적인 데이터 전처리는 모든 것과 연결될 수 있는 데이터를 만드는 것이다. 어떠한 분석에도 별도의 처리과정 없이 적용될 수 있는 데이터를 만들 수 있다면 전처리 단계에서 분석의 목적을 고려할 필요도, 나중에 이중 작업이 될 걱정도 하지 않아도 된다.

하지만 현실적으로는 하나의 데이터 분석을 위해 전처리 프로세스를 거친 데이터는 사용하는 솔루션이나 기술, 프로젝트의 성격에 영향을 받아 다른 분석에 재사용하는 것이 거의 불가능하다. 데이터 전처리는 데이터 분석을 하기 위해 진행되는 과정이며, 이는 모든 분석이 아닌 명확한 목적을 가진 하나의 분석을 위한 것이기 때문이다.

이에 대해 비아이매트릭스 관계자는 서로 다른 데이터들을 아우를 수 있는 기준이 있다면 다소 해결 가능한 문제라고 설명했다. 데이터 전처리와 분석은 아주 오래전부터 수행돼 왔지만, 여전히 데이터의 각 값을 구분하기 위한 전 세계적인 기준은 없다.

예를 들어 우리나라는 국민 개개인을 구분할 때 주민등록번호를, 미국은 사회보장번호를, 영국은 의료보험번호 등을 사용할 수 있다. 하지만 이는 각 나라마다 다르고 이와 유사한 제도를 활용하지 않는 곳도 많아 하나의 기준이 될 수 없으며, 한 걸음 더 나아가 개인의 정보 노출 차원에서도 바람직하지 못하다.

구글은 안드로이드 모바일 기기 사용자마다 ADID(Google Advertising ID)를 부여해 구분하고 있지만, 이 역시 사용자 행동 데이터를 공유함으로써 광고 효율성을 높이기 위한 것일 뿐 일반적인 기준으로 사용될 수는 없다. 따라서 각 데이터 전처리는 데이터의 성질이나 분석의 목적에 따라 제각기 다른 별도의 기준을 적용한다. 이것이 잘 가공된 데이터의 재사용을 어렵게 만들고, 각각의 데이터 분석 프로젝트를 진행할 때마다 새롭게 로우 데이터를 확보하고 전처리를 수행하는 과정을 수행하게 만든다. 이는 데이터 전처리에 많은 시간과 역량이 낭비되는 또 다른 이유다.

필요성에 대한 인식 제고돼야
한편 기업의 비즈니스 조직은 데이터의 수집부터 분석 이후의 리포트를 만드는 것까지 IT 조직의 업무로 치부하기도 한다. IT 조직과 합이 맞지 않아 시간이 오래 걸린다고 해도 비즈니스 조직에서 활용할 수 있는 데이터 전처리 솔루션을 도입해 추가적인 업무 부담을 갖는 것에 대해 거부감을 보이는 경우도 있으며, 데이터 분석에 대한 책임 소재가 불분명해질 가능성도 있다. 반면 IT 조직에서는 데이터 보안 측면에서 비즈니스 조직에게 데이터에 대한 접근 권한을 주는 것을 탐탁지 않게 생각하기도 한다.

데이터 전처리가 IT 조직의 역량을 많은 부분 낭비시키고 있으며, 비즈니스 조직 역시 필요한 데이터를 즉시 확인할 수 없다는 점에서 비효율적이라는 점은 분명하다. 셀프서비스 BI툴을 활용해 비즈니스 조직이 직접 데이터 전처리를 수행하고 필요한 정보를 생산하든, IT 조직이 보다 효율적인 통합 BI 솔루션을 활용하거나 비즈니스 현황에 대한 이해를 넓혀 비즈니스 조직과의 마찰을 줄이든, 데이터 전처리와 관련한 역량 낭비는 해결돼야 할 문제임이 틀림없다. 국내 IT 기업들이 데이터 전처리에 대한 인식을 제고하고 이를 위한 논의를 진행해야 할 시점이다.

김성수 기자 kimss56@itdaily.kr

다른기사 보기

상단영역

본문영역

[기획특집] 데이터 전처리가 분석 결과 좌우한다

‘셀프 서비스’ 대세…필요성에 대한 인식 부족

기사 댓글 0

비회원 로그인