[전문가 기고] 빅데이터 분석에 대한 잘못된 통념 9가지

알렉산더 린든 가트너 리서치 부사장

[컴퓨터월드] 데이터 분석(analytics) 분야에서 빅데이터(big data)만큼이나 많이 회자되는 주제는 없다. 그만큼 빅데이터에 대한 잘못된 통념들도 반복해서 언급되기 때문에 이를 믿는 사람들이 많다는 것은 놀랍지 않다. 일례로, 많은 사람들은 대량의 데이터만 확보하면, 데이터의 편향성(bias), 품질, 예측성 등 데이터의 본질적 문제들이 사라질 것이라 여긴다. 하지만 이는 데이터 자체의 문제들로 보유 데이터량만으로는 해결불가능하다. 비즈니스 분석(Business Analytics: BA) 리더들이 빅데이터를 둘러싼 잘못된 통념들을 그대로 받아들인다면 빅데이터의 활용에 필요한 전략을 수립하기 어려울 것이다.

이에 가트너는 대표적인 빅데이터 관련 통념 9가지를 소개하며, 이러한 잘못된 통념들을 바로 잡을 수 있는 방법들을 다음과 같이 제시한다.

1. “전체 데이터의 80%는 비정형 데이터”
데이터/정보 분야에 있어 가장 오래되고 널리 알려진 잘못된 통념 중 하나는 전체 데이터의 80%가 비정형 데이터라는 것이다.

현실
이 통설을 수용할 경우, 잘못된 결론에 도달하게 됨은 물론 관련된 오해를 더욱 증폭시킬 수 있다. 비록 구조가 명확하거나 익숙지 않더라도, 모든 데이터는 구조를 갖추고 있다. 만일 구조가 없다면 데이터에서 도출 가능한 패턴은 없을 것이다. IT 전문가들이 주로 관계형 데이터(relational data)에 익숙하기 때문에, 관계형 데이터베이스 구조에 딱 맞아 떨어지지 않는 비관계형 데이터(unrelational data)를 “비정형” 데이터라 잘못 지칭하곤 한다.

권고사항
· 그래프 데이터베이스나 기타 NoSQL 파생 데이터베이스 같은 비관계형 데이터베이스에 대한 전문지식을 개발하라. 주어진 목적에 가장 적합한 데이터 저장 패러다임을 사용해야 한다.
· “보유 데이터의 80%가 비정형이니, 전체 시간의 80%를 비정형 데이터 분석에 투자해야 한다”라는 식의 결론을 피해야 한다. 대신, 당면 문제의 핵심을 파악하기 위해 노력하고, 해당 문제 해결에 가장 도움이 될 것 같은 데이터 소스에 집중하라.
· 잘못된 통념을 고착시키는 업체들의 말에 귀 기울이지 말라. 특히 ‘비정형’ 소프트웨어 솔루션을 제공하는 벤더들의 주장은 더욱 조심해야 한다.

2. “첨단 분석은 ‘일반’ 분석의 발전된 버전일 뿐”
많은 기업들이 데이터 분석에서 어느 정도 전문성을 확보하면, 학습과 추가적인 소프트웨어 도구(tool)를 활용해 다음 단계의 데이터 분석으로 이행할 수 있다고 생각한다.

현실
‘첨단 분석(advanced analytics)’은 단지 ‘일반 분석(normal analytics)’의 좀 더 복잡한 형태라 볼 수 없다. 일반 분석은 묘사적(descriptive) 분석으로 주로 발생 사건을 보고하는 반면, 첨단 분석은 예측(predictive) 및 예방(prescriptive) 분석을 활용해 직접 문제를 해결한다. 예측 분석의 경우 소비자의 쇼핑 행동, 기계 고장 등의 향후 결과나 행동들을 예측한다. 이러한 예측 분석을 바탕으로 예방 분석은 한 단계 더 나아가 사전 조치 방법들을 제시한다.
예를 들어 예측 분석이 일정 수량의 부품 생산 후 기계가 장애를 일으킬 것이라고 감지하면, 예방 분석은 해당 수량에 미치기 전에 기계의 유지보수를 회사에게 제안할 것이다. 결과적으로 기업은 다운타임 발생으로 인한 비용 발생을 방지할 수 있다.

또한, 첨단 분석에 활용되는 기술들은 일반 분석과 전적으로 다르며, 데이터 분석에 요구되는 역량 또한 다르다. 첨단 분석에 요구되는 역량들은 통계, 기계 학습(machine learning), 오퍼레이션 리서치(Operations Research: 수학이나 행동과학 등 과학적 방법을 통해 의사결정을 하는 것) 등에 대한 명확한 이해를 바탕으로 한다.

첨단 분석 용 도구를 사용하는 방법이 쉬워졌다 하더라도, 여전히 일반 분석에 사용되는 도구들과 상당히 다르다. 이에 가트너는 기존 BI(Business Intelligence), 분석 도구 제공업체들을 첨단 분석 도구 제공업체들과 구분해 별도로 평가하고 있다.

권고사항
· 첨단 분석이 적용되는 분야 및 요구되는 역량과 도구가 일반 분석과는 다르며, 데이터 사이언스(data science) 역량 자체가 희귀하다는 사실을 인지해야 한다. 첨단 분석에 필요한 역량과 도구를 보유하고 있지 않은 경우 탄탄한 전략 수립은 불가능하다.
· 기업별 문화가 다른 점을 감안하더라도, 대부분의 전통적인 IT 부서들이 첨단 분석 프로젝트 수행에 있어 검증되지 않았다는 점을 인지해야만 한다.

3. “임베디드 분석(Embedded Analytics)만 있으면 된다”
점차 더 많은 특정 산업용 및 기타 비즈니스 애플리케이션 업체들이 자사 제품에 분석 솔루션을 포함해서 제공하고 있다. 이에 많은 사용자들은 임베디드 분석이 포함된 제품을 활용하면 기업의 BI, 분석 수요를 충족시키는 것은 물론, 기업 솔루션에 대한 추가 투자가 필요치 않을 것이라고 생각한다.

현실
대부분의 사내 BI, 분석 수요를 충족시키기 위해서는 임베디드 분석과 엔터프라이즈 솔루션 둘 다 필요하다. 임베디드 분석은 주로 지정 트랜잭션 시스템(transaction system)에 수반되는 비즈니스 프로세스나 기능 분석만을 다룬다. 이에 한 부서에만 유용한 보고서나 지표를 제공하게 된다. 그러나 대부분의 기업은 전사적 운영 현황과 성과를 평가하기 위해 데이터의 통합, 분석 작업을 필요로 하는 수많은 트랜잭션, 처리 시스템과 사업부들을 가지고 있다.

다수의 임베디드 분석 도구들은 현대적 대시보드 기능을 갖춘 첨단 보고(reporting) 플랫폼이지만, 더 많은 비즈니스 용례에 적용 가능한 예측 모델링 역량은 부족한 실정이다. 각각의 사업부에서 자체적인 분석 역량을 확보하고 싶어 하기 때문에 기업들은 종종 다수의 임베디드 분석 도구에 투자하게 된다. 이는 전사적으로 사용되는 모든 지표의 일관성을 유지하는데 어려움을 주는 등 데이터 표준과 모델의 일관성을 해칠 수 있다. 이는 결국 데이터와 분석 거버넌스의 강화를 요구하게 된다.

권고사항
· 새로운 분석 도구를 구매하기 전, 사내 데이터 거버넌스 지침과 절차를 평가하라. 특히, 지침서에 기존 엔터프라이즈 데이터웨어하우스와의 동기화, 기업 모델에의 적용, 기존 BI 시스템과의 통합 등과 관련된 핵심 필요조건들이 명시돼 있는지 확인해야 한다.
· 임베디드 분석 구매를 고려하는 각 사업부 구매자들이 전사적 정보전략을 지원하기 위한 기술 및 데이터 관련 요구사항들이 무엇인지 이해할 수 있도록 지침서를 제공하라.
· 전사적으로 사용될 기준(basic) 지표와 임베디드 분석에 사용될 지표들을 포함한 지표 자료실(library)을 구축하라. 보고의 일관성을 유지하기 위해 활용 데이터와 실행 모델에 적용되는 지표들이 모두 일관돼야 한다는 사실을 전사적으로 공유해야 한다.

4. “개선된 분석 도구가 데이터 사이언티스트를 대체할 것”
첨단 분석 솔루션을 제공하는 대부분의 업체들이 자사 솔루션에 포함된 데이터 과학 기능이, 코딩 작업, 예측 알고리즘 지식, 장기간의 훈련 과정 없이도 누구나 사용할 수 있을 만큼 사용이 쉽다고 주장한다. 이로 인해 사내 데이터 사이언티스트가 필요 없다고 믿는 사람들이 늘어났다.

현실
데이터 사이언티스트의 공급이 부족한 실정이다. 가트너에 따르면, 2015년까지 전세계적으로 빅데이터 대응에 필요한 일자리가 440만 개에 이르며, 이 중 3분의 1만이 채워질 전망이다. 수요가 대폭 증가하는 역할들 중에 데이터 사이언티스트 또한 포함될 것으로 예상된다.

데이터 과학 업무는 여러 전문 분야에 걸친 실무(multidisciplinary practice)로 다음을 포함한다
· 고급 통계(Advanced Statistics)
· 기계 학습(Machine Learning)
· 컴퓨터 과학
· 오퍼레이션 리서치(Operations Research)
· 프로그래밍
· 데이터 관리

이러한 역량들은 전부 실무적 비즈니스 및 업무 운영 경험들과 통합돼야 한다. 점차 더 많은 대학들이 데이터 과학에 필요한 과목을 개설하고 교육과 훈련을 실시하고 있다. 데이터에서 지식을 추출하고, 예측ž예방 모델을 구축한 경험이 있는 데이터마이너(data miners)들은 위 영역으로까지 본인들의 전문 역량을 확장시키고 있다.

최근 들어 분석 솔루션 업체들은 자사의 첨단 분석 플랫폼의 사용이 보다 용이하도록 시각화된 인터페이스를 적용하기 시작했으며, 코딩 의존도를 줄였다. 그러나 기업들은 여전히 데이터 사이언티스트의 역량과 실무적인 경험을 확보할 필요가 있다.

서비스 공급업체들이 제공하는 임베디드 분석 솔루션들은 데이터 사이언스 역량 부족 문제를 완화하는데 도움을 준다. 비록 각 사업부가 이러한 애플리케이션의 주사용자들이지만, 적용된 임베디드 모델 자체는 데이터 사이언티스트들이 구축한 것이다. 이와 같은 접근 방식은 한정된 데이터 사이언스 자원(resource)을 유연하게 최대로 활용할 수 있게끔 돕겠지만, 결코 데이터 사이언티스트의 필요성을 없애진 못한다.

권고사항
· 데이터 사이언티스트나 데이터 과학에 능숙한 전문가가 불필요하다는 업체들의 주장에 주의하라.
· 각 사업부에서의 첨단 분석 활용과 자체적인 분석 애플리케이션 구축을 지원하기 위해 사내 데이터 사이언티스트를 확보하라. 혹은 패키지 형태의 분석 애플리케이션을 구매하거나 숙련된 서비스를 제공하는 전문업체로부터 도움을 구하라.
· 데이터 과학에 필요한 역량을 집합적으로 보유한 데이터 과학 전담 부서를 수립하는 방안을 고려하라.

5. “훌륭한 데이터 사이언티스트는 통계학 혹은 오퍼레이션 리서치 분야 박사학위 소지자”
이 통념은 박사학위(Ph.D)를 가진 데이터 전문가들의 가치를 높이는 동시에 데이터 사이언티스트들이 통계학이나 오퍼레이션 리서치 분야의 박사학위를 취득하지 않는 이상 해당 분야에서 뛰어날 수 없다는 오해를 조성한다.

현실
최고의 데이터 사이언티스트들 중에는 박사학위는 물론, 해당 분야에서 고등 교육 조차 받지 않은 경우가 많다. 뛰어난 데이터 사이언티스트는 통계학, 최적화 리서치(optimization research), 오퍼레이션 리서치 등 다양한 역량을 두루 갖췄다. 이들은 비즈니스 프로세스에 대한 이해 역시 높다. 데이터를 통해 현실 세계를 이해하려는 의지가 강하며, 현실 세계의 대체물을 만들어 내는 상상력이 풍부하다. 또한, 데이터 사이언티스트들은 강한 호기심을 통해, 유의미한 질문을 제기하고, 해당 질문에 대한 답을 데이터에서 찾아낼 수 있다. 데이터 사이언티스트들의 분석 능력이 우수한 만큼, 그들의 데이터 분석을 지원하기 위한 소프트웨어도 시중에 나와 있다.

권고사항
· 기업 내 데이터 과학 솔루션 확보 방법으로 아래 세 가지 선택안이 있다는 것을 기억하라.
1. 데이터 과학 솔루션 구축(build): 모델링, 통계, 오퍼레이션 리서치 관련 심도 깊은 역량을 보유한 인력이 필요함을 인지하라. 지속적인 비즈니스 연계성을 확보하기 위해 일반 직원들도 빅데이터 분석 역량을 갖추고 사내 제작자(modelers)들과 긴밀하게 협력할 수 있도록 해야 한다.
2. 데이터 과학 솔루션 구매(buy): 솔루션 업체들과 협업하여 구체적인 비즈니스 요구사항에 맞는 도구들을 설정하고 사업부 내 일반 사용자를 교육할 수 있는 인적 자원을 확보하라. 이들에게 분석 경험은 필수적이지만, 데이터 과학 솔루션을 직접 구축하는 능력까진 필요치 않다.
3. 데이터 과학 솔루션 아웃소싱(outsource): 부서 내 뛰어난 업체 관리 역량을 갖춰라. 직원들이 어느 정도의 데이터 과학 직관력(intuition)은 있어야 하나, 직접적 실무 경험이 필수적이진 않다.

6. “묘사적 분석은 과거 지향적, 예측 분석은 미래 지향적”
많은 사람들은 묘사적 분석이 과거를 다루는 반면 예측 분석은 미래를 다룬다고 생각한다.

현실
“모든” 분석은 과거를 기반으로 하며, 이 중 “대부분”이 미래를 다룬다. 모든 형태의 분석 결과는 과거에 수집된 데이터를 분석해 도출된 것이다. 분석 솔루션을 사용할 때 미래가 과거와 유사한 방식으로 ‘작용’할 것이라고 가정하는 셈이다. 때로는 이런한 가정이 틀릴 수 있다. 예를 들어 물가 상승률의 변동, 계절적 변화, 완전히 새로운 마케팅 전략이나 제품 제공 등 다양한 요소들이 시장 교란을 초래할 수 있는데, 이 때 과거의 데이터는 더 이상 미래에 대한 지표가 될 수 없다. 이와 같은 분석 결과는 신뢰성만 떨어지는 것이 아니라 잘못된, 심할 경우 위험한 의사결정으로 이어질 수 있다.

권고사항
· 재교정(recalibration)/모델 관리의 가치를 인식하라. 특히 모델 성과 추적(model performance tracking)이 중요하다.
· 분석의 목적과 분석하고자 하는 특정 데이터세트와의 연관성을 파악하라.
· 연관성을 극대화하기 위해 가장 최신의 데이터세트를 선택하라. 그렇지 못할 경우 기계 학습 접근 방식이 현재 패턴을 감지하지 못할 수 있다.

7. “빠른 분석이 곧 실시간 분석”
하둡(Hadoop), NoSQL DBMS, 인메모리 데이터베이스, 인메모리 데이터그리드, 및 기타 빅데이터 기술들은 전통적인 기술들에 비해 빠른 쿼리, 분석모델 실행을 가능케 한다. 문제는 분석 과정에 활용된 데이터가 수 주 지난 것임에도 불구하고 이를 실시간 분석이라 부른다는 점이다.

현실
지난 몇 초, 분간 확보된 데이터를 일부 혹은 전체 다 활용하지 않는 이상 데이터 분석은 실시간, 심지어 준실시간, 분석이라고 볼 수 없다. 물론 오래된 데이터에 고속 분석(high-speed analytics) 기술을 적용해 몇몇 의사결정에 도움을 받을 수도 있겠지만, 이 역시 실시간 분석은 아니다. 고속 분석은 현재 상태를 파악하고, 빠르게 부상하는 위협과 기회를 사전에 알기 원하는 사용자들에게 도움이 되지 않는다.

엄격히 말하자면, 시스템이 실시간이려면, 대응 지연시간(latency)은 이미 정해진 셈이다. 지연의 원인이 이미 처리됐기 때문에, 시스템은 일반적으로 수초 내라는 지정된 시간 범위 안에서 항상 작업을 완료할 것이다. 그러나 현실에선 응답시간의 오차가 미미한 경우를 두고 실시간 시스템이라 지칭한다. 지연시간이 정해져있진 않지만, 여전히 이러한 시스템은 수십초 또는 수분에 걸쳐 현 상태의 변화에 대해 반응한다. 몇몇 사람들은 이를 ‘비즈니스 실시간’이나 ‘준실시간’ 시스템이라고 부른다.

권고사항
· 새로운 시스템에 대한 필요사항을 수집할 때, 사용자들이 의사 결정에 있어 실시간 정보를 필요로 하는지 아니면 과거 데이터만으로도 충분한지를 물어보라.
· 당면 비즈니스 문제에 맞춰 ‘적시(right time)’에 응답할 수 있는 분석 솔루션을 설계하라. 이 때의 적시는 실시간, 준실시간일 수도 있으며, 실시간과 무관한 때일 수도 있다.
· 대용량 스트리밍 데이터에 초저지연(very low-latency) 데이터 분석을 적용하기 위해 복합 이벤트 처리 기술(Complex Event Processing: CEP), 분산 스트림 컴퓨팅 플랫폼(distributed stream computing platform) 등과 같은 이벤트 스트림 처리 기술(event-stream processing technology)을 활용하라. 이 때 대용량 스트리밍 데이터는 센서, 시장 데이터 공급업체, 트랜젝션 처리 시스템, 웹사이트 등 다양한 소스로부터 제공될 수 있다.
· 시스템 응답이 수 분내에 이뤄져야 할 경우 비즈니스 활동 모니터링 플랫폼, 스프레드시트 툴(spreadsheet tool), 데이터 복구, 및 BI 리포팅 툴 등을 활용해 현재 데이터에 준실시간 분석을 실행하라. 이 때 예측이나 예방 데이터 분석을 활용할 수도 있다.

8. “빅데이터만 있으면 거의 모든 것이 예측 가능하다”
충분한 양의 데이터만 주어진다면 모든 것이 예측 가능해질 것이라는 추측이 빅데이터 시장에 난무하고 있다. 몇몇 책에서는 ‘빅데이터는 곧 무한한 가능성’이라고 가정한다.

현실
물론 데이터와 데이터 소스의 가용성 증가로 인해 더 많은 예측이 가능해졌다. 시범 프로젝트 결과에 따르면, 빅데이터 분석을 통해 심장마비, 뇌졸중 등의 발병 위험을 미리 예측함으로써 예방적 조치를 취하는데 필요한 시간을 충분히 확보할 수 있게 됐다. 그러나 아직 이러한 데이터 분석으로도 예측할 수 없는 분야가 더 많다. 특히 법과 정치처럼 복잡한 영역이나 지진과 같은 자연현상은 더욱 예측이 어렵다.

심지어 어느 정도 체계가 잘 잡혀 있고, 데이터가 끊임없이 스트리밍 되는 단일 영역에서도 예측 분석 기술 적용은 어려운 일이다. 온라인 마케팅을 예로 들어보자. 현재 온라인상 광고 클릭률(CTR: Click-Through-Rate)은 대략 0.2%~0.3%로 매우 낮은 편이나, 아직까지 그 어떤 예측 분석 솔루션도 어느 광고 캠페인이 어떤 개인으로부터 최고의 클릭률을 유도할 수 있는지 식별하지 못한다. 광고 클릭 과정은 변덕스러우며, 대게 광고를 접할 당시 개인의 기분과 요구사항이 반영되는 경우가 많다.

데이터 분석 솔루션으로 더 많은 사항들을 예측할 수 없는 이유는 다음과 같다.
· 그 어떤 단일 기관도 개인의 동기나 욕구를 예측할 수 있을 만큼 충분한 정보를 갖고 있지 않다.
· 현재의 가용 데이터를 통해서는 고객의 행동, 기타 이벤트 등의 모든 원인 요소를 파악할 수 없다.
· 예측 분석 기술은 일반적으로 1,000~5,000 명 규모의 인구 집단 데이터를 분석할 때만이 통계적으로 유의미한 결과물을 내놓을 수 있다.

권고사항
· 모든 것이 예측 가능할 것이라 생각해선 안되며, 또 그렇게 될 수도 없다. 가용 데이터가 훨씬 많음에도 불구하고 때로는 오류 범위가 놀라울 정도로 클 수 있으며, 수 많은 투입변수(input factors)가 존재하는 분야일수록 오류 범위는 더욱 두드러질 것이다.
· 더 많은 데이터를 보유하는 것이 도움이 되는 분야를 파악하라. 데이터는 자체적으로 복제하는 속성이 있어 데이터 수량의 증가가 자동적으로 예측 정확도의 증가로 이어지지 않는다.

9. “빅데이터는 편향성이 없을 것”
일각에서는 빅데이터의 데이터량 자체가 방대하고, 데이터 소스도 무수히 많기 때문에 빅데이터가 편향성을 띌 수 없다고 믿는다.

현실
데이터는 양과 무관하게 항상 편향적이다. 데이터란 특정 측정치에 대한 결과물이며 어떤 목적에 의해 수집된 것이다. 수집이라는 기법 자체가 편향성을 수반할 수밖에 없다. 데이터는 편향되기 마련이니 세심한 주의를 갖고 접근할 필요가 있다. 샘플이 연구 대상을 대표할 때만 데이터세트 분석에서 유의미한 결과를 얻을 수 있으며, 대상이 샘플에 과도하게 또는 불충분하게 반영되지 않도록 주의해야 한다. 그렇지 않을 경우, 분석 결과를 전체 집단에 적용할 수 없게 된다.

일례로 소셜 미디어에는 개인의 감정, 시장 동향, 위협, 핵심 영향 등 다양한 분석에 활용할 수 있는 방대한 데이터세트가 존재한다. 그러나 SNS는 주로 젊은 층이 사용하기 때문에, 소셜 미디어에서 발생하는 데이터 자체는 편향된 샘플이다.

권고사항
· 연령 편향을 해결하기 위해 소셜 미디어 모니터링에서 수집한 정보를 다른 고객 상호작용 소스와 결합하라.
· 소스와 무관하게, 데이터를 제공 과정 자체가 편향성을 초래한다는 것을 이해해야 한다.
· 데이터에 존재하는 편향을 찾아 분석 결과에 미치는 영향을 줄이도록 데이터 사이언티스트들에게 지시하라.

알렉산더 린든 @

다른기사 보기

상단영역

본문영역

[전문가 기고] 빅데이터 분석에 대한 잘못된 통념 9가지

알렉산더 린든 가트너 리서치 부사장

기사 댓글 0

비회원 로그인