엔코아 오성 컨설턴트

[아이티데일리]

▲ 오성 엔코아 컨설턴트

데이터 시각화 분석의 정의가 어려운 이유
데이터 시각화 분석을 정의한다는 것은 어려운 일이었다. 이유는 일반적인 통계 분석은 문자 형태로 공식을 나열하고 이를 정의할 수 있다. 예를 들어 회귀 분석(Regression Analysis)은 독립변수와 종속변수 사이의 상관관계를 밝혀내고, 아래와 같이 쉽게 이해할 수 있을 것 같은 방정식으로 정리할 수 있다.

데이터 시각화는 그 자체만으로도 매우 훌륭한 의사 전달 솔루션이다. 하지만 데이터 시각화의 목적은 사용자가 분석을 수행할 수 있도록 지원하는 것이다. 데이터 시각화에서 분석 방법은 이전 연재에서 설명한 '데이터 시각화 방법'에 따라 달라진다. 이번 연재에서는 데이터 시각화 방법에 따라 어떠한 분석이 가능한지를 설명하고, 분석의 목표와 시각화 구조가 지원할 수 있는 분석 방법이 동일할 수 있도록 하는 것이 목표이다.

 

▲ 그림 1. 회귀 분석에 대한 결과와 이를 시각화 경우

물론 이와 같이 단일 분석의 결과를 시각화하는 것은 어렵지 않다. 어려운 것은 시각화가 선행되고, 이후에 분석을 수행해야 하거나 결과를 도출하는 경우이다. 이유는 사용자가 시각화 자료를 보면서 분석하는 행동을 정의하는 것이기 때문이다. 즉, 눈으로 보고 머리로 판단하고 있는 활동을 문자로 설명해야 한다는 것이다. 마치 이를 비유하자면 식사를 하는 과정을 문자로 설명하는 것과 유사하다. 양식을 먹을 때는 포크와 나이프와 같은 도구를 어디에서부터 사용해야 하는지 정리되어 있기는 하지만, 음식을 먹는 행동까지는 설명하기 어려울 것이다.

또한 데이터 시각화 분석은 하나의 분석 방법만으로는 큰 의미가 없다. 어떤 사용자는 다양한 분석 방법으로 데이터의 전체 형태를 인식할 수 있고, 다른 사용자의 경우 분석의 관점이 다르기 때문에 필요한 몇 개의 분석 방법으로 데이터를 관찰할 수 있다. 그리고 더 깊이 이해하고 싶은 부분을 다양한 분석 방법을 적용하며 수행한다.

데이터 시각화의 분석 방법
우리는 데이터 시각화의 목적이 설정되고 나면 많은 것을 고려하게 된다. 다양한 요소 중 시각적 분석 방법이 중요한 이유는 사용자가 시각화를 보고 어떠한 방법으로 분석할지 도출해야 이에 적합한 설계가 가능하다. 설계 초기 단계는 데이터를 중심으로 분석을 수행하기 때문에 시각화 방법이 적합한지를 판단하는 것은 매우 어려운 일이다. 설계 작업 단계는 이후 기고에서 설명하도록 하겠다.

데이터 시각화 분석 방법은 크게 3가지 유형으로 분석하고 판단한다. 동일한 시각 자료라고 하더라도 다양한 시각화 분석 방법이 사용될 수 있다. 이는 설계 당시에 파악하지 못한 방법으로 분석을 수행할 수 있기 때문에 '이 시각화는 특정 시각화 분석 방법만을 사용한다'라고 구분할 필요는 없다. 아래는 주요 데이터 시각화의 분석 방법이다.

-비교와 비율 분석: 범위와 분포, 순위, 측정, 데이터의 맥락
-동향과 패턴 분석: 변화의 방향성과 속도, 변동, 의미, 교차
-관계와 연관 분석: 예외, 상관 관계, 연관 관계, 클러스터 및 간격, 계층 관계

비교와 비율 분석
비교와 비율 분석이란 값을 특정한 항목이나 일정한 수준으로 집계하여 이를 서로를 비교하여 통찰력을 제공하는 여러가지 형태를 의미한다. 비교와 비율 분석은 분석 시 어떤 기준을 제공하여야 하는데 이는 집계되어 있는 범위에서 제공될 수 있고, 기정의 되어 있거나 외부 특정한 기준이 될 수도 있다.

▲ 그림 2. 데이터 시각화에서 비교와 비율 분석의 형태를 설명하는 차트

-범위와 분포(Range and distribution) : 사용자는 데이터 시각화를 보면서 값의 분포를 이해하고, 알아보고자 하는 데이터가 현재 어느 위치에 있는지 파악하게 된다. 위의 그림을 예시로 들면, ‘보통이다’에 대한 답변은 최소 9.5%에서 최대 40.7%의 범위에 존재한다.

-순위(Ranking) : 데이터를 전체 또는 일정한 조건 범위에서 값의 크기 또는 특정한 조건으로 정렬하여 순위를 식별하는 것이다. 위의 그림에서 ‘매우 그렇다/그렇다’의 값을 기준으로 큰 순서별로 정렬하였다.

-측정(Measurements) : 하나의 항목을 구성하고 있는 값이 어떻게 구성되어 있는지 파악하는 방법이다. 범위와 분포, 순위의 경우 자신의 값만이 의미를 가지는 것이 아니라, 서로 다른 값에 의해 의미가 결정되어 진다. ‘측정’이라는 것은 상대적인 의미보다는 절대적인 값을 확인하고, 이 값이 어디에 위치하는지 측정하는 방법을 의미한다.

-데이터의 맥락(Context of data) : ‘데이터의 맥락’이란 기술적인 통계 분석 방법을 이용하여 데이터의 ‘맥’ (줄기 맥, 脈)을 이해하는 것이다. 이는 데이터 시각화의 주된 표현 방법으로도 사용되기도 하지만, 주로 다른 데이터 시각화 표현 방법에 도움을 주기 위해 부가적으로 활용될 수 있다.

동향과 패턴 분석
동향과 패턴 분석이란 데이터가 시간에 따라 변하는 형태와 어떻게 변화하는지 파악하고, 미래의 방향성을 예측하는 분석 방법이다. 이러한 분석의 주 관점은 어떻게 변화하는지, 무엇이 변화를 유도하는지, 이러한 변화가 무슨 의미를 가지고 있는지 파악하는 것이다. 이러한 분석을 수행하기 위해서는 시계열의 데이터로 존재해야 한다.

▲ 그림 3. 데이터 시각화에서 동향과 패턴 분석의 형태를 설명하는 차트

-방향(Direction) : 값이 시간이 지남에 따라 어떻게 변하는지 파악한다. 값의 변화가 상승 또는 하락세인지, 아니면 수평으로 이동할 수도 있다. 또한 기존의 방향성과 다르게 움직일 수도 있고, 지속될 수도 있다.

-변화의 속도(Rate of change) : 값이 시간이 지남에 따라 변화하는 속도가 선형적인 형태를 가지고 있는지, 아니면 기하급수적으로 변화하는지 파악해야 한다. 이를 볼 때 주의할 사항은 단순히 큰 폭으로 증가하거나 감소한다는 것을 의미하는 것은 아니다. 값의 변화 폭이 기하급수적으로 변하는 것이 아니라 사용자의 예상 범위를 벗어난다는 것이다. 수치상의 큰 변화라도 이는 예상한 변화라면 이는 선형적인 변화이다. 이처럼 변화의 속도라는 것은 단순한 숫자의 비율로 보기 어렵다.

-변동과 패턴(Fluctuation and Patterns) : 데이터가 일관성을 가지고 패턴을 나타내고 있는지, 아니면 예측이 불가능한 패턴을 그리고 있는지 분석한다. 일관성을 가진 패턴을 찾아낸다면, 이에 대한 원인이 무엇인가 찾을 수 있을 것이다.

-교차(Intersections) : 서로 다른 항목을 표현하는 데이터가 교차하는 지점을 찾아서 분석한다. 교차되는 위치가 중요한 것은 서로 다른 항목을 표현하는 데이터가 동일한 축을 기준으로 교차가 된다는 것은 두 데이터의 상황이 바뀔수 있는 지점이 되고 사용자에게 통찰력을 전해줄 수 있다.

관계와 연관 분석
관계와 연관 분석이란 각각의 데이터가 표현되고 이러한 데이터 사이에 어떠한 연관성을 가지고 있는지, 그리고 어떠한 관계에 있는지 파악하는 것이다. 동향과 패턴 분석은 ‘시간’이라는 하나의 축에 따라서 변동이 되는 것을 파악했다면, 관계와 연관 분석은 서로가 서로에게 어떠한 영향을 미치는지 파악하는 분석 방법이다.

▲ 그림 4. 데이터 시각화에서 관계와 연관 분석의 형태를 설명하는 차트

-군집과 갭(Cluster and Gaps) : 데이터를 점 또는 원의 형태로 표현하게 되면, 특정 데이터들이 무리를 생성하게 된다. 이를 군집이라고 하는데, 이러한 군집리를 판별하고 의미를 식별하며, 생성된 군집간의 갭을 파악하게 된다.

-상관 관계(Correlations) : 서로 다른 변수 간에 강하거나 약한 상관 관계를 찾아내는 분석 방법을 의미한다.

-인과 관계(Associations) : 서로 다른 변수가 변동하는 원인을 식별하고 이를 직접적으로 어떻게 변화시키는지에 대한 분석 방법을 의미한다.

-예외(Exceptions) : 주어진 변수의 범위 내에서 벗어나는 값을 찾아내고 이 값들의 의미를 식별하는 것이다.

-계층 관계(Hierarchical relationships) : 표현된 데이터가 어떠한 이유와 형태로 결합되고 분산되는지, 어떻게 분류할 수 있으며 서로 간의 어떠한 관련성을 가지고 있는지 파악할 수 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지