기초통계분석 실전 튜토리얼: 데이터 분석 첫걸음

[컴퓨터월드]

▲ 김소연 SAS 커스터머케어(Customer Care)팀 수석

1. SAS EG 시작하기 - SAS 데이터셋으로 데이터 가져오기 <2016.8월호>
2. 데이터 분석 첫걸음 - 데이터 합하기, 파생변수 만들기 <이번호>
3. 데이터 가공 및 분석(1) - 통계량 탐색, 그래프 탐색
4. 데이터 가공 및 분석(2) - 리포트, 통계 분석, 상관 분석
5. 시각화 분석 통한 인사이트 찾기(1) - SAS 비주얼 애널리틱스 데이터 탐색
6. 시각화 분석 통한 인사이트 찾기(2) - SAS 비주얼 애널리틱스 리포트 디자인


지난 학습에서는 분석 대상이 되는 데이터를 SAS 데이터셋으로 저장하기 위한 기본 작업을 해봤다. 먼저 라이브러리를 설정하고, 엑셀과 텍스트 데이터를 드래그-앤-드롭 또는 클릭-앤-클릭으로 SAS 데이터셋으로 가져왔다.

이번에는 ‘toy_prod’라는 이름의 데이터셋으로 가져온 두 개의 엑셀 데이터 즉, EU 데이터와 NA 데이터를 하나의 데이터로 합하고, ‘toy_sales’라는 텍스트데이터를 병합해 하나의 데이터셋으로 만들어보는 작업을 해보겠다.


분석 위한 데이터 만들기: 데이터 합하기

두 개의 테이블을 하나의 데이터(TOY_PROD)로 합하기

먼저, EU와 NA 두 개의 데이터를 하나의 데이터로 합하는 방법이다. 첫 번째 데이터를 클릭한 후 ‘작업’에서 ‘데이터-테이블 추가’를 선택, 팝업창에서 ‘테이블 추가’를 택하고 ‘실행’한다. 저장된 라이브러리에서 NA 데이터를 선택하면 NA 데이터가 추가된 것을 확인할 수 있다.

 
 
 
 

여기서 ‘결과’를 선택하고, ‘찾아보기’ 버튼을 눌러 지정해둔 라이브러리에 데이터를 지정한다. 두 개의 데이터를 합한 것이므로 ‘TOY_PROD’로 새로운 이름으로 저장한다. ‘실행’하면 지역별로 나뉘어있던 EU와 NA 데이터가 하나의 데이터셋으로 생성된 것을 확인할 수 있다.

 
 
 
 

질의 빌더로 TOY_PROD와 TOY_SALES 합하기

이번에는 제품 정보가 있는 ‘toy_prod’ 데이터셋과 채널 정보가 있는 ‘toy_sales’ 데이터셋을 조인해 하나의 테이블로 생성해보자. 이 경우 ‘질의 빌더’ 기능을 이용한다. 본 학습에서는 데이터셋을 선택하고, 마우스 오른쪽 버튼으로 ‘질의 빌더’를 클릭해 ‘toy_prod’ 데이터를 기반으로 ‘toy_sales’를 가져오고자 한다.

 
 
 
 

‘테이블 추가’를 선택해 라이브러리에서 ‘toy_sales’를 선택하면, 두 개의 테이블 ‘toy_prod’와 ‘toy_sales’에 대한 정보를 읽어온다. ‘테이블 조인’을 선택해서 보면, 두 개 모두 ‘주문번호’라는 동일한 키가 있기 때문에 자연스럽게 주문번호끼리 조인하는 형태로 돼있다.

그러나 실제로 동일한 키로 조인되는 경우는 많지 않다. 이 경우에는 직접 조인을 해줘야 한다. 조인을 삭제하고, 조인 유형을 선택한 후 ‘확인’ 버튼을 눌러 새로 연결한다.

 
 
 
 

이제 ‘toy_prod’와 ‘toy_sales’를 ‘주문번호’를 기준으로 하나의 테이블로 만들어보자. 먼저, 사용할 변수인 ‘toy_prod’와 ‘toy_sales’를 드래그한다. ‘주문번호’는 중복으로 들어가 있으므로 ‘X’를 눌러 삭제하고 ‘실행’을 누르면, 제품 정보와 채널 정보를 갖고 있는 하나의 SAS 데이터셋으로 정리가 된 것을 확인할 수 있다.

 
 
 
 


분석 위한 데이터 만들기: 파생변수 만들기

지금까지 우리는 하나의 엑셀 데이터에서 두 개의 워크시트를 가져와 각각의 테이블로 만들고, 지역별로 다른 두 개의 테이블을 조인해 하나로 만들었다. 그리고 또 다른 채널 정보인 텍스트데이터를 가져와서 최종적으로 하나의 데이터셋을 생성했다. 이번에는 지금 갖고 있는 정보 외에 또 다른 변수를 생성해보도록 하겠다.

파생변수 ‘달성률’

‘질의 빌더 수정’을 클릭해 들어가면 영업대표의 타깃과 실적을 볼 수 있다. 여기서 타깃 대비 실적, 실적 대비 타깃의 비율에 따른 달성 등급을 파악해보는 변수를 만들어보자. 즉, 영업대표의 타깃과 실적을 이용해 ‘달성률’이라는 파생변수를 만들어보는 것이다.

새로운 파생변수를 만들 때는 오른쪽의 ‘새로운 계산 칼럼 추가’ 아이콘을 클릭해 유형 선택에서 ‘고급 표현식’을 선택, ‘다음’을 클릭하면 사용할 테이블이나 변수에 대한 데이터를 선택할 수 있다.

 
 
 
 

지금은 타깃 중에 ‘실적 비율’이라는 파생변수를 만들 것이다. 표현식(실적/타깃*100)을 입력하고 ‘다음’ 버튼을 클릭한 다음, ‘달성률’이라는 칼럼 이름을 입력하고 ‘다음’을 클릭해 추가한다. ‘마침’을 누르면 ‘달성률’이라는 칼럼이 생성된다. ‘미리보기’를 통해서 만들어놓은 달성률을 확인할 수 있다.

 
 
 
 

이 작업을 실행한 테이블은 ‘변경’ 버튼을 눌러 특정 라이브러리에 지정할 수 있다. ‘QUERY_FOR_TOY’를 최종 데이터셋으로 지정하고 ‘저장’한 뒤 ‘실행’ 버튼을 클릭하면, 기존 두 개의 테이블을 하나의 테이블로 만든 것 외에 ‘달성률’이라는 새로운 변수가 추가된 것을 확인할 수 있다.

 
 
 
 

지금까지 질의 빌더를 이용해 두 개의 테이블을 하나로 묶고, ‘달성률’이라는 새로운 변수를 파생해서 만든 데이터를 ‘QUERY_FOR_TOY’ 이름으로 저장하는 과정을 알아봤다.

파생변수 ‘달성률’ 이용한 달성등급 산출

이번에는 ‘달성률’이라는 파생변수를 이용해 ‘달성등급’을 산출해보자. 달성률이 100% 이상이면 ‘고(高)’, 100~70이면 ‘중(中)’, 70 이하면 ‘저(低)’로 등급을 나눠보겠다.

화면에서 ‘질의 빌더 수정’을 클릭, ‘새로운 계산 칼럼 추가’ 아이콘을 누른다. 유형을 ‘고급 표현’으로 선택하고 ‘다음’ 버튼을 클릭한다. 표현식으로 ‘달성률이 100% 이상이면 고(高), 100~70이면 중(中), 70 이하면 저(低)’를 입력하고 ‘다음’ 버튼을 누른다.

 
 
 
 

칼럼 이름(달성등급)을 정해주면 달성등급이 추가된 걸 확인할 수 있으며, ‘실행’ 버튼을 누르면 달성등급이라는 파생변수를 확인할 수 있다. 이렇듯 기본정보 외에도 달성률, 달성등급 등 추가적인 변수를 생성할 수 있다.

 
 
 
 

마스터테이블서 서브셋 데이터 만들기

이번에는 최종 마스터테이블에서 몇 가지 조건을 넣어 새로운 서브셋 데이터들을 만들어보자. 이를 위해 ‘필터 및 정렬’ 기능을 사용해 특정 조건의 데이터를 뽑아보도록 하겠다.

‘필터’ 탭에서 제품 브랜드로 ‘Novelty’를 선택하고 매출액을 기준으로 오름차순으로 정렬한 다음, ‘필터 및 정렬’ 본 메뉴로 돌아오면 ‘확인’ 버튼이 비활성화된 것을 볼 수 있다. 어떤 조건이 하나 부족하기 때문이다. 여기서는 현재 선택한 품목과 변수가 없는 것이 그 이유다.

 
 
 
 

본 학습에서는 전체 데이터를 끌어와서 하나의 데이터를 만들어볼 계획이다. 모든 변수를 포함하면서 특정 브랜드를 매출액 기준으로 오름차순으로 정렬하면 다음과 같은 출력 데이터가 나온다. 보는 것처럼 제품 브랜드는 ‘Novelty’만 지정돼있고, 매출액이 작은 값부터 오름차순으로 잘 정리돼있다.

분석에서 ‘필터 및 정렬’ 기능은 아주 간편해서 유용하게 활용하는 기능 중 하나다. 아울러 코딩을 이용해서 분석해야 할 경우에는 특정 메뉴를 드래그-앤-드롭, 클릭-앤-클릭을 통해 쉽게 분석할 수 있다.

 
 


지금까지 SAS 데이터셋으로 가져온 각기 다른 두 개의 엑셀 데이터를 하나로 합하고, 여기에 텍스트 데이터를 다시 합해 최종 마스터 테이블로 만드는 작업을 해봤다. 아울러 기존의 정보를 이용해 새로운 정보를 만들기 위한 파생변수도 생성해봤다.

이로써 본격적인 데이터 탐색을 위한 모든 준비를 마쳤다. 이제 데이터를 분석해보고 인사이트를 얻는 일만 남았다. 다음 학습에서는 데이터를 이용해 기초 통계분석을 수행해보겠다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지