정형·비정형 데이터, 지도·비지도 학습 모두 지원…시각화 기능도 뛰어나

[컴퓨터월드] 다보스 포럼에서 4차 산업혁명이 언급된 이후 빅데이터와 머신러닝은 지능형 사회의 핵심 화두로 떠올랐다. 국내에서도 예외는 아니다. 많은 기업과 기관들이 빅데이터와 머신러닝에 대해 관심을 보이고 있다. 그러나 이러한 관심에도 불구하고 머신러닝 도입에는 상당한 부담을 느끼고 있다. 전문 인력 부족과 경제적 비용 부담 때문이다. <편집자 주>

▲ 위세아이텍 ‘와이즈프로핏(WISEProphet)’

머신러닝을 적용하기 위해서는 원천 데이터를 확보한 이후 데이터에 대한 기본 정보 확인, 스케일링, 중복 값 제거, 학습을 위한 PCA(Principal Component Analysis: 주성분분석) 적용, 머신러닝 학습을 위한 피처 최적화 등의 데이터 준비 과정을 거쳐야 한다. 이후 피처에 대한 개선, 구성, 평가의 단계를 수행하고 최종 모델 선정 후 운영을 위해 머신러닝 모델을 배포한다. 배포된 머신러닝 모델은 신규 데이터를 기반으로 지속적으로 예측에 활용된다.

이러한 모든 프로세스는 데이터 과학자나 머신러닝 전문가에 의해 수행되며, 내용에 따라 차이는 있지만 보통 5~10개월이 소요된다. 머신러닝 프로젝트는 또한 한번 만들어진 모델을 계속 모니터링하고 개선하는 작업이 수반돼야 한다.

이처럼 프로젝트 기간이 길고 전문 인력이 부족해 기업들은 머신러닝 도입을 쉽게 결정하지 못하고 있다. 머신러닝 프로세스를 자동화할 수 있는 도구가 필요한 이유다.

위세 아이텍은 이런 문제를 해결하고자 와이즈프로핏(WISEProphet)을 개발했다. 위세아이텍의 와이즈프로핏 개발은 아래의 3가지 관점에서 출발했다.

■ 데이터만 있다면 머신러닝 프로젝트를 시작할 수 있을까?
■ 머신러닝 프로젝트를 쉽고 효과적으로 수행할 수 있을까?
■ 머신러닝 프로젝트를 엔지니어링 관점에서 체계적으로 지원할 수 있을까?

와이즈프로핏은 머신러닝 프로젝트 과정을 피처엔지니어링 기반으로 자동화한 플랫폼이다. 피처 엔지니어링이란 머신러닝 학습에 필요한 데이터셋 구성을 공학적으로 접근한 방법론으로 데이터 전처리를 포함한다. 피처 이해, 피처 개선, 피처 구성의 3단계로 구성되며, 각 단계에는 세부적인 테스크(task)들이 있다.

아래 화면에 보이는 피처 엔지니어링은 와이즈프로핏에 구현된 기능이다.

▲ 피처엔지니어링


피처엔지니어링이 필요한 이유?

예측의 성능 결과 향상을 위해서는 주로 두 가지 방법이 사용된다. 첫째는 피처 엔지니어링을 적용하는 것이고, 둘째는 머신러닝 알고리즘의 하이퍼파라미터를 최적화하는 것이다. 이 두 방법은 예측 성능향상을 위해서는 필수적이지만 비전문가가 수행하기엔 어려움이 있다.

그렇다면 피처엔지니어링을 적용했을 때 예측 정확도는 얼마나 향상될까?

▲ 피처 엔지니어링 적용 시 예측 정확도

위의 그림은 암 진단 데이터셋을 기반으로 해당 환자가 암인지 아닌지를 판별한 결과값이다. 화면 왼쪽은 원본 데이터 기준으로 피처엔지니어링 없이 각 알고리즘을 적용했을 때의 예측정확도고, 오른쪽은 피처엔지니어링 기법 중 스케일 조정만을 적용한 경우, 스케일 조정과 PCA(주성분분석) 둘 다 적용하였을 때 각 알고리즘의 예측 정확도다. 피처엔지니어링을 적용하면 전반적으로 알고리즘 정확도가 향상되는 것을 확인할 수 있다.


피처엔지니어링과 머신러닝 모두 적용 가능

와이즈프로핏은 머신러닝 과정을 자동화해 비전문가도 도구를 활용하여 머신러닝 작업을 수행할 수 있도록 지원한다. 일반적인 머신러닝 프로젝트는 데이터 전처리, 적합한 변수 선택, 적절한 모델 선택, 모델 하이퍼매개변수 최적화, 머신러닝 학습모델 평가, 평가결과 분석 등에 머신러닝 전문가가 필요하지만 와이즈프로핏은 다양한 모델을 자동으로 실행하고, 하이퍼매개변수의 자동설정을 제공함으로써 도메인 전문가도 프로젝트를 수행할 수 있다.

이러한 자동화된 기계학습을 위해 와이즈프로핏은 다음과 같은 네 가지 요소를 갖추고 있다.

▲ 와이즈프로핏이 갖추고 있는 4가지 요소

와이즈프로핏은 다음과 같은 네 가지 장점을 갖고 있다.

▲ 와이즈프로핏의 4가지 주요 장점

첫째 코딩이 필요하지 않다. 머신러닝 전체 과정을 마우스 클릭만으로 처리할 수 있어 비전문가도 어려움 없이 사용할 수 있다.

▲ 와이즈프로핏 화면-데이터 이해부터 모델 배포까지

둘째, 정형/비정형 데이터를 모두 지원한다. 비정형 텍스트와 이미지로부터 필요한 피처를 추출하고 이를 정형데이터로 변수화해 머신러닝 학습에 활용할 수 있도록 한다.

▲ 비정형 텍스트 데이터의 정형변수화

셋째, 지도학습, 비지도학습 모두 지원한다. 라벨링된 데이터를 학습하는 지도학습 뿐만 아니라 비지도 학습인 클러스터링도 지원한다. 와이즈프로핏은 기본적인 머신러닝 알고리즘은 물론 XGBoost, LSTM, 딥러닝 알고리즘도 제공하고 있다.

▲ 비지도학습 적용 화면

넷째, 시각화를 제공한다. 예측 결과를 대시보드 형태로 제공하기 때문에 다양한 표현이 가능하다.

▲ 예측결과 시각화 화면

와이즈프로핏은 이외에 최종 모델이 확정되면 모델 배포를 통해 신규 데이터에 대한 예측을 수행하며, 스케줄에 따라 정해진 시간에 예측 모델을 실행하고, 성과를 모니터링 할 수 있는 관리 기능을 제공한다. 또한 사용자가 파이썬으로 직접 작성한 모델도 와이즈프로핏 내에서 쉽게 배포할 수 있다.

특히 와이즈프로핏 기반으로 실제 적용된 예측정비, 위험 예측, 부당청구 탐지, 개인화 추천과 같은 산업별 머신러닝 모델을 번들로 제공해 와이즈 프로핏을 도입한 고객의 사업 수행을 더욱 효과적으로 지원하고 있다.

김지혁 위세아이텍 연구소장은 “인공지능의 높은 예측률은 원천 데이터의 전처리 및 피처 엔지니어링 과정에서 판가름 난다”며, “해당 프로세스의 자동화를 통해 사용자들이 쉽게 도구를 사용할 수 있어 고객사의 만족도가 높다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지