알렉산더 린든(Alexander Linden) 가트너 리서치 부문 부사장

▲ 알렉산더 린든(Alexander Linden) 가트너 리서치 부문 부사장

[컴퓨터월드] 기계 학습은 매일 사용하지만 인지하지 못할 정도로 우리 삶에 만연한 기술이다. 실제 인터넷 검색, 일기예보 확인, 운전, 스마트폰 음성인식기능 사용 등이 기계 학습을 활용한 혜택들로, 오늘날 기계 학습은 컴퓨터 과학의 한계를 재정의하고 확대하는 핵심 촉매제라 인식되고 있다.

기계 학습의 기본 개념은 수십 년 전에 정립됐지만, 이에 대한 관심이 최고조에 달한 것은 최근이다. 일례로 기계 학습은 미국 스탠포드 대학에서 가장 인기 있는 과목으로, 760명에 달하는 학생들이 석사 과정을 밟고 있다. 최근 가트너 연구에 따르면, 기계 학습을 포함하는 첨단 분석(Advanced Analytics)이 비즈니스 분석 소프트웨어 시장에서 가장 빠르게 성장 중이다. 기계 학습 분야의 성장을 주도하는 요인들은 다음과 같다

● 고객과의 상호작용 및 소셜 미디어, 센서, 연결 기기, 기계로부터 생성되는 방대한 양의 데이터
● 노련한 엔지니어조차 서로 연결된 하위시스템의 복잡성과 해당 시스템간의 상호작용으로 발생하는 시스템 역학을 완전히 이해하기 어렵다는 점
● 전통적인 시스템 공학이 비용효율적인 솔루션 도출에 있어 장애물로 작용한다는 자각
● 저렴한 인메모리 스토리지, 고속 컴퓨터 하드웨어, 사용이 간편한 클라우드 솔루션의 등장

기술 설명

기계 학습의 중심에는 데이터로부터 지식 추출을 목표로 하는 여러 통계적 프레임워크가 존재하며, 추출하고자 하는 지식과 가용 데이터의 종류에 맞는 프레임워크 선택이 가능하다. 이러한 기계 학습 프레임워크로는 데이터의 군집화(clustering)와 차원 축소(dimensionality reduction)를 위한 자율 학습(unsupervised learning), 능동 학습, 준지도 학습(semisupervised learning), 강화 학습 등이 있다.

가장 대표적인 기계 학습은 ‘지도 학습(supervised learning)’으로, 전체 기계 학습 관련 용례의 95%에 해당한다. 지도 학습의 필수 요소인 ‘훈련 데이터(training data)’는 기계 학습 모델을 가르치는데 사용되는 개념으로 기계 학습이 제공해야만 하는 관측값과 결과값 간의 바람직한 대응관계(mapping)를 설명한다. 이러한 대응관계를 활용해 매출, 수요 등의 정량예측이나 기계 고장, 고객 구매/이탈 같은 특정 상황의 분류, 해당 상황이 일어날 가능성을 예측할 수 있다.

지도 학습에서의 모델 선정(Model Selection)이란, 특정 데이터로부터 예측하고자 하는 상황을 매핑(Mapping)하거나 추상적인 패턴을 설명하는 방식을 고르는 것이다. 가장 단순한 유형에는 선형 회귀 분석(Linear Regressions) 또는 성과지표(Scorecards)가 있고, 조금 발전된 형태에는 의사결정 트리(Decision Trees)와 신경 회로망(Neural Nets)이 있으며, 현재 가장 발전된 유형으로는 앙상블 모델(Ensemble Model)과 심층 신경 회로망(Deep Neural Nets)이 있다.

지도 학습

소매 유통업자가 특정 소매점에서 한 고객의 지출액을 추정하고자 한다고 상상해보자. 계산을 단순하게 하기 위해 고객을 해당 소매점으로부터 거주지까지의 거리, 즉 (x)에 따라 구분하기로 한다. 각 고객(x)가 소매점을 방문할 때마다 소비하는 지출액(y)을 예측해보라.

현실에서는 수백만 개의 데이터 포인트를 고려해야겠지만, 여기서는 훈련 데이터를 구성하는 데이터 포인트가 오직 4개라고 가정한다. 만약 데이터 사이언티스트들이 선형 회귀를 사용한다면, 지출액 (y)는 라인 a*x+b로 계산되고, 해당 라인에서 ‘a’는 기울기(slope), ‘b’는 교차점(intercept)에 해당한다.

▲ 지도 학습의 이해(출처: 가트너(2014년 8월)
 

기울기와 교차점을 구하는 과정은 데이터를 수학적 최적화 프로세스(Mathematical Optimization Process)에 적용하는 것이며, 이는 주어진 훈련 데이터에 가장 근접한 라인을 도출하려는 것이다.

선형 회귀와 로지스틱(logistic) 회귀 모델의 개념 자체는 단순하지만, 이들은 기계 학습 분야에서 가장 성공적인 모델이다. 통계학계 순수주의자들은 이 모델들을 기계 학습이라 칭하는데 반대할 수 있지만, 개념 자체는 동일하며 실제 기계 학습에서 훌륭한 성과를 내고 있다. 앞서 든 예에서 선형 회귀 분석을 활용하면, 가장 가까운 소매점으로부터 15마일 떨어진 곳에 사는 고객의 지출액을 80달러로 예측할 수 있다.

운영 요건

패키지 애플리케이션 이용이나 자체 시스템 구축에 있어서 기계 학습 솔루션의 운영 라이프 사이클을 이해하는 것이 무엇보다 중요하다. 운영 라이프 사이클은 다음 5단계 모델로 설명될 수 있는데, 이는 여러 산업에 적용 가능한 CRISP-DM(Cross Industry Standard Process for Data Mining) 방법론의 단순화된 버전이다. 기계 학습 운영 사이클은 다음의 과정을 포함한다.

▲ 출처: CRISP-DM으로부터 추출

● 비즈니스 이해 (Business Understanding)
● 데이터 이해 (Data Understanding)
● 데이터 준비 및 특징 엔지니어링 (Data Preparation and Feature Engineering)
● 검증과정을 포함한 모델 프로토타이핑 (Model Prototyping)
● 모델 설치 (Model Development)

1~2단계는 당면한 비즈니스 문제와 관련 비즈니스 프로세스에 대한 기본적인 이해를 바탕으로 가용 데이터 소스 중 활용 가능한 데이터를 모으는 작업을 포함한다. 비즈니스 문제에 대한 깊은 이해 없이는 기계 학습 프레임워크에 맞게 데이터를 적절히 변환하는데 실패할 수 있다.

3단계는 데이터 사이언티스트들이 종종 작업 시간의 대부분을 할애하는 ‘데이터 준비’와 ‘피처 엔지니어링’ 단계이다. 이 단계의 목표는 정확한 예측과 진단값을 제공할 가장 연관성 있는 데이터 파트에 접근하는 것이다. 또한, 데이터가 기계 학습 시스템에 적용되는 방식과 관련이 깊다. 이를 피처 엔지니어링이라 부르며, 대부분 시행착오를 통해 행해진다. 3단계에서 많은 시간이 소요되는 만큼, 데이터 과학자는 대량의 데이터를 거르고, 변환하고, 합치고, 분류하는 전문가, ‘데이터 랭글러(data wrangler)’의 도움을 받기도 한다.

4단계에서는 훈련과 검증이 이뤄지며, 계산적으로 까다로울 수 있다. 특히, 심층 신경 회로망이나 서포트 벡터 머신(support vector machine)과 같이 복잡한 기계 학습 모델을 사용할 때 더욱 그러하다. 테스팅 단계 자체도 계산적으로 까다로울 수 있으며, 데이터가 부족해 전문가 검증 테크닉이 요구되는 경우 특히 그렇다.

5단계는 최종 결과를 구현할 수 있는 비즈니스 프로세스 인프라가 필요한 단계이다. 이 단계의 목적은 더욱 정확한 의사 결정을 위해 기계 학습에서 도출한 패턴을 비즈니스 환경에 적용하는 것이다. 일반적인 모델 구축 방법에는 인-데이터베이스 스코어링(in-database scoring), 예측모형표시언어(Predictive Model Markup Language), R언어(R language), 서비스지향 아키텍처(SOA: Service-Oriented Architecture) 또는 룰 엔진(rule engine) 등이 있다.

일반적으로 위 5단계는 반복된다는 점을 유념하라. 특정 단계를 수행하는 동안, 전체 솔루션을 개선하기 위해 이전 단계로 돌아가서 변경을 진행할 수 있다.

사례

기업의 기계 학습 활용 사례는 매우 다양하다. 그 중 몇몇 기능 및 산업 사례를 제시한다.

● 영업 및 마케팅

- 제품 추천(product recommendation)이나 최적 대안 제시(next best action)등 최신 마케팅 기법에서, 구매 가능성이 가장 높은 제품을 예측하기 위해 기계 학습 모델이 사용된다. 구매 경향(propensity-to-buy) 모델이라고도 불리는 이 모델은 최근 구매내역, 개인정보와 같은 고객 프로파일을 입력정보(input)로 활용해 해당 고객이 주어진 제안에 반응할 가능성을 예측한다.

- 고객 이탈 경향(customer churn propensity)은 위 사례와 매우 유사하지만, 고객의 이탈 경향을 추정한다는 점이 다르다.

- ‘다이내믹 프라이싱(Dynamic Pricing)’ 기계 학습 모델은 과거 매출, 날씨, 경쟁관계 등 내·외부 요인을 감안하여, 특정 가격대에서 해당 제품에 대한 수요를 예측한다.

● 위험 및 사기 관리

- 이상거래탐지(fraud detection) 과정에서 기계 학습은 일반적으로 특정 거래의 발생 가능성을 예측하는데 사용되며, 현재 진행 중인 거래의 위험도가 얼마나 높은지 보여준다.

- 신용위험(credit risk)에서 기계 학습 솔루션은 대출 신청자의 사회경제적인 특성, 신용정보와 지급이력과 같은 세부정보를 바탕으로 특정 대출에 대한 채무불이행 가능성을 예측한다.

● 공공 서비스, 스마트 시티, 스마트 교통

- 예측 방범 수사(predictive policing)는 날씨, 계절, 교통, 스포츠 이벤트, 최근 범죄 및 죄수 석방 현황 등과 같은 도시의 현 요건을 감안하여, 해당 도시 내에서 공공범죄, 살인, 절도 등의 특정 범죄가 일어날 가능성을 예측한다. 이와 같은 범죄 예측이 적중할 가능성은 매우 낮지만, 전반적으로 순찰 인력을 적절히 배치하는데 훨씬 효과적이다.

- 구급차 경로 배정(emergency car routing)의 경우, 병원 직원 수, 환자 데이터, 입원 중인 환자들의 증상과 같은 투입 변수들(input factors)을 이용하여, 여러 병원의 응급실 대기시간을 대략적으로 예측하고, 구급차가 대기시간을 최소화 할 수 있는 방안을 알려준다.

- 자원 배분(resource allocation)은 기계 학습 회귀 문제로 공식화할 수 있다. 수요 이력, 날씨, 센서 데이터 또는 교통 상황 등과 같은 입력정보를 사용해 수요를 측정한 후 자원을 적절히 배분하는데 활용 가능하다. 뉴욕시의 씨티 바이크(Citi Bike), 시카고의 디비 바이크스(Divvy Bikes), 암스테르담의 맥바이크(MacBike)와 파리의 벨리브(Velib) 등 다양한 도시의 자전거 공유 시스템이 실제 기계 학습을 활용 중이다. 특정 역에서 이용 가능한 자전거 수가 문제가 되곤 하는데, 이용률을 최대화하기 위해 자전거 재고량이 지속적으로 조정될 필요가 있다.

- 교통 최적화(Traffic Optimization)는 센서 데이터(sensor data), 사고, 도로 공사 상황을 활용해 교통체증 패턴을 파악하는 것으로 실현 가능하다. 여기서 기계 학습은 교통 체증 또는 도로 통제 등을 예측하고 대중 버스, 승용차, 상업용 차량에 빠른 경로를 제안한다.

- 차량 자동화(Vehicle Automation)에서 타 차량이나 보행자와의 충돌을 막기 위해 차의 위치를 조정하는 자동 조향(steering) 기술은 꽤 까다로운 문제이다. 자동 조향을 기계학습에 적용하면, 디지털화된 자동차의 전방 조망을 자동차 앞바퀴 위치에 대략적으로 맞출 수 있다. 구글(Google)의 경우, 스트리트 뷰(Street View) 프로젝트를 위한 사진 데이터를 수집하며 그 부산물로 자동 조향에 필요한 훈련 데이터를 모으는 중이다.

● 공급 사슬 프로세스 및 디지털 생산

- 자산 성능 관리(asset performance management)에서 기계 학습은 풍력 터빈, 태양열 패널, 핵 원자로 등의 자산에 대한 운영 조건을 입력정보로 활용해 장애 발생 시점을 예측한다. 유지보수 비용을 줄이고, 다운타임을 최소화하는 것이 목적이다.

- 생산 과정(production processes) 최적화의 경우, 생산 과정의 현 성능 지표를 입력 정보로 취한 다음, 생산 과정의 어느 곳에 가변성이 존재하는지, 이러한 가변성을 어떻게 관리 또는 제거할 것인지 결정한다. 이는 제품 단가를 최소화하고, 장비 가동률을 개선하는 동시에 다양한 제품 구성을 수용하는데 도움을 준다.

- 창고 자동화(warehouse automation)에서 기계 학습은 작업량, 제품 위치, 설비 가동률뿐만 아니라 고객 수요, 창고 통로의 실시간 이미지, 서비스 수준 등의 입력 정보를 취해 창고 자원을 최적화하고 더 나아가 생산성 개선과 비용 최소화를 달성한다.

- 원격 탐사(remote sensing)에서 기계 학습은 이미지, 적외선 또는 방사선 수준 등 사물에 대한 감각 수치를 입력정보로 취하여, 해당 물체를 재구성한다. 이는 인력에 의한 직접 조사가 불가능하거나, 많은 비용이 요구되는 위험한 환경의 산업 분야에서 다양하게 활용된다.

● 헬스케어

- 컴퓨터 지원 진단(computer-aided diagnostics)에서 기계 학습은 바이털 사인, 증상, 실험실 검사 또는 독성물질 노출 등과 같은 환자의 상태를 입력정보로 삼아 질병을 진단하고, 심지어 치료법을 제안한다. 의사들의 반대와 시스템에 대한 사회적 확신 부족으로 컴퓨터 지원 진단 시스템의 보급은 더딘 상황이지만 증거 기반 진단(evidence-based diagnostics) 시스템이 지속적으로 개선됨에 따라 곧 변화가 있을 전망이다. 현재 센서가 급속히 확산되는 것을 고려하면, 기계 학습이 의사들보다 더 정확한 진단을 제공할 수 있을 것이다.

- 직원 대상 조기 경보 시스템(early-warning systems for employees)에서 기계 학습 모델은 공기 오염도, 장비 성능, 직원 생산성과 이상 행동 등 위험 환경에서의 센서 데이터를 분석해 사고 가능성을 예측한다. 트럭 운전자들에게 잠재적 사고를 알리기 위한 용도로 널리 채택돼온 바 있다.

● 사용자 인터페이스 개선을 위한 인지 능력

최근 심층 신경 회로망의 발전으로, ‘듣기,’ ‘읽기’, ‘보기’ 등 컴퓨터와 기계의 인지능력이 확장되고 있다.

- 음성 인식(speech recognition)은 기본적으로 음향 데이터가 텍스트 데이터로 변환되는 맵핑 작업을 의미하며, 거대 훈련 데이터 세트에 기반한다. 최근 심층 신경 회로망과 같은 고급 분석 테크닉 유형이 음성 인식을 상당히 개선했다.

- 텍스트 분석(text analytics)은 대량의 텍스트 집합을 지식 그래프로 표현하는 것이다. 이 작업은 주로 텍스트 내에 독립된 개체들과 그들의 관계를 식별함으로써 이루어진다. 이런 식별 작업은 점차 기계 학습에 의존하고 있으며, 기계 학습은 텍스트가 관련 개체와 대응되는 과정을 담당한다. 관련 분야 또한 빠르게 발전 중이다.

- 이미지 인식(image recognition)은 “사진 속 팬 날개에 흠이 없는가?” 혹은 “이 길거리 사진 속에 사람이 있는가?”에 따라 사진을 분류하는 것이다. 이미지 인식의 한 분야인 얼굴 인식(Face Recognition)은 얼굴 이미지의 비트맵을 인식해, 해당 인물의 이름을 제공한다.

● 혜택과 위험

문제의 복잡성이 증가하면서 시스템 설계자와 솔루션 엔지니어가 문제를 완전히 이해하는데 더 많은 시간이 소요되며, 최악의 경우, 문제 해결 자체가 불가능해지고 있다. 기계 학습은 디지털 비즈니스 시나리오가 가진 복잡성을 해결할 수 있는 몇 가지 방안을 제시한다.

- 기계 학습이 보유한 데이터 융합 능력은 다양한 데이터 소스를 간단히 입력 벡터(input vector)로 연결시킬 수 있어 데이터 다양성 문제를 해결한다.

- 기계 학습은 데이터 내에서 특정 패턴을 예측할 수 있는 단서를 사용한다. 전문가 또는 전통적인 소프트웨어가 어떤 패턴을 감지할 수 없을 만큼 산발적이고 고차원적인 데이터를 처리해야 하는 경우, 기계 학습이 문제를 해결할 수 있다.

- 기계 학습을 사용하면, 사람이 문제의 개념을 완벽하게 이해할 필요가 없다. 자동 조향 장치의 경우, 조향 장치의 물리학적인 개념 정도는 알아야겠지만, 자동차의 전면에 맞춰 차선에 맞춰 바퀴의 위치가 어떻게 바뀌는가는 알 필요가 없다.

- 기계 학습은 고객 참여도, 신용정보 심사과정(credit underwriting), 품질 모니터링과 같이 일관성 유지가 중요한 경우, 전문 인력보다 훨씬 일관된 솔루션을 제공한다.

인간 학습(human learning)과 달리, 기계 학습은 대량의 데이터세트를 처리하고, 새로운 요인을 고려해 지식을 지속적으로 업데이트 할 수 있다. 그러나 다양한 혜택에도 불구하고 기계 학습은 위험요소와 한계를 가지며, 그 중 일부는 아래와 같다.

- 과적합(over-fitting) 또는 과도한 일반화(Overgeneralization) 문제는 기계 학습 방식이 너무나 강력해서 훈련 데이터를 추상화하지 않고 완전히 암기했을 때 발생한다. 이는 일반적인 패턴을 도출해 내지 못하게 하며, 그 결과 해당 시스템이 새로운 정보 및 환경을 다루지 못하게 된다. 이 문제를 해결하려면 시스템의 규칙화를 제한하고, 포괄적인 테스트를 통해 결과 모델을 항상 검증해야 한다.

- 모델 성능 약화(model performance deterioration) 문제는 과거 현상들이 더 이상 미래에 유사하게 일어나지 않을 때 발생한다. 유동적인 물가상승률, 계절 변화, 새로운 마케팅 방법 및 제품 출시와 같이 새롭고 예측이 어려운 시장 변화들로 인해, 모델이 ‘고장(breaking)’나는 것이다. 모델의 성능이 저하되고, 심지어 잘못된 예측과 결정을 내릴 수 있기 때문에, 모델의 성능을 지속적으로 모니터링 하는 것이 매우 중요하다.

- 활용할 수 있는 정확한 데이터가 충분하지 않을 경우도 문제다. 기계 학습 프로젝트의 실패는 종종 부정확하고 완전치 못한 데이터에서 기인한다. 실제로 지진 발생 예측과 유사한 품질 또는 장애 예측은 데이터 부족 때문에 아직 해결이 어렵다. 어떤 경우는 과거 중 일부만 관측해서 장기적인 데이터가 부족한 것이 문제이기도 하고, 요구되는 일부 데이터가 비싸거나 수집 자체가 불가능해 데이터가 완전치 못한 것이 문제가 되기도 한다. 그러나 데이터는 실험을 통해 직접 수집할 수도 있고, 외부 소스를 통해 조달해 올 수도 있다. 예를 들어, 데이터베이스 마케팅의 경우, ‘테스트 캠페인(test campaigns)’을 실시하여 유용한 데이터를 얻을 수 있다.

- 영역 복잡성(Domain Complexity)이란, 기계 학습 모델이 물리학이나 생물학과 같은 분야의 심층적 전문지식을 터득할 수 없다는 사실에 기반한다. 복잡하고 예측 불가능한 주제의 뉘앙스를 기계 학습이 이해할 수 없기 때문에, 법원 판결에 대한 정확한 예측 역시 현재 불가능하다. 유사한 원리로, 기계 학습은 과거 학습된 내용을 전후 사정과 관련지어 다른 영역에 적용하지 못하기 때문에, 물리학과 금융 서비스 같은 분야 간 차이점을 이해하지 못할 수 있다.

- 샘플링 오류 및 편향(Sampling Error or Bias) 문제는 데이터 수집 방법이나 데이터 축소 행위 때문에 데이터가 현실을 반영하지 못해 일어나는 흔한 문제다. 한 예로 행인에게 설문지 작성을 좋아하는지 묻는 경우를 들 수 있다. 한 팀이 밖에 나가 2만개의 설문지를 받아왔다면, 응답자들이 설문지 작성을 좋아한다고 해석할 수 있다. 그러나 5만 명의 사람들에게 물어 2만개의 설문지 응답을 받은 것이라면 설문지 작성을 싫어하는 3만 명의 답변을 놓친 셈이 된다.

- 미래 데이터 유출(Data Leakage from the Future)이란 과거 데이터에만 해당하는 입력 데이터에 미래 데이터를 포함시키는 경우를 말하는데, 숙련된 데이터 사이언티스트들도 종종 이런 실수를 범한다. 예를 들면 부동산 가격을 예측할 때 매입 이후 지불하는 인지세 및 부동산 수수료와 같은 데이터를 입력 데이터에 포함시키는 경우다. 이런 모델은 데이터 검증까지는 매우 우수한 예측 성능을 보이다가 실제 구축 시에는 굉장히 낮은 적중률을 보인다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지