“기계학습도 도구일 뿐, 그 활용은 사람의 몫”

[아이티데일리] 매 연말연시가 되면 글로벌 IT시장조사기관에서는 새해를 이끌 핵심 키워드를 소개한다. 2016년을 앞두고도 어김없이 새해 주목할 IT트렌드가 제시됐고, ‘머신러닝(Machine Learning)’은 가장 많이 언급된 키워드 중 하나로 꼽힌다.

인공지능(AI) 분야에 속하는 머신러닝(기계학습)은 데이터에 내재된 패턴, 규칙, 의미 등을 컴퓨터로 하여금 알고리즘을 기반으로 스스로 학습하게 해, 새롭게 입력되는 데이터에 대한 결과를 예측 가능하도록 하는 기술이다. 이미 글로벌 IT기업들은 이를 활용해 기존 서비스를 고도화하는 동시에 새로운 비즈니스 영역을 개척하고 있다.

2016년 새해에는 머신러닝이 양과 질적 측면 모두에서 크게 진화하고 본격적으로 활용된다는 것이 관련 업계의 중론이다. 가트너에서는 인간의 신경망을 모태로 한 데이터 처리방식인 딥러닝(Deep Learning)이 기계에 적용돼 사람이 하는 수준만큼 데이터를 분석할 수 있게 된다는 전망까지 내놓고 있다.

사실 머신러닝은 이미 1950년대부터 시작된 개념이다. 최근 들어 새롭게 조명되는 이유는 그동안 데이터가 많아져 빅데이터를 이뤘고, 이를 처리하기 위한 컴퓨팅 능력과 기술이 향상됐으며, 기계를 학습시킬 수 있는 알고리즘이 발달했기 때문일 것이다.

머신러닝은 다양한 분야에서 혁신을 일으킬 것으로 예상되지만, 세간에는 이와 관련해 오해도 적지 않은 실정이다. 그렇다면 머신러닝을 어떻게 바라봐야 할까? 다음은 이에 대한 SAS 측의 견해다.


머신러닝은 모두에게 블랙박스와 같다

기존의 전통적인 통계모델과 달리 머신러닝 알고리즘으로 개발한 모델은 비선형적인 경우가 많아, 모델을 정의하는 규칙이나 매개변수가 수천 개, 심지어 수십억 개까지 이를 수 있다. 따라서 A 더하기 B가 항상 C가 되지는 않는다. 즉 머신러닝의 정확한 처리경로는 데이터 사이언티스트에게도 해독하기 어려운 블랙박스인 셈이다.

예를 들어 어떤 사람이 특정 행동을 할 때까지는 사고과정이나 나름의 논리체계가 있지만, 우리가 그 체계를 한눈에 이해할 수는 없다. 그 사람의 복잡한 뇌 신경망에 들어가서 정확한 경로를 추적할 수는 없기 때문이다. 머신러닝도 마찬가지이므로, 정확한 처리경로보다는 알고리즘 또는 체계가 해당 문제의 예측에 적절하게 적용됐는지 여부가 중요하다.


백문이 불여일견, 신뢰하되 검증하라

처리경로가 해독하기 어려운 블랙박스라고 해서 결과만을 무조건 믿어서도 안 되며, 신뢰하되 검증 또한 필수다. 분석적 메커니즘이 명확치 않고 재현도 쉽지 않은데 결과를 어떻게 검증해야 할까? 답은 간단하다. 이 알고리즘이 미래 이벤트나 결과를 원하는 대로 정확히 예측했는지, 그리고 그 결과가 유용한지 생각하면 된다. 그 이상도 이하도 아니다.


때로는 작아야 많이 담을 수 있어

머신러닝에서는 간단한 알고리즘에 많은 데이터가 있는 것이 복잡한 알고리즘에 적은 데이터를 갖는 것보다 효과적일 때가 종종 있다. 대량 데이터셋이 다소 불규칙하고 복잡한 경우도 마찬가지다.

경험이 많지 않은 데이터 사이언티스트에게는 알고리즘이 복잡할수록 좋아 보일 수 있다. 물론 모델의 정확성은 높을수록 좋다. 하지만 실제로 대부분의 경우 모델의 정확성이 조금 향상된다고 해서 그만큼 운영이 개선되지는 않는다. 또한 데이터와 기능을 늘려서 굳이 알고리즘을 복잡하게 만들 필요도 없다. 복잡성과 실용성 사이에서 균형점을 찾는 것이 중요하다.


머신러닝은 분석도구 중 하나

머신러닝은 분석을 위한 여러 도구 중 하나다. 도구는 목적에 맞게 잘 사용해야 제대로 성능을 발휘한다. 머신러닝이 학계에 먼저 등장했을 때 얼리어답터들은 기존 분석 알고리즘으로 쉽게 해결 가능한 문제에도 이를 적용하면서 불필요한 시간과 노력을 쏟기도 했다. 머신러닝은 해석보다는 정확성이 중요한 사안, 기존 분석기술에서 문제점을 드러낸 데이터 분석에 더욱 유용하다.

▲ SAS 인메모리 스태티스틱스 포 하둡

SAS의 분석 솔루션에도 각종 머신러닝 기술이 적용됐다. SAS 하둡용 인메모리 스태티스틱스(SAS In-Memory Statistics for Hadoop)의 경우 ▲밀도 기반 군집화(DBSCAN) 알고리즘과 k-평균 군집화 알고리즘 기술이 적용된 자율학습(Unsupervised Learning) ▲SAS 버전의 랜덤포레스트(Random Forest)라 할 수 있는 랜덤우즈(Random Woods)를 제공하는 지도학습(Supervised Learning) ▲실시간으로 맞춤형 추천을 생성하는 추천엔진 등을 지원, 이를 다양한 분석 접근방법에 적용함으로써 인사이트를 찾아 의사결정을 내릴 수 있다.


응용은 사람의 몫

이렇듯 머신러닝의 체계는 애매모호할 수 있고, 실제로 이해하기 어려운 경우도 많다. 알고리즘 해독이 어렵기는 하지만, 과학적 체계와 인간의 커뮤니케이션 기술을 사람이 직접 응용해야 하는 것이 바로 머신러닝이다. 단순히 데이터를 첨가해 휘젓는 것만으로 머신러닝의 레시피가 완성되지는 않는다.

머신러닝은 사람과 기계의 협업이다. 따라서 알고리즘을 프로그래밍하는 데이터 사이언티스트 외에도 아래와 같은 질문에 답할 수 있어야 한다.

- 무엇을 예측하려 하는가?
 예측하려는 것이 명확히 정의된다면 어떤 데이터를 통합해 분석할지 쉽게 결정할 수 있다.

- 결과는 어떻게 적용할 수 있는가?
 머신러닝은 행동 예측이 뛰어나지만, 그 방법의 정의에는 어려움이 따를 수 있다.

 - 적절한 대응 방법은 무엇인가?
 예를 들어 전 세계적으로 파급이 큰 패턴이 발견될 경우 당신은 어떻게 대응할 것인가?

- 결과가 기대와 일치하는가? 혹은 해결해야 할 예외가 있는가?
 머신러닝은 그리 만만치 않다. 최근 구글 사진의 피사체 자동인식 시스템은 흑인 사진을 고릴라로, 백인 얼굴을 개나 물개로 혼동한 적도 있다.

- 현실적 용도에 맞추려고 모델을 지나치게 조정해야만 하는가?

이 다섯 가지 질문을 스스로 묻고 이에 대해 답할 수 있을 때 비로소 머신러닝은 그 가치를 제대로 발휘할 것이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지