반복적인 보상 함수 구성 간소화해 프로젝트 기간 단축 및 비용 절감 가능

[아이티데일리] 애자일소다(대표 최대우)는 기업의 비즈니스에 강화학습을 적용하는 데 활용할 수 있는 ‘데이터 기반 강화 학습 장치 및 방법’ 관련 국내 특허를 지난 20일 취득했다고 밝혔다.

강화학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트(agent)를 다루는 머신러닝의 한 분야다. 행동의 주체인 에이전트가 어떤 행동을 해야 더 많은 보상(reward)을 받을지 알아내는 것을 목적으로 한다. 따라서 보상을 어떻게 책정하느냐가 학습 결과에 크게 영향을 미치며, 이 부분이 강화학습 프로젝트의 핵심이다.

강화학습이 많이 사용되는 게임 등에서는 점수라는 명확한 보상이 제시돼 있지만, 비즈니스 환경은 사업목적에 맞는 보상체계를 정하기가 용이하지 않기 때문에 다양한 보상 설정을 반복하면서 실험해야 한다. 분석가들은 최적의 모델을 개발하기 위해 임의로 보상 점수를 부여하고, 학습 결과를 보며 재조정하는 시행착오 과정이 필요했다.

애자일소다는 이런 어려움을 개선하기 위해 다양한 기업 프로젝트에 대한 경험을 바탕으로 ‘기업의 목표와 성과를 일치(Align)시킬 수 있는 보상 함수 알고리즘’을 개발하고, 실제 프로젝트를 통해 가능성을 입증하며 특허를 획득했다. 이를 통해 분석가들은 보상 설정에 필요한 시간과 공수를 획기적으로 단축시킬 수 있으며, 반복적인 학습-재조정 과정에 필요한 대규모 컴퓨팅 리소스도 절약할 수 있어 비용 또한 크게 절감할 수 있다는 설명이다.

최대우 애자일소다 대표는 “이번 특허의 기술은 출시를 앞두고 있는 강화학습 솔루션 ‘베이킹소다’에 적용될 예정이며, 비즈니스 의사결정 최적화에서 강화학습의 가능성을 내다보던 선도적 분석가들에게 강화학습 도입을 적극적으로 검토하는 계기가 될 것으로 본다”며, “앞으로도 애자일소다는 강화학습의 비즈니스 적용에 지속적인 관심을 갖고 연구해 나갈 계획이며 추가적인 국내외 특허 출원도 준비하고 있다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지