[화제의 현장] “변화하는 AI·머신러닝 트렌드에 최적의 대응방안 제시”

위세아이텍, ‘AI 개발전략과 산업별 사례’ 세미나 개최, 혁신 사례 공유

▲ 지난달 11일, 위세아이텍이 자사의 AI 관련 기술력과 적용 사례를 공유하는 세미나를 개최했다.

[아이티데일리] 위세아이텍(대표 김종현)이 지난달 11일 ‘인공지능(AI) 개발전략과 산업별 사례’ 세미나를 개최했다. 이번 세미나는 위세아이텍이 축적한 AI 관련 기술력과 국내 다양한 산업분야에 적용해온 경험을 바탕으로, 실제 산업 현장에서 AI를 어떻게 개발하고 적용할 수 있는지 공유하는 자리로 마련됐다.

김종현 위세아이텍 대표는 “최근 AI 트렌드는 과거의 알고리즘 중심에서 데이터 전처리, 모델학습, 예측 등 다양한 요소들을 어떻게 잘 연결해서 애플리케이션을 구축하느냐 하는 공학적·개발적 관점으로 가고 있다”며, “위세아이텍은 20여년 간 데이터 전문 기업으로 다양한 데이터를 정리·분석하며 노하우를 쌓아왔고, 이러한 노하우를 기반으로 AI를 누구보다 정확히 이해하고 개발할 수 있게 됐다”고 말했다. 김종현 대표는 이날 세미나에서 발표될 세션들에 대해 간략히 소개하며, AI를 개발하고 이용하는 선진화된 방법을 전달하겠다고 강조했다.

머신러닝 자동화와 AI 개발 전략

첫 번째 세션은 김지혁 위세아이텍 연구소장이 ‘머신러닝 자동화와 AI 개발전략’이라는 주제로 발표에 나섰다. 김지혁 연구소장은 먼저 “머신러닝 프로젝트를 추진하기 위해서는 그에 맞는 프로세스를 갖춰야 한다”며, 데이터 수집과 이해, 전처리, 모델 학습, 결과 예측 및 시각화 등으로 이어지는 일련의 머신러닝 프로세스에 대해 설명했다.

머신러닝 프로세스는 데이터를 다루는 경험이 부족한 일반 기업에서 따라하기 어렵다. AI와 머신러닝이 트렌드라는 이유만으로 계획 없이 프로젝트를 시작할 경우 개별화된 엑셀 데이터 분석 정도에 그치기 쉽고, 검증된 오픈소스를 활용해 머신러닝 모델을 만들고자 하더라도 해당 역량을 갖춘 전문가가 부족해 충분한 성능을 기대하기 어렵다. 새롭게 시작할 경우 모델 개발 단계에서부터 많은 시간이 소요됨에 따라 변화에 대한 대응이 미흡한 것도 문제로 지적된다. 아울러 우여곡절 끝에 머신러닝 모델을 개발하더라도, 실제 운용 단계에서 모델의 운용 과정이 블랙박스화 돼있기에 결과에 대한 신뢰도를 확보하기 어렵다.

이러한 트렌드에 따라 AI 주도 개발이라는 용어가 등장했다. AI 주도 개발은 가상의 AI 개발자를 통해서 비전문가도 별도의 코딩 과정 없이 머신러닝 모델을 개발하고 현업에 적용할 수 있다는 개념이다. 구글이 ‘머신러닝의 민주화’라는 슬로건을 내걸며 공개한 ‘오토ML(AutoML)’이 대표적이다. 데이터를 다뤄본 경험이 적은 사용자도 몇 번의 마우스 클릭 만으로도 손쉽게 머신러닝 분석을 활용할 수 있다.

김지혁 연구소장은 이어 AI 주도 개발을 위한 위세아이텍의 ‘와이즈프로핏(WISE Prophet)’을 소개했다. ‘와이즈프로핏’은 머신러닝의 모든 과정을 GUI 기반으로 간소화한 머신러닝 프로세스 자동화 플랫폼이다. 지난 2월에는 가트너 뉴스레터를 통해 소개되며 머신러닝 활용의 중요성과 제품의 기술력을 인정받은 바 있다. 김지혁 연구소장은 “실제 비즈니스에서 머신러닝과 AI 역량을 활용하기 위해서는 간소화된 프로세스가 요구된다”고 강조하며, “‘와이즈프로핏’은 코딩이나 머신러닝의 구조에 대한 지식이 부족한 사용자도 손쉽게 비즈니스에 적용할 수 있도록 돕는다”고 말했다.

특히 ‘와이즈프로핏’은 피처 엔지니어링을 기반으로 머신러닝 프로세스를 자동화한다. 피처 엔지니어링은 원천데이터로부터 피처를 이해·개선·구성함으로써 피처링된 데이터셋을 구성하는 과정을 말한다. 머신러닝 모델의 정확도를 높이기 위해 필수적으로 요구되지만, 전문가의 역량이 집중적으로 투자돼야 하기에 까다로운 분야이기도 하다. ‘와이즈프로핏’은 이러한 피처 엔지니어링과 모델 개발·학습·운영 등 머신러닝 프로세스의 전 과정을 지원함으로써 사용자가 보다 쉽게 자사의 비즈니스에 머신러닝 기술을 적용할 수 있도록 돕는다.

딥러닝 기법을 이용한 시청률 예측

두 번째 세션은 ‘딥러닝 기법을 이용한 시청률 예측’이라는 주제로 조아 위세아이텍 선임의 발표가 이어졌다. 조아 선임은 스마트미디어랩(SMR)과 함께 진행한 ‘온라인 동영상 콘텐츠 통계 및 추천 시스템 구축’ 프로젝트를 소개하며, 다양한 콘텐츠들에 적절한 광고를 매칭시키기 위해 시청률 예측 프로세스를 구축한 사례를 소개했다.

SMR은 SBS나 MBC와 같은 방송통신사들이 콘텐츠를 제작하면, 해당 콘텐츠에 적절한 광고를 매칭해 콘텐츠 재생 전에 동영상 광고가 송출될 수 있도록 한다. 최적의 광고 효과를 얻기 위해서는 해당 콘텐츠 시청자들의 관심사를 정확히 분석하고 그와 관련된 광고를 송출해야 한다. 이를 위해 SMR은 위세아이텍과 함께 ‘온라인 동영상 콘텐츠 통계 및 추천 시스템’을 구축한 바 있다.

이후 양사는 딥러닝 기반의 시청률 예측 시스템을 구축하기 위해 재차 손을 잡았다. 영상 콘텐츠의 시청률을 정확히 예측해야만 그에 적합한 광고비용을 산출할 수 있기 때문이다. 3만 번의 시청이 예상되는 콘텐츠와 50만 번의 시청이 예상되는 콘텐츠가 광고비용이 같을 수는 없다. 따라서 시청자들의 관심사를 분석하는 데에서 한 걸음 더 나아가, 제작되는 콘텐츠의 기대 시청률을 정확히 예측하는 시스템이 요구됐다.

위세아이텍은 시청률 예측을 위한 머신러닝 모델을 구축하기 위해 가장 먼저 시계열 데이터를 수집하고 다양한 딥러닝 모델을 적용하며 분석에 나섰다. 그러던 과정에서 다양한 딥러닝 기법 중 LSTM(Long Short-Term Memory) 모델이 가장 정확한 결과값을 내놓는다는 것을 확인할 수 있었다.

하지만 시스템 구축 과정에서는 어려움이 적지 않았다. 특히 방송 콘텐츠라는 특징에서 많은 어려움이 발생했다. 가령 딥러닝 모델을 적용하기 위해서는 해당 방송 콘텐츠에 대한 다양한 정보들이 필요한데, 새롭게 방영을 시작하는 신규 프로그램의 경우 참고할 만한 데이터가 지극히 적다. 특히 LSTM 모델을 적용해 신뢰할 만한 결과값을 얻기 위해서는 수개월 간의 데이터가 요구되는데, 신규 콘텐츠나 특정 기간에만 방영되는 콘텐츠 등은 관련 데이터를 확보하기가 불가능했다. 시청자들의 상황이나 트렌드 변화에 따라 방송 콘텐츠의 인기도 급변하므로, 분석 단계에서는 해당 콘텐츠의 인기에 영향을 미칠 만한 과거 기간을 어느 정도로 설정할 지도 중요하다.

이에 따라 위세아이텍은 머신러닝과 딥러닝 기법으로만 모든 예측 모델을 구현하는 것은 어렵다고 판단하고, 머신러닝과 통계적 기법을 함께 적용하는 투트랙 전략을 구축했다. 기존에 학습 데이터가 많은 경우 머신러닝 기법을 활용하고, 데이터가 부족해 머신러닝을 활용하기 어려운 경우 통계적 기법을 적용한다는 계획이다. 이를 위해 전체 방송 콘텐츠를 총 6가지 케이스로 분석해, 1~3번 케이스는 머신러닝 기법을, 4~6번 케이스는 통계적 기법을 활용해 시청률 예측을 수행할 수 있도록 했다.

조아 선임은 “위세아이텍과 SMR이 함께 구축한 시청률 예측 모델은 현재 현업에서 두 달 후의 시청률을 예측할 수 있는 시스템으로 활용되고 있다”면서, “또한 광고가 송출될 때마다 예측과 결과값의 적중률을 확인하고 이를 재차 시스템 개선에 활용함으로써, 시청률 예측 모델의 정확도를 지속적으로 향상시키기 위해 노력하고 있다”고 말했다.

NLP를 통한 엔지니어링 계약서 리스크 분석

세번째 세션은 포항공과대학교 프로젝트 매니지먼트 연구실의 이을범 교수가 ‘자연어처리(NLP)를 통한 엔지니어링 계약서 리스크 분석’ 사례에 대해 발표했다. 이을범 교수는 “NLP는 최근 통역이나 음성인식 분야에서 활발히 사용되며 우리 실생활에 널리 적용되고 있는 기술”이라며, “이러한 NLP 기술이 엔지니어링 및 건설 분야에서 어떻게 사용될 수 있는지, 이를 통해 어떤 효과를 거둘 수 있는지 소개하고자 한다”고 말했다.

건설이나 플랜트 엔지니어링 등 글로벌 프로젝트가 많은 분야에서는 수백 페이지에 달하는 계약서와 입찰서류 등으로 인해 국내 기업들이 어려움을 겪고 있다. 이날 이을범 교수는 실제 해외 플랜트 엔지니어링 프로젝트의 300페이지에 달하는 본계약서와 700페이지에 달하는 기술요구사항(SoW)을 제시했다. 이러한 계약서들은 사용하는 단어 자체도 어렵고 문장도 복문과 장문을 복잡하게 사용하고 있어 이해하기가 쉽지 않다. 엔지니어링 분야에 대한 전문 지식 없이는 번역하기도 쉽지 않고, 번역이 가능하다고 하더라도 복잡한 문장 구조 속에서 위험 요소들을 찾아내기가 쉽지 않다.

하지만 기업 입장에서는 계약서 하나를 분석하는 데에 수 개월을 소요할 수는 없다. 해당 프로젝트에 입찰할 수 있는 기간은 한정돼 있고, 그 전에 계약서 내용을 토대로 사업의 기대 수익과 위험 요소들을 찾아내야 한다. 이을범 교수는 “기업은 매년 수십 건의 프로젝트에 입찰해 한두 건을 겨우 수주한다. 따라서 보다 빠르게 많은 계약서들을 확인하고 독소조항과 같은 위험요소를 찾아낼 수 있어야 하지만, 현실적으로 따졌을 때 사람의 힘으로 단기간 내에 계약서를 분석하는 것은 불가능하다”고 말했다. 이에 따라 최근에는 AI를 통해 방대한 계약서를 빠르게 분석하고 의심스러운 조항을 찾아내려는 연구가 수행되고 있다.

이을범 교수는 “복잡하고 방대한 계약서 및 입찰서류 분석에 NLP 기술을 활용해, 손쉽게 독소조항과 유의조항을 찾아내고 사전에 대응할 수 있다”며, “해외 기업들은 업무 프로세스의 많은 부분을 스마트 엔지니어링 솔루션에 의존하고 있는데, 국내에서도 정부 주도로 AI와 빅데이터를 활용한 스마트 솔루션을 개발해 동일 선상에 올라가고자 하는 것”이라고 설명했다.

수요예측과 매칭에서 AI 허브 적용

휴식시간 이후 진행된 2부 첫 번째 세션은 김상수 위세아이텍 이사가 맡았다. 김상수 이사는 ‘수요예측과 매칭에서 AI허브(AI Hub) 적용’이라는 주제로 발표에 나섰다.

오늘날 많은 기업의 IT 조직은 ▲인력 측면에서는 분석 자원을 활용하고 관리할 수 있는 유연한 분석 조직 마련 ▲거버넌스 측면에서는 최소한의 데이터로 최대한의 효과를 거둘 수 있는 기반 ▲기술 측면에서는 다양한 상황에 종합적으로 대응할 수 있는 분석 플랫폼 마련 등을 목표로 하고 있다. 특히 기존에 데이터 분석 프로세스를 확보한 기업의 경우 더욱 까다로운 목표를 갖는다. 이들은 셀프서비스 분석 프로세스를 한층 더 자동화하고, 사내 데이터에서 한 걸음 더 나아가 다양한 장소에 적재된 수많은 데이터들을 결합·통합할 수 있는 통합 플랫폼을 필요로 한다.

비즈니스 인사이트 확보를 위한 데이터 분석은 크게 4단계로 나누어 볼 수 있다. ▲데이터 기반의 정교한 리포트를 만들어낼 수 있는 정보 포탈 ▲시각화된 셀프서비스 분석 도구로 현업 사용자가 직접 리포트를 생산해내는 애널리틱스 워크벤치(Analytics Workbench) ▲예측 모델링, 머신러닝 등을 활용해 고급 분석을 수행하는 데이터 사이언스 라보라토리(Data Science Laboratory) ▲데이터 기반의 인사이트를 비즈니스에 적용해 새로운 데이터를 창출하는 전 과정을 자동화하는 AI 허브 등이다.

김상수 이사는 AI 허브를 실제 산업 현장에 적용한 사례로 A사의 부품 수요 예측 시스템 구현 사례를 소개했다. 산업 설비를 항상 최상의 상태로 유지하며 생산에 차질이 없도록 하기 위해서는 정밀한 부품 수요 예측이 필수적이다. 특히 철도나 특수차량, 항공기, 발전소 등 주요 부품의 자산가치가 높은 경우, 대량 제작해 적재해 둘 수도 없는데 해당 부품이 없으면 전체 공정 자체가 멈춰버리는 위험한 품목이다.

기존에는 대부분 경험 많은 직원들의 직감과 노하우로 부품 수요 예측이 이뤄지고 있었다. 하지만 이러한 방법은 개개인의 역량에 의존하는 바가 크고 정확도 역시 높지 않다. 일정한 주기를 두고 지속적으로 소비되는 부품은 관리가 가능하지만, 고장 여부를 확인하기 어렵고 수요가 일정하지 않은 핵심 부품들에 대해서는 사람의 역량만으로는 예측이 어렵다.

이에 위세아이텍은 강화학습을 통해 부품 수요 예측 시스템을 구현하고자 했다. 간헐적으로 발생하는 수요 예측을 위해 경험 많은 직원들의 노하우를 학습하고, 각 담당자들이 어떤 근거로 수요를 예측해왔는지를 에이전트로 만들어 강화학습을 수행했다. 각각의 에이전트가 행동하면서 생산해낸 수요 발생/미발생 데이터를 다시금 시스템이 재학습하는 방식이다.

김상수 이사는 “부품 수요 예측 모델을 강화학습으로 해결하기 위해서 위세아이텍은 4단계에 걸친 프로젝트를 준비했다. 각 단계마다 약 1년의 시간이 소요됐다”며, “강화학습은 데이터가 충분하지 않은 상태에서, 행동에 대한 결과를 다음 행동의 근거로 삼아 미래의 가치를 극대화하는 모델을 학습하는 것이다. 이를 통해 데이터 기반의 부품 수요 예측 모델의 정확도를 지속적으로 향상시킬 수 있었다”고 말했다.

딥러닝 기반 금형 센서데이터 이상 탐지

다음 세션은 ‘딥러닝 기반 금형 센서데이터 이상 탐지’에 대해 이지현 위세아이텍 선임의 발표가 이어졌다. 이지현 선임은 다품종 소량생산 산업인 금형제작 산업의 가치 혁신을 위한 한국금형산업진흥회 프로젝트에 대해 소개하며, 금형 가공·조립 과정에서 최적의 가공 조건 및 장비 운영을 위한 초기 세팅 과정을 선보였다.

금형 산업은 제품을 생산하기 위한 틀을 만들어내는 분야로, 흔히 제조업을 위한 제조업으로 일컬어진다. 즉 다른 제품을 대량생산하기 위해 먼저 수행되는 다품종 소량생산 산업이다. 국내 금형 산업은 높은 기술력과 완성도를 바탕으로 전 세계 생산량 5위에 달하는 핵심 산업이지만, 국내 금형 기업의 90%가 중소규모 기업이라는 한계도 함께 가지고 있다.

위세아이텍이 수행한 과제는 한국금형산업진흥회가 제시한 ‘IoT 빅데이터 기반 금형제작 가치사슬 혁신 산업’으로, 각각의 금형 기업 내에 산재된 견적·설계·가공데이터 등을 수집·가공·활용할 수 있는 빅데이터 시스템 구축을 목표로 한다. 중소규모 기업들이 각각 보유하고 있는 데이터들을 단일한 플랫폼에서 연결해 보다 효과적인 방법으로 높은 가치를 창출해내겠다는 전략이다. 이날 이지현 선임은 해당 과제 중 머신러닝을 활용해 금형 센서데이터의 이상탐지를 수행한 사례를 소개했다.

금형 데이터의 가장 큰 문제는 머신러닝에 활용할 수 있는 정제된 데이터가 부족하다는 점이었다. 지도학습 방법으로 머신러닝을 수행하기 위해서는 각 데이터의 성질을 정의할 수 있는 라벨링이 필요하지만, 중소규모 금형기업에서는 제각각 다른 기준으로 제품 도면을 만들어왔기에 공통된 라벨링이 존재하지 않았다. 대부분의 데이터가 정상 데이터인 상황에서 이상 데이터만을 찾아내야 했지만, 자동으로 이상 데이터에 대한 라벨링을 수행할 수 있는 고가의 장비를 마련하는 것도 어려웠다.

이를 위해 위세아이텍은 아웃라이어 디텍션(Outlier Detection)을 통해 정상 데이터 정의에 나섰다. 전체 데이터 중 정상 데이터의 비율만 설정한 상태로 4가지 알고리즘을 적용해, 각 알고리즘의 결과값을 토대로 데이터의 정상·비정상 여부를 판별했다. 가령 4가지 알고리즘이 정상이라고 판별한 데이터는 정상 데이터로 정의하는 방식이다. 또한 금형 센서데이터가 시계열 데이터라는 특징을 고려해, 시계열 분석을 위해 보편적으로 사용되는 LSTM 알고리즘과 인풋 데이터에서 중요한 특징을 추출해주는 오토인코더(AutoEncoder)를 결합했다.

이지현 선임은 “정밀한 임계값 설정을 통해 정상/비정상 데이터를 판별한 결과, 각각 80% 이상의 변별력을 가지는 것으로 나타났다”며, “이러한 방식으로 17개 센서에서 생산되는 데이터를 분석해, 각 값들이 변동하는 패턴을 분석해 위험수준을 정의하고 라벨링을 수행해 향후 예측 가능한 이상탐지 시스템 개발의 기반을 마련할 수 있었다”고 설명했다.

지능사회 전환에 따른 데이터 품질 트렌드

마지막 세션은 가천대학교 김원 교수의 ‘지능사회 전환에 따른 데이터 품질 트렌드’에 대한 발표로 마련됐다. 김원 교수는 “지능사회는 인터넷/모바일/빅데이터/AI의 역할이 증대된 시대”라고 설명하며, 데이터 3V(Volume, Variety, Velocity)의 가속화와 빅데이터 처리기술의 난이도 증가 등 오늘날 데이터 관련 분야의 주요 트렌드들을 소개했다.

최초의 컴퓨터는 단순한 수학 계산 정도만 가능한 기계에 불과했지만, 1980년대 이후 PC가 확산되면서 용도가 다양해졌다. 데이터를 저장하거나 문서를 작성하고, 이메일을 통해 소통의 수단으로 사용하기도 했다. 그러다가 1990년대 이후로는 데이터 프로세싱에 관심이 몰리면서 본격적으로 비즈니스 전반에서 활용이 늘어나게 됐다. 오늘날 컴퓨터는 AI로 대표되는 스마트 프로세싱의 중추적 역할을 하고 있다.

특히 빅데이터의 가치가 강조되는 오늘날 컴퓨터의 역할은 더없이 강조되고 있다. 과거의 데이터 분석이 컴퓨터에 저장된 데이터를 조회하고 참조하며 보고서를 작성하는 수준에 불과했다면, 오늘날의 빅데이터 트렌드는 머신러닝과 AI 등 보다 스마트한 기술들을 사용해 기존에 없던 데이터의 가치를 재조명하고 비즈니스 경쟁력을 키우는 방향으로 이동했다. 김원 교수는 이러한 과정을 설명하는 데에 데이터 마이닝, 데이터 사이언스, 데이터 애널리틱스 등 다양한 용어들이 혼용되고 있지만, 결국 이들은 모두 유사한 용어들이며 기업과 언론, 학자들이 필요에 따라 제각기 새로운 용어를 만들어내고 있을 뿐이라고 설명했다.

김원 교수는 “오늘날 IT업계에는 데이터 3V 가속화, 빅데이터 처리 기술 및 도구의 난이도 증가, 빅데이터 전문가 부족 등 다양한 트렌드들이 복합적으로 일어나고 있다”며, “현란한 용어들에 현혹되지 말고 새로운 트렌드의 본질을 파악해야 한다”고 강조했다.

김성수 기자 kimss56@itdaily.kr

다른기사 보기

상단영역

본문영역

[화제의 현장] “변화하는 AI·머신러닝 트렌드에 최적의 대응방안 제시”

위세아이텍, ‘AI 개발전략과 산업별 사례’ 세미나 개최, 혁신 사례 공유

기사 댓글 0

비회원 로그인