[화제의 현장] “AI·머신러닝으로 데이터 기반 가치 창출 지원할 것”

위세아이텍, AI 애플리케이션 활용사례 세미나 개최

[컴퓨터월드] 위세아이텍(대표 김종현)이 지난달 5일 서울 양재 엘타워에서 ‘2019년 봄, 산업별 인공지능(AI) 애플리케이션 활용사례 세미나’를 개최했다. 위세아이텍은 그동안 빅데이터 분석이나 데이터 거버넌스 등 데이터와 관련된 핵심적인 솔루션을 출시해왔으며, 최근에는 머신러닝이나 AI를 적용해 기업의 데이터 분석 프로세스를 간소화하고 효율을 높이는 방안을 제시하고 있다. AI의 실제 활용 사례를 소개하는 이번 세미나를 통해 위세아이텍이 제시하는 미래의 데이터 전략을 살펴봤다.

“현장 중심의 AI 활용 사례 공유”
본격적인 세션에 앞서 김종현 위세아이텍 대표가 연단에 올랐다. 김종현 대표는 “많은 AI 세미나들이 산업별 동향이나 이론 중심으로만 흘러가고 있으며, 구축 사례를 보더라도 보안을 의식해 상세한 내용을 감추는 경우가 대부분”이라고 지적하고, “실제로 산업 현장에서 AI가 어떻게 활용되고 있는지를 확인할 수 있도록, 머신러닝 플랫폼을 기반으로 다양한 산업분야에서 경험한 노하우를 구체적인 사례 중심으로 공유하겠다”고 말했다.

많은 양의 데이터를 보유하는 것보다 중요한 것은 이를 잘 활용해 유용한 가치를 창출해내는 것이다. 위세아이텍은 공공·금융·군수·제조 등 다양한 산업분야에서 AI를 활용한 데이터 기반의 가치 창출에 기여하고 있다. 이러한 효과적인 AI 활용사례를 공유하고 확산시킴으로써 국내 산업계 전반의 혁신을 가속화하겠다는 전략이다.

손쉬운 머신러닝을 위한 자동화 도구
첫 번째 세션은 김상수 위세아이텍 이사가 ‘머신러닝 프로세스 자동화 플랫폼 와이즈프로핏(WiseProphet)’을 주제로 발표에 나섰다. 오늘날 많은 기업들은 머신러닝을 자사의 비즈니스 프로세스에 통합하고자 한다. 특히 보다 적극적으로 머신러닝 도입을 원하는 기업들은 명확한 비즈니스 요구와 충분한 데이터를 갖추고 있는 경우가 많다. 이러한 기업들은 이미 가지고 있는 데이터들과 새롭게 수집되는 데이터들을 적절하게 활용할 수 있는 시스템을 갖추고자 한다.

이러한 경우 가장 자유도가 높은 것은 오토ML(AutoML) 기반의 플랫폼들이다. 이들은 사용자가 세부적인 부분까지 간섭할 수 있을 정도로 자유도가 높고 다양한 스킬들을 활용할 수 있다. 하지만 모든 코드를 직접 짜야하고, 머신러닝에 대한 높은 이해도를 필요로 하기에 접근성이 떨어지는 편이다. 이는 같은 오토ML 기반의 워크플로우 역시 마찬가지다.

이에 따라 위세아이텍은 오토ML을 기반으로 손쉽게 머신러닝 기반의 데이터 분석을 수행할 수 있는 클라우드 및 온프레미스 버전의 ‘와이즈프로핏’을 출시했다. ‘와이즈프로핏’은 사용자가 직접 모든 코드를 짜넣지 않아도 기본적으로 제공되는 알고리즘을 사용할 수 있다.

▲ ‘와이즈프로핏’은 기업이 보다 손쉽게 머신러닝을 활용할 수 있도록 돕는다

머신러닝을 수행할 때는 적절한 모델과 알고리즘을 선택하는 것이 중요하며, 사용자는 머신러닝에 대한 기본적인 이해만 갖추고 있다면 ‘와이즈프로핏’에서 제공하는 양식에 따라 마우스 클릭만으로 손쉽게 모델과 알고리즘을 선택해 데이터 분석 프로세스를 구성할 수 있다. 특히 모델을 만들 때는 적절한 하이퍼 파라미터(Hyper-Prameter)를 입력하고 반복적으로 학습시키면서 수정해나가야 하는데, ‘와이즈프로핏’은 이러한 하이퍼 파라미터 수정을 자동화해 사용자의 편의성을 높였다.

김상수 이사는 “‘와이즈프로핏’의 최대 장점은 쉽다는 것”이라고 강조하며, “30여 종의 풍부한 알고리즘을 지원하면서 마우스 클릭만으로 머신러닝을 적용할 수 있는 손쉬운 UI를 갖췄으며, 예측 결과를 대시보드로 표현해 시각화 수준을 높였다. 기업은 기존에 보유하고 있는 데이터들을 활용해 손쉽게 머신러닝 기반의 데이터 분석을 수행할 수 있을 것”이라고 말했다.

AI를 활용한 부당청구 탐지
두 번째 세션에서는 김지혁 위세아이텍 연구소장이 ‘AI 부당청구 시스템의 분야별 확산’을 주제로, 실제 보험 산업에서의 AI 활용 사례에 대한 발표를 진행했다.

보험금 부당청구 규모는 매년 9.2%씩 증가하고 있으며, 부당청구 유형이나 방식 역시 다양해지고 있다. 이러한 수치는 적발된 것만 집계된 것이므로, 실제로는 훨씬 더 많은 부당청구 사례가 발생하고 있다. 따라서 빅데이터와 AI를 적용해 부당청구를 미연에 방지할 수 있는 지능형 부당청구 방지 시스템이 요구된다.

AI 기반의 지능형 부당청구 방지 시스템은 사전에 확보된 데이터를 기반으로 부당청구 패턴을 학습해, 보험금 청구 사례가 발생했을 때 부당청구 여부를 확인하고 사용자에게 고지하는 방식을 취한다. 하지만 AI 학습을 위해서는 기존의 부당청구 사례에 대한 데이터가 필요한데, 전체 건수에 비해 탐지된 건수가 너무 적어 데이터 불균형 문제가 발생해 모델의 성능과 신뢰성을 떨어트리는 문제가 발생했다. 이에 위세아이텍은 오버샘플링과 언더샘플링, 두 가지를 조합한 SMOTE 등을 적용해 부당청구 데이터를 확대하고, 가장 성능이 우수한 오버샘플링 방식을 적용했다.

패턴 분류에는 아이솔레이션포레스트(IsolationForest) 기법과 K-민즈(K-means) 기법을 단계별로 적용해 총 4가지 패턴으로 세분화했다. 아이솔레이션포레스트를 적용한 1단계에서는 약 89%의 재현율과 88%의 연체자 적발률을 확인할 수 있었다. 이어서 K-민즈를 적용한 2단계에서는 1단계와 다른 결과가 나온 집단을 별도로 분류해 의심집단을 구성했다. 이는 흑백으로 나뉘어진 양극의 결과보다는 의심집단을 둠으로써 안정성을 확보하기 위한 방안이었다.

▲ 지능형 부당정구 방지 시스템은 두 번의 이상탐지를 통해 4가지 패턴을 도출하도록 설계됐다.

이렇게 도출된 패턴에는 분류 알고리즘으로 학습하고 최적의 모델을 선정하는 과정이 이어졌다. 학습 결과 KNN 알고리즘이 가장 패턴 분류에 적합한 것으로 나타났으며, 학습 결과 95%의 분류 성능과 96%의 재현율을 보였다. 이를 학습에 사용되지 않은 지난 1~2월 신규 데이터에 적용해 활용해본 결과, 정상 적발률이 96%에 달해 우수한 성과를 보였다.

김지혁 연구소장은 “현재 보험금 부당청구에서 나아가 정부보조금 부당수급 등으로 영역을 확대해나가고 있다”며, “이러한 연구결과는 부당내부거래 탐지, 사회서비스 바우처 부정수급 탐지, 의료급여 청구오류 탐지 등 다양한 분야에 확대 적용될 수 있을 것으로 본다”고 밝혔다.

군 장비 스마트 예측정비 시스템
다음 세션은 구영현 세종대학교 컴퓨터공학과 교수의 ‘머신러닝 기반 예측정비 및 활용사례’에 대한 발요가 이어졌다. 예측정비는 특정 장비가 고장나기 전에 발생하는 징후들을 학습해, 해당 장비의 운영 데이터를 바탕으로 고장나기 전에 미리 파악해 선제적으로 정비하는 방식을 말한다. 고장나면 대응하는 반응정비나 일정한 가이드라인에 따라 정기적으로 정비하는 예방정비에 비해 고도의 기술을 필요로 한다. 이날 발표에서는 위세아이텍과 국방부가 함께 진행한 군 장비 예측정비 시스템 구축 사례가 소개됐다.

구영현 교수는 군 장비 예측정비 시스템을 구축하면서 데이터 수집 부분에서 많은 문제와 맞닥뜨렸다고 말했다. 축적돼 있는 데이터가 제대로 정리돼있지 않아 해독하기가 난해했고, 보안상의 이유로 데이터 입수 방식도 제한됐다. 특히 오래된 시스템일수록 기존 테이블을 정리하지 않은 채 필요에 따라 신규 테이블을 생성해 사용하다보니 비슷한 테이블들이 많고 데이터 마이그레이션도 제대로 돼있지 않았다. 또한 IoT 센서에서 이상 데이터값이 많이 발생해, 이를 걸러내고 정리하는 것도 적지 않은 작업이 요구됐다.

한편 장비의 종류에 따라 재현율을 다르게 설정하기 위해 파라미터값을 수정하는 작업도 중요했다. 일반적으로는 재현율과 정확도 사이에서 합리적인 결정경계선을 찾기 마련이지만, 장비의 종류에 따라 이 값을 조정해야 할 필요가 있다. 예를 들어 항공기는 비행 중에 고장나면 수리가 불가능해 큰 피해를 야기할 수 있다.

그렇기에 결정경계선을 합리적인 중간 즈음에 두는 게 아니라, 오탐지가 발생해 문제없는 경우에 정비하는 경우를 감수하고라도 문제가 있는데 발견하지 못하는 경우가 없도록 재현율을 최대한 높여야 한다. 반면 전차의 경우에는 운행 중에 고장이 발생하더라도 심각한 문제가 발생하지는 않기에, 재현율보다는 정확도를 위주로 고려했다는 설명이다.

마케팅 효율 높이는 키워드 매칭 시스템
휴식시간 이후 진행된 네 번째 세션은 ‘효과적인 마케팅을 위한 메타데이터 기반의 키워드 타깃팅’을 주제로 조아 위세아이텍 선임이 연단에 올랐다. 해당 세션에서는 온라인 방송 콘텐츠에 적절한 광고를 붙이기 위한 머신러닝 기반의 키워드 매칭 시스템 ‘SMR KISS’에 대한 소개가 진행됐다.

방송 콘텐츠에 적절한 광고 상품을 매칭하기 위해서는 해당 콘텐츠가 어떤 내용을 담고 있는지를 시스템이 파악한 후 그와 관련된 광고 상품을 찾을 수 있어야 한다. 이를 위해 ‘SMR KISS’는 광고주가 직접 방송 콘텐츠의 키워드를 확인하고 자사의 광고 상품을 연결할 수 있도록 했다. ‘SMR KISS’ 내에서 특정한 인물이나 장소, 소품 등이 등장하는 방송 콘텐츠를 키워드 검색을 통해 찾고, 이와 관련된 광고 상품을 게재하는 식이다. 방송 콘텐츠에 입력된 키워드에는 각 방송사가 제공한 메타데이터는 물론, 이미지 인식 기반의 연예인 얼굴 인식 모델을 결합하는 등 일부 자동화된 키워드 입력 방식을 갖췄다.

특히 정확한 광고 인벤토리 예측을 위해 시계열 모델이 활용됐다. 프로그램별 인벤토리 데이터를 수집하고, 모델 학습과 배포·예측을 진행하고 있다. 특히 시계열 모델에서 가장 중요한 것은 현재에 영향을 미치는 과거 기간(window size)을 설정하는 작업이다. 이를 설정하기 위해 광고 인벤토리 예측 시스템에는 프로그램별로 메타정보를 분석하는 과정을 추가했다. 해당 방송 프로그램이 현재 종영했는지, 방송중인지, 다음 시즌이 제작중인지에 따라 과거 기간 설정에 차이를 두는 식이다. 또한 과거 정보가 없는 신규 프로그램의 경우 유사한 프로그램과 그룹으로 묶어서 유사한 패턴을 찾을 수 있도록 구성했다.

조아 선임은 “효과적인 마케팅을 위해서는 머신러닝 기반의 고도화된 광고 플랫폼이 필요하다”면서, “지속적으로 메타데이터의 품질을 높이고 비즈니스 변화와 요구를 반영하는 시스템을 구축해, 보다 정확한 타깃 마케팅을 수행할 수 있는 키워드 매칭 시스템을 구축할 수 있다”고 덧붙였다.

이미지 확장 기술을 활용한 유사도면 관리 시스템
이어진 다섯 번째 세션에서는 안동혁 화수목 대표가 ‘유사설계도 딥러닝 인식 기반 견적 시뮬레이션 사례’에 대해 발표했다. 해당 세션에서는 대표적인 다품종 소량생산 산업인 금형산업계에서 그동안 축적된 금형기업의 설계데이터를 관리하고 유사한 도면을 공유함으로써 업무 효율을 높이기 위한 시도가 소개됐다.

금형 기업들은 새로운 제품 주문을 받았을 경우 민첩하게 견적을 산출하고 이를 바탕으로 계약을 체결해야 한다. 시중에는 이러한 견적 산출 과정을 지원하기 위해 많은 견적 프로그램들이 나와있지만, 영업 조직에서 직접 다루기에는 어렵고 많은 시간이 소요된다. 따라서 정확하고 상세한 견적을 작성해 계약을 체결하는 것은 현실적이지 못하고, 정확도가 조금 떨어지더라도 어느 정도 고객 대응이 가능한 수준의 견적을 산출할 수 있어야 한다.

위세아이텍이 개발한 유사도면 검색 시스템은 견적요청 받은 제품 도면과 유사한 과거 제품도면을 찾아, 해당 도면으로부터 예상되는 견적금액을 추정할 수 있도록 돕는다. 유사한 제품 도면과 해당 제품의 견적 금액을 기준으로 신규 제품에 필요한 소재의 가격 변동이나 가공 프로세스의 차이 등을 고려해 대략적인 견적금액을 산출한다.

시스템 구축 과정에서 가장 문제가 됐던 것은 정확한 데이터를 확보하는 작업이었다. 국내 금형기업들은 대부분이 50인 미만 사업장이며 체계적인 데이터 관리가 이뤄지지 않고 있었다. 가장 유명한 이미지 인식 프로젝트인 이미지넷 챌린지(Imagenet Large Scale Visual Recognition Challenge, ILSVRC)의 경우 약 120만 건의 데이터를 활용하지만, 위세아이텍이 유사도면 검색 시스템에 활용할 수 있는 것은 1740건의 도면 데이터에 불과했다.

이러한 문제를 해결하기 위해 데이터 확장(Augmentation) 기법이 사용됐다. 3D 도면 이미지를 7가지 방향에서 캡쳐해 12,180건의 2D 이미지로 생성하고, 다시 각도 변경, 수평/수직이동, 확대/축소, 뒤집기 등을 이용해 2D 이미지당 720건의 변형 이미지를 생성했다. 이를 통해 약 870만 건의 이미지 데이터가 확보돼 성공적인 프로젝트 수행이 가능했다.

자동화된 데이터 품질 관리 도구 ‘와이즈DQ’
마지막 세션에서는 황덕열 위세아이텍 전무가 ‘빅데이터 품질 향상을 위한 머신러닝 적용 도구’를 주제로 발표에 나섰다.

황덕열 전무는 먼저 “AI나 빅데이터 분석이 도입되면서 전통적인 분석과 진단 환경이 변화하고 있으며, 데이터 품질에 대한 지표와 기업들의 인식도 많은 부분이 변했다”면서, “업계에서는 업무상 데이터가 잘못된 것보다 머신러닝에 사용되는 데이터가 더 정확해야 한다고 말한다”고 밝혔다. 업무상 데이터는 업무 수행 중에 사용자가 잘못된 것을 직접 확인하고 수정할 수 있지만, 머신러닝에 사용되는 데이터는 학습이 잘못될 경우 미래 예측이 빗나갈 수 있기 때문이다.

일반적인 데이터 품질 관리 절차는 ▲데이터 특성 인지 ▲오류 징후 발견 ▲정합성 기준 수립 ▲오류 추출 ▲개선안 수립 ▲개선 결과 반영 등 6단계로 이뤄진다. 하지만 이 과정에는 데이터 특성을 인지하기 위한 사전 분석에 데이터 전문가들의 많은 역량이 투입돼야 하고, SQL과 RDB에만 국한돼 있으며 정확한 기준이 수립되지 않으면 품질 측정 자체가 불가능하다는 문제가 있다.

위세아이텍의 ‘와이즈DQ(WiseDQ)’는 데이터의 품질 측정 기술을 자동화시킨 솔루션이다. 수치나 텍스트, 비정형, 문서 데이터 등 데이터 소스를 가리지 않고 이상값을 탐지해 데이터 품질을 측정할 수 있다. 기존의 SQL 기반 컬럼 분석과 업무규칙 진단 등 다양한 데이터 품질 진단 방법들을 머신러닝 기법을 활용해 자동화했으며, 정확한 업무규칙이 수립되지 않은 상황에서도 머신러닝 기반의 이상값 탐지 기능을 사용해 부적절한 데이터를 탐지할 수 있다.

우선 기업이 보유하고 있는 데이터에 기본적인 프로파일 및 시각화를 적용함으로써 사전 분석을 자동화하고, 데이터 분포와 통계정보, 패턴 등을 분석해 특징을 파악한다. 이렇게 추출된 특징을 바탕으로 해당 데이터가 어떤 도메인에서 수집된 데이터인지를 판별해 사용자에게 적절한 품질지표를 추천한다. 아울러 데이터간의 유사도를 분석해 비슷한 데이터값을 통일할 수 있는 대표 용어를 추천하거나, 거래처 및 기관명 클러스터링을 통해 중복데이터를 군집화할 수 있다.

황덕열 전무는 “자동화된 품질 관리 솔루션은 기존의 데이터 품질 관리를 100% 대체하는 것이 아니라, 목적에 따라 다르게 사용돼 업무 효율을 높일 수 있는 제품”이라며, “가령 도메인에 대한 지식이 부족해 기존의 데이터 품질 관리 방법론을 적용하기 어려운 상황에서, 새로운 업무규칙을 찾고 데이터 품질을 측정할 경우 ‘와이즈DQ’가 유용하게 사용될 수 있을 것”이라고 말했다.

김성수 기자 kimss56@itdaily.kr

다른기사 보기

상단영역

본문영역

[화제의 현장] “AI·머신러닝으로 데이터 기반 가치 창출 지원할 것”

위세아이텍, AI 애플리케이션 활용사례 세미나 개최

기사 댓글 0

비회원 로그인