[2025 데이터 컨퍼런스 ①] “규칙에서 학습으로: 이상치 탐지의 새 패러다임”

한국데이터마이닝학회 김성범 회장 (고려대학교 산업경영공학과 교수)

2025-05-31     김호준 기자

[아이티데일리] 생성형 인공지능(Generative AI)은 이제 유행을 넘어 비즈니스의 중심으로 자리매김하고 있다. 오픈AI의 ‘챗GPT(ChatGPT)’가 촉발한 변화는 자율적 업무 수행이 가능한 ‘AI 에이전트’로까지 이어졌다. 이제 화두는 AI를 얼마나 잘 활용할 수 있는가다.

생성형 AI가 이룩한 혁신, 그 중심에는 데이터가 자리하고 있다. 수집, 저장, 통합, 관리 등 데이터 활용 전 과정이 뒷받침돼야 뛰어난 성능을 갖춘 AI 모델을 개발할 수 있다. AI 기술 발전과 함께 데이터의 중요성이 높아지고 있는 이유다.

이러한 변화 속에서 본지(컴퓨터월드/IT DAILY)는 지난달 21일 서울 서초구 양재동 엘타워에서 “AI를 이용한 데이터 활용 방안”을 주제로 ‘2025 데이터 컨퍼런스’를 개최했다. 행사는 AI로 고도화된 환경에 걸맞은 데이터 운영 전략과 생성형 AI와 관련한 주요 이슈에 대한 인사이트를 찾고, 관련 솔루션의 시연까지 경험해 볼 수 있는 자리로 마련됐다.

키노트를 맡은 고려대학교 산업경영공학과 김성범 교수(한국데이터마이닝학회 회장)가 ‘규칙에서 학습으로: 이상치 탐지 새로운 패러다임’을 주제로 연단에 올라 행사의 포문을 열었다. 이상치 데이터는 정상과 다른 새로운 패턴이나 예외가 존재하는 데이터를 뜻한다. 이상치 탐지는 스팸 메일 필터링, 센서를 통한 중장비 이상 감지 등 다양한 산업 분야에서 쓰이고 있다.

한국데이터마이닝학회 회장 김성범 교수

이상치를 탐지하는 방법은 크게 △규칙 △밀도 △모델 △재구축 등 네 가지가 있다. 규칙은 전문가가 경험을 토대로 기준을 세우는 방식이며, 밀도는 데이터를 정규분포로 정리한 뒤 정상과 이상을 구분하는 방식이다.

김성범 교수는 “규칙 기반은 데이터 없이도 단순한 예측이 가능하며, 밀도 기반은 전문 지식 없이도 이상 유무를 쉽게 파악할 수 있다는 장점이 있다”고 설명했다.

규칙과 밀도는 전통적 이상치 탐지에 쓰였다. 모델 기반 방법론은 여기서 한 단계 더 나아간 알고리즘이다. 이는 정상 데이터로 학습한 머신러닝 모델을 기반으로 객체별 정상·이상 여부를 판단하는 방법론이다. 선, 원 등으로 정상 데이터의 영역을 구분한 뒤 이를 바탕으로 수식을 세우고 이상치를 탐지한다.

최근에 많이 쓰이는 방법은 ‘재구축 기반’이다. 재구축 기반 모델은 정상 데이터를 압축해 특정 데이터를 추출하고, 이를 다시 정상 형태로 복원하는 학습 과정을 거친다. 그 후 데이터를 투입하고 복원한 결과가 정상 데이터와 얼마나 일치하는지를 기준으로 오차를 계산하며, 이 오차가 클 경우 이상치로 분류한다.

재구축 기반의 대표적 예로 ‘오토인코더(Autoencoder)’가 있다. 오토인코더는 입력 데이터의 특성을 요약하는 인코더(Encoder)와 요약 정보를 복원하는 디코더(Decoder)로 구성된다. 여기서 입력 데이터와 복원 데이터 간 차이를 토대로 이상치를 찾아낼 수 있다. 오토인코더뿐 아니라 생성형 AI의 기반을 이룬 ‘트랜스포머’와 이미지 생성 모델에 쓰이는 GAN 등도 재구축 기반 모델에 해당한다.

김성범 교수는 “AI 하면 흔히들 챗GPT를 떠올린다. 하지만 이는 AI의 한 종류일 뿐이며 데이터 예측·분석에 강점을 갖춘 여러 머신러닝 모델이 있다”며 “많은 AI 가운데 본인이 필요한 것을 찾고, 이를 통해 업무 효율을 높이기 위한 노력을 지속해야 변화하는 시대에 뒤처지지 않을 수 있다”고 강조했다.