모델 결합과 자체 제작 손실함수로 정확도 높여

[아이티데일리] 인공지능(AI) 플랫폼 전문기업 인피닉(대표 박준형)은 ‘이미지-언어 유사성을 활용한 퓨샷(Few-shot) 객체 감지’ 연구 논문이 SCIE급 국제 학술지 ‘컴퓨터 비전과 이미지 이해’에 게재됐다고 28일 밝혔다.

인피닉의 AI 연구소에서 발표한 이번 논문은 이미지와 언어의 유사성을 활용해 30장 이내 적은 양의 이미지 데이터에서 객체 위치와 클래스를 검출해 객체 감지의 정확성을 높이는 모델(Re-scoring using image-language similarity for few shot object detection: RISF)의 연구 결과다.

국제학술지 ‘컴퓨터 비전과 이미지 이해’에 게재된 인피닉 논문
국제학술지 ‘컴퓨터 비전과 이미지 이해’에 게재된 인피닉 논문

RISF 모델은 이미지 내 객체의 위치와 클래스 정보를 검출하는 모델(Detector)과 이미지-텍스트 간 유사도를 사전 학습한 CLIP(Contrastive Language-Image Pre-training) 모델을 결합(CM-CLIP)했다. 특히 BNRL(Background Negative Re-scale Loss)이라는 새로운 손실 함수를 만들어 모델 결합 시 발생할 수 있는 오류를 최소화하는 방법을 추가해 정확도를 높였다.

한편, RISF 모델은 글로벌 머신러닝 학술 사이트인 ‘페이퍼 위드 코드’에서 퓨샷 객체 감지 부분에서 AP 지표 25.5를 기록하며 전 세계 2위를 기록했다. 페이퍼 위드 코드는 전 세계 AI 연구자들이 자신의 인공지능 연구 모델과 논문을 공유하는 글로벌 커뮤니티다.

인피닉의 연구 논문이 게재된 국제 학술지 ‘컴퓨터 비전과 이미지 이해(Computer Vision and Image Understanding)’는 컴퓨터 비전과 이미지 처리, 패턴 인식 등 비정형 데이터 분야의 다양한 주제를 다룬다. 국제적으로 고품질의 연구를 게재하는 SCIE(Science Citation Index Expanded)급 학술지로, 연구자들 사이에서 폭넓은 인지도를 갖고 있다.

이번 논문 발표를 주도한 인피닉 정민재 연구원은 “RISF 모델은 객체 감지 단계에서 기존의 접근 방식보다 훨씬 뛰어난 성능을 보여준다”며 “특히 적은 양의 비전 데이터만으로 물체 감지하는데 뛰어난 성능과 정확도를 나타내 AI 학습 단계에서 유용하고 효과적인 모델이 될 수 있다”라고 설명했다.

인피닉 박준형 대표는 “RISF 모델은 글로벌 커뮤니티 페이퍼 위드 코드 2위뿐만 아니라 SCIE급 학술지에 실리며 세계적으로 인정받았다”며 “앞으로도 AI 분야의 지속적인 연구 개발을 이어 나갈 것”이라고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지