이미지를 토큰으로 나눠 맥락 파악…이미지 속 유기적 관계 이해 가능
[아이티데일리] 최근 자동차 산업은 소프트웨어 정의 차량(SDV) 개념의 등장과 함께 빠르게 진화해 왔다. 시장 전문가들이 AI 정의 차량(ADV)의 시대가 올 것으로 전망하는 가운데 자율 주행 시장도 변화하고 있다. 테슬라와 같은 빅테크 기업들은 자율 주행 레벨4 상용화를 앞두고 있으며, 자율 주행 차량의 핵심 기술인 비전 AI 기술도 계속해 고도화되고 있다.
스트라드비젼 권태산 COO는 “자율 주행을 위한 비전 AI 기술은 계속 발전하고 있다. 이런 시장 변화에 대응하기 위해 스트라드비젼도 ‘비전 트랜스포머’ 기술을 활용해 ‘멀티 비전 Gen 2’를 개발 중이다”라고 말했다.
트랜스포머 기술은 2017년 구글 브레인(Google Brain) 소속 연구진이 발표한 논문 ‘Attention is All You Need’에서 처음 제안된 자연어 처리(NLP)용 딥러닝 모델이다. 특히 기계 번역(machine translation) 분야에서 기존 순환 신경망(RNN), 장단기 메모리(LSTM) 기반 모델보다 우수한 성능을 보여 널리 사용되기 시작했다. 기존의 단어 기반 해석 방식에서 벗어나, 문장 전체의 맥락을 파악해 의미를 해석하는 데 뛰어난 성능을 보였다. 이미지 처리 분야에서도 이러한 맥락 이해의 필요성이 부각되면서 비전 트랜스포머 기술이 등장했다.
기존의 합성곱 신경망(CNN) 기반 모델이 이미지에서 계층적으로 특징을 추출하고 이를 바탕으로 사물을 인식하는 방식이었다면, 비전 트랜스포머는 로컬 특징 중심의 분석을 넘어, 전체 이미지의 글로벌 맥락 (Global context)을 함께 고려하여 사물을 인식한다. 이를 통해 각각의 픽셀에 대한 개별적인 분석을 넘어, 이미지 속 객체와 주변 환경의 유기적인 관계를 이해할 수 있게 됐다.
권태산 COO는 “비전 트랜스포머는 충분한 데이터와 연산 자원이 주어질 경우, CNN 대비 객체 인식에서 더 높은 성능을 보인다”며 “비전 트랜스포머는 높은 성능을 제공한다는 장점이 있지만, 하드웨어 리소스 소모가 크다는 한계가 있다”고 설명했다.
이어 그는 “따라서 리소스 제약이 있는 환경에서는 CNN이 여전히 높은 효율을 보일 수 있다. 비전 트랜스포머의 리소스 요구량은 경량화를 통해 줄일 수 있지만, 이 경우 성능 저하가 발생할 수 있다. 즉 상황에 맞게 적절한 방법을 활용하는 것이 필요하다”고 부연했다.
실제로 스트라드비젼은 비전 트랜스포머 기술을 활용해 멀티 비전 Gen 2 개발에 집중하고 있다. 비전 트랜스포머와 비전 언어 모델(VLM) 등 최신 AI 기술을 적용해 총 11개의 카메라 채널을 지원할 계획이다.
권태산 COO는 “자율 주행 차량을 위한 비전 AI 시장은 합성 데이터, 비전 트랜스포머 등을 통해 계속해 발전하고 있다. 스트라드비젼도 이 흐름에 맞춰 계속해 발전하고 있으며 지속적인 기술 개발과 모델 경량화를 통해 경쟁력을 갖출 것”이라고 밝혔다.


