지코어 세바 베이너 엣지 클라우드 및 AI 제품 디렉터

지코어 세바 베이너(Seva Vayner) 엣지 클라우드 및 AI 제품 디렉터
지코어 세바 베이너(Seva Vayner) 엣지 클라우드 및 AI 제품 디렉터

[아이티데일리] ‘엣지에서의 AI 추론(인퍼런스 앳더 엣지)’이란 기존의 중앙집중식 클라우드에서의 AI 추론이 아닌 최종 사용자와 가장 가까운 곳, 즉 가까운 데이터센터에서 학습된 머신러닝(ML) 모델을 실행하는 것을 말한다. 엣지에서의 추론은 특히 큰 데이터의 전송이 요구되는 게임·의료·리테일과 같은 산업에서 ML 모델의 응답을 위한 네트워크 소모시간을 최소화하는 실시간 AI 애플리케이션을 위한 접근 방식이다.

여기서 추론은 학습된 ML 모델이 예측을 하거나 콘텐츠를 생성하는 등 새로운 데이터에 대한 작업을 수행하는 것을 일컫는 것으로, AI 추론은 최종 사용자가 챗GPT(ChatGPT)와 같은 애플리케이션에 입력을 하고 내장된 ML 모델과 직접 상호작용할 때 발행하게 된다. 가령 챗GPT가 응답을 위해 ‘생각하는’ 시간이 바로 추론이 이뤄지는 시간이고 출력이 바로 그 추론의 결과다.

엣지에서의 AI 추론은 최종 사용자와 가까운 서버에서 ML 모델을 실행하는 것으로, 이러한 근접성은 지연 시간을 밀리초(ms, 1000분의 1초) 단위로 줄여 모델 응답속도를 높여줌으로 실시간 애플리케이션에 유용하다. 일반적인 클라우드를 통한 AI 추론은 원격 클라우드 서버에서 ML 모델을 실행하고 사용자 데이터가 클라우드에 전송돼 처리되기 때문에 최종 사용자는 다른 지역, 국가 또는 대륙에서 모델과 상호작용하게 된다. 이에 따라 클라우드 추론 지연 시간은 수백에서 수천 밀리초까지 늘어나게 된다.

엣지에서 AI 추론을 제공하려면 세계 각지에 분산된 수많은 엣지 AI 추론센터(AI_PoP)를 보유해야 한다. AI_PoP이 많을 수록 네트워크에 소모되는 시간이 짧아질 것이므로, 최종 사용자는 더 빠르게 모델 응답을 제공받게 될 가능성이 높아진다. 또한 이렇게 분산된 네트워크를 효과적으로 사용하기 위해선 사용자 요청을 가장 가까운 엣지 서버로 전송 경로를 설정해 주는 스마트 라우팅을 제공해야 하고, 추론을 위한 계산 시간을 줄이려면 엔비디아(NVIDA) GPU와 같은 AI 가속기로 구동되는 서버나 가상머신에서 ML 모델을 실행해야 빠른 추론 성능을 보장받을 수 있다.

뿐만 아니라 ML 모델을 빠르게 확장 및 축소하거나 이식할 수 있는 쿠버네티스와 같은 컨테이너 오케스트레이션 서비스도 필요하다. 하지만 현시점에서 여러 요구사항들을 충족하면서 글로벌 AI 추론을 제공할 수 있는 공급업체는 소수에 불과하다. 그럼에도 불구하고 엣지에서의 AI 추론이 강력하게 요구되는 까닭은 산업 또는 사용 사례 전반에 걸쳐 △짧은 지연 시간 △보안 및 주권 △비용 효율성이라는 대체 불가능한 이점들을 제공하기 때문이다.

먼저 ‘짧은 지연 시간’이다. 네트워크 지연 시간이 낮을 수록 모델의 응답속도가 빨라져 즉각적인 응답이 필요한 대부분의 앱에 적합하다. 물론 데이터의 이동 시간만을 고려한다고 모든 문제가 해결될 수는 없다. ML 모델의 처리 시간이 있기 때문에 네트워크 지연 시간이 50밀리초라고 해서 사용자가 50밀리초 안에 AI 출력을 얻을 수 있다는 의미는 아니다. ML 모델이 추론을 수행하는데 걸리는 시간을 더해야 하기에, 지연 시간이 짧은 네트워크를 사용해 사용자에게 최상의 응답 시간을 제공하는 것과 별개로 모델 추론 자체의 속도를 개선하려는 노력은 지속적으로 경주해야 할 분야다.

두 번째 핵심 이점은 보안 및 주권이다. 데이터를 엣지, 즉 사용자가 머무는 지역(로컬)에 보관하면 GDPR 및 이에 상응하는 현지 법률과 규정을 쉽게 준수할 수 있고, 사용자의 데이터를 더 적절히 보호할 수 있게 된다. 또한 엣지에서의 추론은 사용자의 데이터가 어디에 위치하고 있는지 알 수 없는 원격 클라우드 서버로 전송하는 것이 아니라, 가까운 지역 혹은 나라 안에서 처리되므로 최종 사용자 데이터의 기밀성과 개인정보 보호가 한층 강화될 수 있다. 결과적으로 유출이나 공격을 받을 가능성이 줄어들고, 전송 중 데이터 노출 위험 역시 최소화된다.

세 번째로는 비용 효율성이다. 서비스 제공업체는 대규모의 자원을 항상 대규모로 예약해 놓는 것이 아니라, 실시간으로 서비스에 소요되는 컴퓨팅 리소스에 대해서만 비용을 지불하면 되기에 서비스 운영 비용을 크게 줄일 수 있게 된다. 물론 서비스의 요구량에 따라 자원의 확장 및 분산은 자동으로 이뤄지므로 서비스의 품질도 걱정할 필요가 없다.

이러한 이점들로 엣지에서 AI 추론은 다음의 사용자 시나리오에 있어 가장 최적의 선택이 될 수 있다. △보안 출입을 위한 얼굴인식에서부터 거래분석, 짧은 지연 시간이 필요한 다양한 실시간 애플리케이션 △사용자가 전 세계 여러 곳에 분산되어 있어 위치와 관계없이 모든 사용자에게 동일한 사용자 경험 및 짧은 지연 시간을 제공해야 하는 경우 △인프라 유지보수를 숙련된 전문 파트너에게 위임하고 애플리케이션 개발에 리소스를 집중하고자 할 때 △데이터를 생성된 국가 밖으로의 유출을 막고 싶은 경우들이 대표적이다.

실제 엣지에서 AI 추론의 이점을 누릴 수 있는 산업은 다양하지만, 특히 실시간 애플리케이션을 개발하는 산업에 도움이 된다. 예를 들어 기술 분야에서는 생성형 AI 애플리케이션, 챗봇 및 가상 비서, 데이터 증강, 소프트웨어 엔지니어를 위한 AI 도구 등이 이에 해당된다. 또한 게임 분야에서는 AI 콘텐츠 생성, 실시간 플레이어 분석, 실시간 AI 봇 사용자 지정 및 대화에 유용하다. 리테일 시장의 경우엔 셀프 체크아웃 및 머천다이징, 예측 및 추천 기능을 갖춘 리테일 테크가 대표적인 애플리케이션이 될 것이다.

뿐만 아니라 제조업에서는 생산 파이프라인의 실시간 결함 감지, VR/VX 애플리케이션, 신속한 응답, 미디어 및 엔터테인먼트 산업에서는 콘텐츠 분석, 실시간 번역, 자동화된 트랜스크립션 등의 이점을 누릴 수 있다. 실시간 애플리케이션을 개발하는 또 다른 분야는 자동차다. 특히 자율주행차, 차량 개인화, 첨단 운전자 지원 및 실시간 교통 업데이트를 위한 신속한 대응에도 활용될 수 있다.

결론적으로 실시간 애플리케이션을 배포하려는 조직에게 엣지에서의 AI 추론은 최적의 서비스 방식이 될 것이다. 지연 시간을 줄여 초고속 응답시간을 보장할 수 있고, 최종 사용자는 이를 통해 온라인 게임, 챗봇 사용, 가상 체험 서비스를 통한 온라인 쇼핑 등을 더욱 원활하게 매력적으로 경험할 수 있다. 또한 데이터 보안이 강화되면 기업은 사용자 데이터를 보호하면서 우수한 AI 서비스를 제공할 수 있다. 엣지에서의 AI 추론이 궁극적으로 다양한 산업 분야에서 AI/ML 혁신과 효율성을 촉진할 수 있는 핵심 요소가 되는 이유다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지