[기고] 영상과 AI, 이커머스 기업에게 필요한 전략은?

버즈니 고재현 에이플러스 프로덕트팀장

2024-05-31     고재현
버즈니 고재현 에이플러스 프로덕트팀장

1. 챗GPT 시대의 e커머스 분야 AI 활용전략 (5월호)
2.영상과 AI, 이커머스 기업에게 필요한 전략은? (이번호)
3. e커머스 영역에서의 LLM 활용, 왜 서비스 전문가가 필요할까? (7월호)

[아이티데일리] 지난 2월 오픈AI(OpenAI)의 영상 생성 AI 서비스인 ‘소라(Sora)’가 공개된 이후, 생성형 AI와 관련된 화두는 뜨거운 감자가 됐다. 모바일 혁명 이후 활자에서 영상으로 인류의 주류 매체가 변화한 것을 방증하듯 영상 제작과 관련된 효율성 증대, 창의성의 무한한 발현 등 각자의 다양한 관점으로 소라와 다양한 AI 기반 비디오 제너레이터들이 변화시킬 미래에 대한 논의가 지속되고 있다.

영상 콘텐츠를 대상으로 하는 AI의 적용, 그 이면의 윤리적 화두를 차치하더라도, 이를 통한 직접적인 생산성의 증대를 논하기에 앞서 ‘영리’가 목적인 ‘기업’은 어떤 고려가 필요할까? 본 기고는 해당 주제를 다뤄보고자 한다. 이 중에서도 최근 본격적으로 영상 콘텐츠 기반의 서비스 개선을 시도하고 있는 이커머스 업계에서 어떤 관점으로 AI 트랜스포메이션(AI transformation) 전략을 수립하면 좋을지 탐구해 본다.


‘종합 예술로서의 영상 콘텐츠’

기업의 영상 생성형 AI 활용을 논하기에 앞서, 하나의 영상 콘텐츠가 만들어지는 보편적인 과정을 살펴볼 필요가 있다. 20세기의 시작과 함께 조르주 멜리에스가 내러티브(Narrative)가 존재하는 극으로서의 영화를 선보인 이래, 영상 콘텐츠는 ‘종합 예술’이라는 영광스러운 수식어와 함께 현재까지 발전해 왔다.

서사의 뼈대를 이루는 플롯(Plot)부터 문학성이라는 생명력을 불어넣는 대사, 시각적 예술성을 부여하는 미장센에 이르기까지 연출이라 통칭되는 기획의 영역을 거쳤다. 그리고 촬영이라는 구체적인 생산자적 활동을 통해 비로소 육신을 부여받고, 편집이라는 가공 활동을 통해 최종적으로 완성에 이른 영상 콘텐츠는 이 같은 제작 과정을 통해 스스로가 ‘종합 예술’이라 불리우는 이유를 스스로 증명하고 있다.

이를 기업의 관점에서 풀어보면, 하나의 영상 콘텐츠를 제작하기 위해서는 개별 영역 내에서의 전문성을 확보하기 위한 투자가 선행되어야 함을 의미한다. 그리고 하나의 콘텐츠를 제작하기 위해 다방면의 제반 투자를 필요로 하는 영상 콘텐츠의 이러한 특성은 영상 콘텐츠 그 자체가 비즈니스의 목적이 되는 영화, 드라마 산업에 속하지 않은 기업들, 즉 비즈니스 전개 시 하나의 수단으로서 영상 콘텐츠가 필요한 홈쇼핑 등의 기업으로 하여금 영상 컨텐츠 제작 과정에 있어서 ‘생산성’과 ‘효율’ 제고를 중요한 미션으로 삼게 만든다.

영상 촬영에 필요한 프로덕션 환경을 꾸리고, 촬영, 음향, 조명 등 각 분야의 전문 인력을 운용하며, 편집을 위한 다양한 디자인 리소스를 확보하고, 송출에 필요한 시스템 인프라를 구축하고, 마케팅을 위한 영상 재가공 전략을 수립하는 것까지 영상 기반 비즈니스의 기본 구조라 정의한다면, 기업은 앞서 말한 생산성과 효율 제고를 어느 단계에서 실현했을 때 가장 좋은 ROI를 달성할 수 있을 지에 대해 고민해 보아야 한다. 그리고 바로 이 지점에서 본 기고의 주제인 AI 도입 전략이 출발한다.


‘생성형 AI는 정말 만능일까?’

영화, 드라마 업계는 물론 이커머스 업계까지 영상을 어떠한 형태로든 비즈니스에 활용하고 있는 모든 기업의 가장 뜨거운 화두는 의심의 여지 없이 AI일 것이다. 간단한 프롬프트만으로 높은 수준의 영상 소스를 확보할 수 있으니, AI를 잘 활용할 수 있다면 장소 섭외나 인력의 운용부터 촬영 리소스 및 편집 리소스 비용까지 모든 영역에서 효율화를 달성할 수 있을 것다.

저작권, 초상권 등의 법적 이슈는 물론, 다양한 윤리적 문제가 뒤따르고 있지만, 실제로 해외의 여러 프로덕션은 이미 AI를 적극적으로 활용하고 있다. 일례로 양자경이 주연을 맡아 국내에서도 선풍적인 인기를 끌었던 ‘에브리씽 에브리웨어 올 앳 원스’에는 런웨이(Runway)라는 업체의 생성형 AI 응용 프로그램을 활용한 VFX 장면이 삽입돼 큰 반향을 일으키기도 했다.

에브리씽 에브리웨어 올 앳 윈스 속 런웨이를 통해 제작된 VFX 장면

즉 AI는 도구적 측면에서는 이미 다가온 미래라고 할 수 있다. 그렇다면 이를 단순히 사용자(편집자, 기획자 등) 측면의 활용이 아니라 기업 차원에서 워크 프로세스에 녹여내기 위해서는 어떤 고려가 필요한 것일까?

이에 대해 알아보기 위해서는 우선 추상적으로 묘사되고 있는 AI라는 개념을 도구의 차원으로 분절해 살펴봐야 한다. AI 연구자 및 엔지니어가 아닌 일반적인 비즈니스 종사자에게 있어 현 시점의 AI는 ‘사용자의 의도를 바탕으로 무엇인가 새로운 걸 만들어 주는 인공지능’, 즉 생성형 AI의 의미를 지닐 것임이 분명하다. 한 줄의 문장만으로 60초 길이의 완전히 새로운 영상을 만들 수 있기에 임팩트는 쉽게 휘발되지 않을 정도로 강력했을 것이다.

극단적인 가정을 해보자면, 그동안 여러 단계의 프로덕션 과정을 거쳐 긴 시간과 많은 비용을 투자해 만들어야 했던 영상 콘텐츠를 단 한 사람만으로도 만들 수 있다는 뜻이다.

그러나 조직이라고 하는 거대한 시스템을 운영해야 하는 기업 입장에서 이 AI라는 개념을 살펴보면 어떨까? 소라가 제시한 비전이 어느 날 상용 레벨에서 완전히 실현됐다고 가정해보자. 기업은 과연 이를 즉시 활용해 이윤을 창출할 수 있을까? 아주 높은 확률로 AI가 가져다 줄 생산성과 효율보다 더 큰 비용과 시간을 지불해야 할 것이다.

잠시 본론을 벗어나서 B2B와 B2C 소프트웨어를 가르는 가장 큰 차이점은 최종 사용자의 러닝커브에 있을 것이다. 여기서 말하는 최종사용자는 기업의 경우 조직을 의미한다. 기업이 어떤 도구를 도입해 생산적인 활동을 도모하기 위해서는 일반 개인에 비해 더 긴 시간을 필요로 한다. 이 관점을 유지한 채 다시 본론으로 돌아와보면, 기업의 AI 트랜스포메이션은 ‘만능 마법 도구’ 하나의 등장만으로는 이룩하기 어렵다는 것을 알 수 있다.

기업은 비즈니스 전개에 필요한 다수의 전문인력을 단계별, 부서별로 채용해 육성하고 운용한다. 본 기고의 주제인 영상 콘텐츠의 경우 앞서 말한 것처럼, 기획, 촬영, 효과, 편집 등 다양한 단계에 걸쳐 다수의 전문인력을 기업의 가치관과 감도, 스타일에 맞추어 육성하고, 또 활용하고 있다.

이러한 조직체계를 갖추기 위해 기업은 아주 많은 비용을 오랜 기간에 걸쳐 지불한 상태일 것이다. 이러한 상황에서 현 시점 사람들의 입에 오르내리는 ‘생성형 AI’ 기반 도구를 도입한다고 가정해보자. 촬영 혹은 편집 담당자들이 이를 통해 기업의 가치관에 맞는 산출물을 생성하는 게 효율적일까? 아니면 기존에 해오던 방식대로 콘텐츠를 생성하는 게 효율적일까?

기업, 특히 작품이 아닌 영리를 목적으로 하는 영상 콘텐츠를 제작 및 활용하는 기업의 입장에서는 메인 비즈니스 및 서비스의 톤앤매너(Tone & Manner)와 어우러지는 기업만의 영상 콘텐츠 스타일이 존재한다. 기업 레벨에서의 영상 콘텐츠란 단순히 한 담당자의 주관으로 만들어지는 것이 아니다. 이 점을 토대로 생성형 AI를 바라보면, 일관적인 톤앤매너를 담은 일정 품질 이상의 영상 콘텐츠를 다수의 인력이 지속적으로 생산하는 것이 얼마나 어려운 일인지 알 수 있다.

이를 앞당기기 위해서 별도의 기술 부서를 만들고, 프롬프트 엔지니어링 인력을 채용하는 방안 또한 강구할 수 있겠지만, 추가적인 비용이 발생함은 물론이고 그들이 기업 영상 콘텐츠의 아이덴티티를 체득하기까지 얼마나 오랜 시간이 소요될지 보장할 수 없다.

기업의 방향성을 잘 이해하고 있는 기존 인력으로 하여금 이 툴을 학습하게 하는 방안이 남는다. 그러나 기업은 영리의 목적을 띄고 있고, 기존의 영상 콘텐츠 제작업무는 계속 진행되어야 할 것이다. 학습을 위한 추가 시간을 확보하면, 기존의 생산 효율은 유지되기 어려울 것이고, 툴 적응에 얼마나 오랜 시간이 걸릴지도 미지수다. 결국 생산성과 효율성을 증대하기 위해 그 생산성과 효율성을 저해하는 시간이 지속될 것이고, 이는 결국 기술에 대한 신뢰를 깎게 될 것이다.

그리고 이는 2010년대 후반 머신러닝 솔루션 붐이 일었던 이래로 많은 기업이 AI 트랜스포메이션 과정에서 반복한 이슈이기도 하다. 그리고 바로 이 지점에 본 기고의 목적이자 제언이 존재한다. “아무리 훌륭한 기술이 있다고 할지라도, 그 기술의 사용자가 지금 당장 편하게 사용할 수 없다면, 정답이 아닌 것이다.”


지금 당장 활용할 수 있어야 한다

쉽게 말해, 영상 콘텐츠 영역에서 기업의 AI 트랜스포메이션 전략은 기존에 영상 콘텐츠를 다루던 전문가들의 업무루틴에 완벽하게 녹아들 수 있는 AI 기술의 도입으로 부터 출발해야 한다.

그리고 점진적으로 AI와의 상호작용에 대해 친숙해질 수 있는 환경을 제공함으로써 상용화된 생성형 AI 애플리케이션이 줄 수 있는 효용을 온전히 활용할 수 있도록 하는 형태의 로드맵이 수립돼야 할 것이다.

그렇다면 지금 당장 기업이 영상 컨텐츠 생산성 증대와 관련해 고려해 볼 수 있는 AI 툴은 어떤 것이 있을까? 이커머스 기업, 그 중에서도 홈쇼핑 업체의 케이스를 예시로해 이 질문에 대한 답을 도출해보고자 한다.


이커머스 기업에 필요한 영상 AI 활용 전략은?

앞서 정의한 것처럼, 이커머스 기업은 영상 콘텐츠 그 자체가 비즈니스의 목적이 되지 않고, 비즈니스 가치 창출의 수단으로서 이를 활용하기 때문에, 생산성 및 효율의 제고를 더 중요하게 받아들인다. 그리고 최근 숏폼의 보편화와 함께, 단순히 영상을 제작하는 것뿐 아니라 완성된 영상을 재가공하는 영역에서의 효율화가 화두로 떠올랐다.

특히 레거시 미디어에서부터 영상을 중요한 도구로 활용해 온 홈쇼핑 업체들의 경우, 숏폼 콘텐츠를 중심으로 모바일 중심의 뉴 미디어로의 전환을 가속화하려는 움직임이 곳곳에서 포착되고 있다. 모바일 커머스로의 전환에서 한 발 뒤처졌던 홈쇼핑 기업들은 숏츠 및 모바일 라이브 커머스 중심의 화면 개편을 통해 비디오 커머스 헤게모니 선점을 위해 노력하는 모양새이다.

틱톡, 유튜브 숏츠, 인스타그램 릴즈 등이 이끈 숏폼 트렌드는 크게 두 가지 양상을 보인다. 하나는 오리지널 콘텐츠 자체를 세로형으로, 짧게 구성하는 것이고, 또 다른 하나는 원본 영상을 세로형 템플릿에 알맞은 형태와 내용으로 짜깁기해 전시하는 것이다.

이 중 이커머스 기업이 집중하는 분야는 후자의 영역이다. 모바일에 최적화된 세로형 라이브 커머스 또한 활발하게 시도되고 있기에, 새롭게 만들어지는 다양한 영상 콘텐츠들이 휘발되지 않고 고객의 리텐션을 증대시키는 목적의 숏폼 컨텐츠로 재생산될 수 있도록 하는 것이 이커머스 기업의 주요 전략이다.

원본을 재생산한다는 점에서 숏폼 비디오는 영상 제작의 여러 단계 중 ‘편집’의 영역만을 다루고 있기에 여러 측면의 고려가 필요한 ‘창작’ 영역에 비해 명확한 솔루션이 존재한다면 즉각적인 업무 효율화를 기대할 수 있게 된다. 영상 전문가의 기존 워크플로우를 해치지 않는 편집 툴과 결합된 형태의 AI 기술이 도입된다면, 기업 AI 트랜스포메이션 전초기지로서 더할 나위 없는 영역이 될 수 있다고 할 수 있겠다.

그러나 공장형으로 찍어내기만 하면 될 것 같은 이 재생산의 과정은 뜻밖의 비효율을 내포하고 있다. 시청자의 무의식적 체류를 목적으로 하는 숏폼의 특성상 찰나의 순간 안에 시청자의 이목을 사로잡을 수 있는 ‘하이라이트 성’ 구간을 선정해 재구성해야 하기에, 편집자는 원본 영상을 일일이 탐색하며 하이라이트라고 불리울 만한 구간을 찾아내야 한다는 점이 첫 번째 비효율이다. 숏폼 콘텐츠의 목적이 다량의 숏클립을 생성해 고객이 스와이프할 수 있는 영상의 풀을 압도적으로 늘리는 데 있다는 점을 감안하면, 하이라이트를 찾기 위해 소모되는 이 시간을 효율화하는 것이 매우 중요함을 알 수 있다.

그리고 바로 이 지점에서 ‘지금 당장 활용가능한’ AI를 제안할 수 있겠다. 영상을 구성하는 다양한 형태의 데이터(음성, 이미지 등)를 복합적으로 이해하고 제품을 소구하는 구간을 자동으로 판별한다면 하이라이트 구간을 탐색하는 노고를 빠르게 효율화할 수 있지 않을까?

그러나 개념적으로는 심플해 보이는 이 ‘하이라이트 구간 탐색’이라는 과제를 커머스 비디오를 대상으로 달성하는 데에는 다음과 같은 허들이 존재한다. 바로 커머스 비디오의 특수성이다.

AI 기반의 하이라이트 구간 탐색이 비교적 보편화된 스포츠 비디오와 비교해보면, 커머스 비디오의 특수성이 두드러진다. 득점 이벤트라는 명확한 판단 기준이 존재하는 스포츠 비디오와 달리 개별 카테고리마다 제품을 소구하는 방식이 달라지기 때문에 커머스 비디오의 생리를 이해하고 있는 산업 전문가의 노하우를 모델에 이식할 수 있어야 한다. 그러나 시장에 존재하는 다양한 AI 편집 툴은 하이라이트 탐색 기능을 제공한다고 하더라도, 커머스 비디오의 이러한 특성에 최적화되어 있지 않기 때문에 원하는 사용자가 원하는 구간을 찾기까지 긴 탐색기간을 필요로 한다.

만약 비디오 영역의 AI 기술력만 보유한 업체의 AI 기반 편집 솔루션을 도입한다고 가정해보자. 먼저 해당 솔루션 기업이 모델 단에서의 커스터마이징을 제공할지부터 미지수다. 만약 커스터마이징이 가능해도, 커머스 영상 PD의 편집 노하우를 모델이 학습하기 위해 학습데이터 세트 구성부터 시작되는 지난한 시행착오를 겪어야 할 것이다. 그리고 매몰 비용이 되어버릴 그 기간을 고려한다면, 더 이상 숏폼 편집을 대상으로 한 AI 트랜스포메이션 접근법이 올바르지 못한 방법이 돼 버릴 수 있다.

결국 이 문제를 해결하고, 가장 즉각적인 AI 이식을 도모하기 위해서는 ‘커머스 비디오에 대한 도메인 지식’을 바탕으로 개발된 ‘AI 기반 영상편집 툴’이 필요하다는 뜻이다.


중요한 건 미래의 판타지가 아닌 현재의 효용

영상 산업에 대한 이해로부터 출발해 생성형 AI에 대한 시장의 막연한 기대와 기업 관점에서의 AI 도입 전략에 이르기까지, 포괄적인 담론을 짧은 지면에 담아내는 과정에서 다소 개괄적인 내용이지만 본 기고를 통해 분명하게 전달하고 싶은 메시지이다.

특히 대부분의 영상 AI 기술 및 솔루션의 경우, 범용적인 영상 제작 환경에서의 개선을 목적으로 연구 및 개발되고 있기에, 당장의 이익과 다가올 내일의 기술 두 마리 토끼를 잡아야 하는 홈쇼핑 및 이커머스 기업들이 AI 트랜스포메이션 전략을 고민함에 있어 이번 기고가 유용한 도움이 되기를 희망한다.


AI 기반 커머스 비디오 숏폼 편집툴- 버즈니 에이플러스 Short Generator

15년간 홈쇼핑 커머스 영역의 종합 플랫폼 앱인 ‘홈쇼핑모아’를 운영해 온 버즈니는 지난해부터 자체적으로 개발한 다양한 AI 기술들을 서비스형 AI(AIaaS)로 패키징해 ‘버즈니 에이플러스’라는 브랜드로 다양한 기업 고객에 납품하고 있다. 그리고 앞서 탐구한 ‘이커머스 비디오를 대상으로 즉시 활용 가능한 솔루션’이라는 목표를 가지고 지난 시간 동안 커머스 비디오 하이라이트 구간 추출 모델에 대한 연구 개발을 지속해왔다.

출처: https://paperswithcode.com/sota/highlight-detection-on-qvhighlights

기반 기술 연구의 측면에서는 ‘하이라이트 디텍션(Highlight Detection)’ 벤치마크에서 SOTA를 달성하는 등 핵심 AI 기능에 대한 퍼포먼스를 검증했으며, 실제 홈쇼핑사들과 다수의 협업과정을 통해 커머스 비디오 도메인과 커머스 비디오 관점에서의 하이라이트 샘플에 대한 도메인 놀리지를 축적해 모델에 반영할 수 있었다.

사용성 측면에서는 실제 사용자가 될 PD들과의 직접적 협업을 통해 실무자의 작업 프로세스를 저해하지 않으면서도 AI와의 상호작용이 자연스럽게 일어날 수 있도록 하는 웹기반 편집 솔루션을 개발했다.

버즈니 에이플러스 쇼츠 제너레이터 동작 화면
버즈니 에이플러스 쇼츠 제너레이터 동작 화면

‘버즈니 에이플러스 쇼츠 제너레이터’의 핵심 AI 기능은 크게 2가지로 구성된다. ‘편집자의 작업효율을 제고한다’는 핵심 가치에 부합하기 위해 LLM 기반으로 하이라이트로 예상되는 클립 구간을 자동으로 선별하며, 실사용자의 데이터를 활용, 강화학습을 통해 해당 추천성능을 지속적으로 향상하고 있다. 또한 멀티모달 인코더를 활용, 사용자가 자연어로 원하는 장면을 입력하면, 해당 검색어에 부합되는 장면을 빠르게 탐색할 수 있는 검색 기능 또한 제공한다.

한편, AI를 통해 하이라이트 구간을 추출하는 단계에서부터 숏폼 템플릿에 맞는 디자인 편집에 이르는 전 과정을 자동화한 파이프라인도 별도로 개발하여 AI 기반 숏폼 편집과 관련된 고객사의 어떠한 니즈에도 대응할 수 있도록 했다.

버즈니 에이플러스는 AI를 통한 영상 콘텐츠 제작 생산성 증대를 목표하는 기업들과의 긴밀한 협업을 통해 추후 다가올 생성형 AI의 시대에 기업들이 즉시 사용할 수 있는 솔루션을 지속적으로 개발해 나가고자 한다. 비단 홈쇼핑 기업뿐 아니라, 비즈니스 과정에서 숏폼 비디오를 활용하는 모든 기업과 협업이 가능하며, 더 폭넓은 산업 영역으로 모델을 발전시킬 예정이다.