알리바바, 영상 생성·편집 오픈소스 AI 모델 ‘완2.1-VACE’ 출시

영상 생성 및 편집 기능 등 전 과정 아우르는 오픈소스 통합 모델 공개

2025-05-16 성원영 기자

[아이티데일리] 알리바바(Alibaba)가 영상 생성 및 편집을 위한 최신 오픈소스 AI 모델 ‘완2.1-VACE(Wan2.1-Video All-in-one Creation and Editing)’를 16일 공식 발표했다. 이번 모델은 알리바바의 영상 생성 특화 대규모 모델 시리즈인 ‘완2.1’에 속하며, 영상 생성 및 편집 기능을 아우르는 오픈소스 통합 모델이다.

알리바바는 최신 오픈소스 영상 생성·편집 모델 ‘완2.1-VACE’를 16일 공개했다.

알리바바는 완2.1-VACE를 통해 다양한 영상 처리 기능을 통합해 영상 제작을 간소화하고, 크리에이터의 생산성을 극대화하는 데 주력했다고 밝혔다. 해당 모델은 텍스트, 이미지, 영상 등 다양한 멀티모달 입력을 기반으로 영상 생성이 가능하다. 이미지나 특정 프레임을 참조해 편집하거나, 영상 내 선택 영역을 수정·재구성할 수 있다. 포즈 전환, 움직임 제어, 깊이 조절, 색상 재처리 등의 기능도 포함돼 고도화된 영상 리페인팅을 지원한다.

또한 알리바바는 이번 모델에 다양한 영상 편집 작업의 니즈를 고려해 첨단 기술을 다수 적용했다고 설명했다. 통합 인터페이스 ‘VCU(Video Condition Unit)’를 도입해 멀티모달 입력(텍스트, 이미지, 영상, 마스크 등)을 일괄적으로 처리할 수 있다. 시간적·공간적 요소를 정형화된 방식으로 표현하는 ‘컨텍스트 어댑터(Context Adapter)’ 구조를 통해 각 작업 개념을 효율적으로 모델에 적용할 수 있다. 이러한 기술들은 폭넓은 영상 합성 작업을 유연하게 관리할 수 있도록 돕는다.

영상 기반 AI 모델을 훈련하려면 막대한 연산 자원과 고품질 학습 데이터가 필요하다. 완2.1-VACE는 오픈소스를 통해 이러한 장벽을 낮추고, 더 많은 기업이 빠르고 경제적인 방식으로 자사 니즈에 맞춘 고품질 영상 콘텐츠를 제작할 수 있도록 지원한다. 특히 △SNS 숏폼 영상의 빠른 제작 △광고·마케팅용 콘텐츠 창작 △영상 후반 작업 및 특수효과 적용 △교육용 트레이닝 콘텐츠 제작 등 다양한 분야에서 활용될 수 있다.

완2.1-VACE는 파라미터 수 기준으로 140억(14B) 버전과 13억(1.3B) 버전 두 가지 형태로 제공된다. 현재 해당 모델은 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드 오픈소스 커뮤니티 모델스코프(ModelScope)에서 누구나 무료로 다운로드할 수 있다.