고품질 이미지·영상 생성 최적화, 복잡한 동작 자연스럽게 연결
[아이티데일리] 알리바바(Alibaba) 그룹의 클라우드 컴퓨팅 부문을 담당하는 알리바바 클라우드(Alibaba Cloud)가 새로운 오픈소스 영상 생성 모델 ‘완(Wan)2.1-FLF2V-14B’를 공개해 이목을 끌었다.
이번 모델은 시작 프레임과 종료 프레임을 입력값으로 활용해 보다 정교하고 직관적인 영상 생성이 가능하도록 설계됐다. 이를 통해 숏폼 콘텐츠 제작자들이 자신만의 AI 모델과 애플리케이션을 보다 효율적이고 개발할 수 있을 것으로 알리바바클라우드 측은 보고 있다.
‘Wan2.1-FLF2V-14B’는 알리바바 클라우드의 파운데이션 모델 시리즈인 ‘완2.1(Wan2.1)’에 속하며, 텍스트와 이미지 입력을 기반으로 고품질의 이미지와 영상을 생성하는 데 최적화된 모델이다. 이 모델은 오픈소스 플랫폼인 허깅페이스(Hugging Face), 깃허브(GitHub), 알리바바 클라우드의 오픈소스 커뮤니티 모델스코프(ModelScope) 등에서 자유롭게 이용할 수 있다.
특히 이 모델은 사용자 명령어의 정밀한 실행은 물론, 첫 프레임과 마지막 프레임 사이의 시각적 일관성을 유지할 수 있다. 또한 복잡한 동작을 자연스럽게 연결해 사실적인 영상을 제공한다. Wan 시리즈의 공식 웹사이트에서는 이 모델을 활용해 720p 해상도의 5초 분량 영상을 무료로 생성할 수 있다.
이번 모델의 핵심 기술은 ‘제어조정메커니즘(Control Adjustment Mechanism)’이다. 사용자가 제공한 시작 프레임과 종료 프레임을 제어 조건으로 활용해 두 장면 사이의 부드럽고 정밀한 전환을 가능케 한다.
해당 메커니즘은 시각 안정성을 확보하기 위해 시작 프레임과 종료 프레임에 포함된 의미 정보를 생성 과정에 반영한다. 이를 통해 프레임을 동적으로 변형하면서도 스타일과 콘텐츠, 구조적 일관성을 함께 유지할 수 있다.
Wan2.1 시리즈는 중국어와 영어 기반 텍스트 효과를 모두 지원하는 영상 생성 AI 모델이다. 복잡한 움직임과 픽셀 표현, 명령 수행 정확도 면에서 탁월한 성능을 보이며, 영상 생성 벤치마크 플랫폼 ‘V벤치리더보드(VBench Leaderboard)’에서 종합 1위를 차지한 바 있다.


