阿里通义万相首尾帧生视频模型开源-品玩

品玩4月18日讯，据通义大模型官方消息，通义万象2.1首尾帧视频模型 wan2.1-FLF2V-14B现已开源。该模型只需要提供两张照片作为首帧和尾帧，便可以自动生成一段高清视频。

wan2.1-FLF2V-14B是全球首款开源的白衣参数视频生成模型，支持生成5秒的720P高清视频。该模型属于Wan2.1 系列模型，采用了先进的 DiT 架构，在技术上实现了多项突破。其中，高效的视频压缩 VAE 模型显著降低了运算成本，让高清视频生成更加高效且经济。本次发布的首尾帧生视频模型在基础架构模型上，引入了额外的条件控制分支，用户输入的首帧和尾帧作为控制条件，通过这一分支实现了流畅且精准的首尾帧变换。

此外，为实现画面稳定性控制，通义万相首尾帧生视频模型提取了首帧和尾帧的 CLIP 语义特征，并通过交叉注意力机制（Cross-Attention Mechanism）将其注入到 DiT 的生成过程中。