品玩4月18日讯,据通义大模型官方消息,通义万象2.1首尾帧视频模型 wan2.1-FLF2V-14B现已开源。该模型只需要提供两张照片作为首帧和尾帧,便可以自动生成一段高清视频。
wan2.1-FLF2V-14B是全球首款开源的白衣参数视频生成模型,支持生成5秒的720P高清视频。该模型属于Wan2.1 系列模型,采用了先进的 DiT 架构,在技术上实现了多项突破。其中,高效的视频压缩 VAE 模型显著降低了运算成本,让高清视频生成更加高效且经济。本次发布的首尾帧生视频模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。
此外,为实现画面稳定性控制,通义万相首尾帧生视频模型提取了首帧和尾帧的 CLIP 语义特征,并通过交叉注意力机制(Cross-Attention Mechanism)将其注入到 DiT 的生成过程中。

0 条评论
请「登录」后评论