品玩7月31日讯,据 Arxiv 页面显示,新加坡国立大学的Wenyi Yu及其团队提出了一项名为video-SALMONN的新技术,它不仅能够理解视频中的视觉帧序列、音频事件和音乐,更重要的是,它能够理解视频中的语音内容。
SALMONN是一种端到端的音频-视觉大型语言模型(av-LLM),它通过一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,将预训练的音视频编码器与大型语言模型的主体连接起来。这种结构不仅能够捕捉到语音理解所需的细粒度时间信息,同时也保证了对其他视频元素的高效处理。
为了提高模型对不同视频元素的平衡处理,研究团队提出了专门的训练方法,包括多样性损失和未配对音视频混合训练策略,以避免视频帧或模态的主导。
0 条评论
请「登录」后评论