2024智能传媒技术发展论坛丨张俊林：业界正聚焦大一统多模态大模型的构建-品玩

11月30日，由中国人工智能学会主办，CAAI智能传媒专委会、新浪新闻、中国传媒大学数据科学与智能媒体学院、中国传媒大学海南国际学院承办的2024智能传媒技术发展论坛落下帷幕。微博首席科学家、新技术研发负责人、中国中文信息学会理事张俊林出席论坛，分享了多模态大模型技术的最新进展以及微博在多模态大模型方面的创新应用。

近一年来，多模态大模型技术与产品蓬勃发展，在多个领域展现出巨大潜力，正在重新定义人工智能的能力边界。张俊林表示，如果考虑其技术发展路线的话，可以看出多模态大模型在沿着特定路径演进：在今年4月之前，主要存在多模态理解大模型与多模态生成大模型两个分支，前者支持多模态输入但以文本形式输出，主要用于回答用户关于多模态输入内容的一些问题；后者可生成文本、图像、视频等多种模态的内容。

“这两个分支的技术路线各异，自今年4月起，业界重点聚焦于构建统一的多模态大模型，探索理解与生成功能融合的大一统模型架构。”张俊林表示，“业内对大一统多模态大模型的期望是，其能接纳任意形态的输入，如文字、图片、视频、音频乃至最新的触觉与行为模态，并生成相应形态的内容，其发展方向是实现统一模型对各类输入的兼容与多样化输出的生成。”

张俊林接着介绍了微博在多模态应用方面的创新实践。“微博多模态应用的整体架构底层为算力平台，之上构建了微博知微大模型。”张俊林表示，微博历经十余年积累了丰富且具特色的数据，如实时热点信息、丰富的事件脉络以及网络流行语与热梗等，“我们结合通用数据和微博特色数据构建了知微大模型，并在此基础上开发了多款不同场景的具体应用，例如评论机器人、剧综虚拟角色生成、博主 AI 助手、MBTI 小行家等。”

在现场，张俊林对评论机器人和剧综虚拟角色进行了具体介绍。“微博评论机器人具有双重价值，既能提升社区活跃度，又能为用户提供情绪价值。其技术架构的核心是多模态评论大模型以及支持评论机器人不同人设设置的人设大模型。”张俊林表示，“我们利用微博大量的优质内容及对应的高质量评论数据来微调这两个模型。当用户发出微博后，评论机器人会把评论问题拆解成若干子任务，分别理解文字与多张图片的内容，再依据对应人设生成有特点的回复，之后还可以精选高互动的机器人评论，作为新的训练数据进一步改善模型效果，数据形成闭环，持续迭代优化评论机器人的效果。”

在剧综虚拟角色方面，张俊林指出，角色扮演是大模型的热门应用领域，如Character.ai的用户平均使用时长超过40分钟。“这类应用的用户黏性非常强，微博在这方面的大模型应用重点布局在影视剧综的虚拟角色扮演上，旨在解决剧综账号活跃周期短的维护难题。”张俊林表示，其架构核心在于构建通用的角色大模型，并结合多模态RAG融入具体剧情与图片信息，使大模型能以符合角色身份的方式与用户互动，应用场景涵盖虚拟角色账号创建、用户互动与评论区互动等。数据表明，引入多模态大模型后，评论互动率以及用户交互轮次都有明显提升，彰显了多模态大模型在实际场景中的巨大应用价值。