品玩4月14日讯,据月之暗面官方消息,月之暗面现已面向开源社区推出全新的视觉语言模型 Kimi-VL。
Kimi-VL采用了前一段时间发布的轻量级 MoE 模型 Moonlight,16B总参数,2.8B激活参数。视觉信息处理部分,采用了支持原生分辨率的 MoonViT 编码器——400M 参数 Vison Transformer 架构。Kimi-VL 支持广泛的多模态信息输入,包括单图、多图、视频、包含视觉信息的长文档等,在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent等基准测试中展现了有竞争力的水平。
此外kimi还推出了支持长思考的模型分支版本:Kimi-VL-Thinking。它经过强化学习,激活了模型的长思维链推理能力(Long CoT)。尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型,但在有较高推理难度的基准测试(包括 MMMU,MathVision,MathVista)中,部分成绩可以接近甚至超过超大尺寸的前沿模型。

0 条评论
请「登录」后评论