kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o-品玩

品玩4月14日讯，据月之暗面官方消息，月之暗面现已面向开源社区推出全新的视觉语言模型 Kimi-VL。

Kimi-VL采用了前一段时间发布的轻量级 MoE 模型 Moonlight，16B总参数，2.8B激活参数。视觉信息处理部分，采用了支持原生分辨率的 MoonViT 编码器——400M 参数 Vison Transformer 架构。Kimi-VL 支持广泛的多模态信息输入，包括单图、多图、视频、包含视觉信息的长文档等，在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent等基准测试中展现了有竞争力的水平。

此外kimi还推出了支持长思考的模型分支版本：Kimi-VL-Thinking。它经过强化学习，激活了模型的长思维链推理能力（Long CoT）。尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型，但在有较高推理难度的基准测试（包括 MMMU，MathVision，MathVista）中，部分成绩可以接近甚至超过超大尺寸的前沿模型。