品玩

科技创新者的每日必读

打开APP
关闭

kimi开源视觉语言模型 Kimi-VL 多项基准超越 GPT-4o

4月14日

品玩4月14日讯,据月之暗面官方消息,月之暗面现已面向开源社区推出全新的视觉语言模型 Kimi-VL。

Kimi-VL采用了前一段时间发布的轻量级 MoE 模型 Moonlight,16B总参数,2.8B激活参数。视觉信息处理部分,采用了支持原生分辨率的 MoonViT 编码器——400M 参数 Vison Transformer 架构。Kimi-VL 支持广泛的多模态信息输入,包括单图、多图、视频、包含视觉信息的长文档等,在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent等基准测试中展现了有竞争力的水平。

此外kimi还推出了支持长思考的模型分支版本:Kimi-VL-Thinking。它经过强化学习,激活了模型的长思维链推理能力(Long CoT)。尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型,但在有较高推理难度的基准测试(包括 MMMU,MathVision,MathVista)中,部分成绩可以接近甚至超过超大尺寸的前沿模型。

取消 发布

下载品玩App,比99.9%的人更先知道关于「月之暗面」的新故事

下载品玩App

比99.9%的人更先知道关于「月之暗面」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测