品玩4月23日讯,据 marktechpost 报道,英伟达近日推出多模态视觉语言 AI 模型Eagle 2.5,模型性能堪比GPT-4O。
该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为 8B,Eagle 2.5 在 Video-MME 基准测试(512 帧输入)中得分高达 72.4%,媲美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规模模型。
英伟达表示,Eagle 2.5-8B 在多项视频和图像理解任务中表现出色。在视频基准测试中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图像基准测试中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。

0 条评论
请「登录」后评论