品玩12月9日讯,据 analyticsindiamag 报道,英伟达近日发布了名为 NVILA 的全新开放式视觉语言模型系列,该模型专注于优化准确性和效率。
据悉,该模型的训练成本降低了 4.5 倍,微调内存降低了 3.4 倍。此外,它还将预填充和解码的延迟降低了近 2 倍。这些数据都是与 LLaVa OneVision 模型相比得出的,LLaVa OneVision 模型是另一个结合了 Qwen 2 语言模型的大型视觉模型。
从基准测试结果来看,NVILA 在视频基准测试中的表现优于 GPT 4o Mini,与 GPT 4o、Sonnet 3.5 和 Gemini 1.5 Pro 相比,性能更具竞争力。尽管如此,NVILA 的性能仍优于大多数开放式型号。与 Llama 的 3.2 型号相比,它也略胜一筹。
0 条评论
请「登录」后评论