品玩8月19日讯,英伟达近日宣布,联手Meta 推出了一款Llama-3.1-Minitron 4B AI 模型,这是一款 只有40亿参数的小模型。
据悉这款模型是通过对英伟达Nemotron 系列中较大的 15B 兄弟姐妹进行剪枝和蒸馏而获得的。剪枝和蒸馏可带来多种好处:与从头开始训练相比,MMLU 分数提高了 16%。每个额外模型所需的训练标记更少,约为 1 亿个标记,最多可减少 40 倍。与从头开始训练所有模型相比,训练一系列模型的计算成本最多可节省 1.8 倍。
研究显示,蒸馏和剪枝之后的模型性能可与在更多代币上训练的 Mistral 7B、Gemma 7B 和 Llama-3 8B 相媲美,最多可达 15T Token。
0 条评论
请「登录」后评论