品玩2月19日讯,据36氪获悉,DeepSeek推出NSA技术。DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。
通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。
研究通过对现实世界语言语料库的综合实验来评估 NSA。实验结果表明,NSA 实现了与 Full Attention 基线相当或更优的性能,同时优于现有的稀疏注意力方法。

0 条评论
请「登录」后评论