品玩2月24日讯,DeepSeek 今天宣布开始逐步开源多个代码库,首先开源的是一个针对针对 Hopper GPU 优化的高效 MLA 解码内核FlashMLA。
DeepSeek 表示,该代码库针对可变长度序列进行了优化,目前已投入生产。它专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量。
DeepSeek 表示,FlashMLA 可在 H800 芯片上实现最高3000GB/S的带宽和580 TFLOPS 的算力。

Deepseek 宣布开源代码库,为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA
4小时前品玩2月24日讯,DeepSeek 今天宣布开始逐步开源多个代码库,首先开源的是一个针对针对 Hopper GPU 优化的高效 MLA 解码内核FlashMLA。
DeepSeek 表示,该代码库针对可变长度序列进行了优化,目前已投入生产。它专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量。
DeepSeek 表示,FlashMLA 可在 H800 芯片上实现最高3000GB/S的带宽和580 TFLOPS 的算力。
下载品玩App,比99.9%的人更先知道关于「DEEPseek」的新故事
下载品玩App
比99.9%的人更先知道关于「DEEPseek」的新故事
0 条评论
请「登录」后评论