“发完论文,上知乎亲自答”,人工智能研究者也不例外。近日,DeepSeek和月之暗面先后发布最新研究论文,一场聚焦大模型核心技术的深度讨论随之在知乎展开。2月20日,月之暗面开源MoBA框架研发人员鹿恩哲、苏剑林分别在知乎讲述了研发思路,与此同时,微软研究院、清华大学团队以及阶跃星辰开源模型参与者,均发文分享研究了各自成果与历程。这被业界称为继模型开源、论文开源之后的一次“思维链开源”。
鹿恩哲的知乎用户名称为“Andrew Lu”,签名为“新晋LLM训练师”,他以“三入思过崖”为比喻,拆解了该模型框架研发过程中的三次关键突破和思维转变:首次思过崖是“将MoBA 从串行两层注意力方案改并行的单层注意力方案”;第二次思过崖则从2023年9月一直持续到了2024年年初,为此团队参与者进行了多番激烈讨论;最后一次思过崖则鉴于“MoBA本身优秀的数学性质”,没让整个项目付出巨大的沉没成本。
MoBA项目中的另外一位参与者、知乎答主苏剑林,也发文补充了一些信息,在他看来,MoBA值得业界继续延伸讨论下去,“我觉得MoBA并不单单是一次在Sprse Attention上的成功尝试,它的有效性还可能蕴含着一些值得深思的本质原理在里面,期待大家的集思广益”。
“这种试错的心路历程,是比技术报告都珍贵的经验”,一位知乎用户如此评价鹿恩哲的分享。业界普遍认为,模型参与者亲自拆解研发历程,是继模型开源、论文开源之后的一次“思维链开源”。知乎上不断有AI领域的从业者参与讨论,撰文分享各自大语言模型的研究历程。
微软亚研院高级研究员曹士杰在知乎撰文表示,其团队去年研究的工作也是同sparse attention(稀疏注意力)有关。面壁智能联合创始人、清华大学计算机系副教授刘知远的团队在2024年发表过InfLLM,其中也涉及一种稀疏注意力改进,并被DeepSeek此次发表的NSA论文所引用,InfLLM项目参与者、知乎答主“xcjthu”撰文表示,NAS最精彩的部分还是软硬一体化的设计,“正如Deepseek-V3带给大家的震撼一样,我认为NAS的硬件亲和性是这篇论文最精彩的部分”。
阶跃星辰于2月17日开源了两款多模态大模型,分别是视频生成模型Step-Video 和音频生成模型step-audio。其中视频生成模型的参与者、知乎答主“hzwer黄哲威”即于知乎撰文,详尽介绍了这款大模型的研究历程,他称,“Step-Audio项目主要就是想发挥大数据、大模型的类似大语言模型结构威力”。
知乎囊括了最广泛的互联网、AI、机器人等科技领域的从业者,成为从业者们最青睐的交流场所和思想碰撞的前沿阵地。在月之暗面MoBA与DeepSeek NSA的“撞车”发布之后,众多开发者选择在知乎分享大模型研究“踩坑”实录,不仅代表着开源社区与学术生态的深度融合,更印证了知乎作为中国AI“思维链开源地”的独特平台价值。
0 条评论
请「登录」后评论