对于AI圈来说,这个春节是DeepSeek 冠名的春节。所有人都在讨论它,DeepSeek 成了前所未有出圈的AI产品和公司。
这种讨论伴随着中美竞争、美股暴跌、神秘天才与暴富流言等大家喜闻乐见的话题,不可避免的走向了神化/妖魔化的方向。
但DeepSeek 的研究员们怎么样了?他们在忙些什么?
虽然这是个极其低调的公司,但同时作为一家鼓励自己的科学家获得学术成就,尤其是被其他人follow的成就感,以及以极致的开源为根基的AI研究公司,DeepSeek的年轻科学家们其实在社区里也很活跃,他们是一个个具体而鲜活的研究员。
与那些夸张或臆想的文章获得的大量关注不同,这些研究员们的一手讨论与分享往往阅读量很少。但对于真正想要了解这家公司的人来说,与其想象,不如看看这些研究员们真实的分享。
“乐子人”和“Infra团队里随便一个人”们
在X上做些搜索和研究,你会发现,最明显的感受是,DeepSeek的研究员们没有OpenAI或者其他明星研究员那种浓浓的PR味儿。这些账号充满人味。
比如,认证为DeepSeek机器学习和多模态研究员的刘星超,给自己的简介是“乐子人”。
根据公开资料,他博士毕业于德克萨斯大学奥斯汀分校,目前是DeepSeek多模态组成员。他一直在推特上分享自己的工作,像每个研究员那样,关注着大佬的反馈。他参与的DeepSeek 多模态模型JanusFlow被知名AI学者谢赛宁转发,当在他的分享下方,有人提到对模型的target encoder的好奇时,他直接回复对方。这些分享在当时并不会被很多人看到,但却是研究员们的日常。
这些DeepSeek研究员们的账号还有个共同特点,他们都在关注着同行的工作,并为他们点赞,有时候也好奇追问。
在爆火之前,很多时候他们跟我们这些普通关注者一样,发出的信息石沉大海。
邵智宏实习期间成为DeepSeek Math的核心作者之一,后来参与了R1等模型开发,他在推特上不停给o1和Gemini的成果点赞,给这些团队留言祝贺,像极了我们关注AI各种进展的每个普通人。
而在DeepSeek火了以后一切也发生了变化。
邵智宏在发布DeepSeek Coder模型时的转发,阅读也只有2000多。
而R1终于一朝成名天下知,他随便转发就有几十万的阅读。
于是这些习惯于简洁明了做学术交流的推文以及回复,也开始带上能力宣示的意味。
DeepSeek基础设施团队的许哲安在V3因成本而引发热议后在推特的一句简单回复,得到4.6万的阅读。
“你们真的只用了2000个H800就做出了这个模型?”
“yes”
而他给自己的简介是“基础设施团队里随便一个人”。
在努力之后,他们确实得到了梁文锋在专访里所说的,被follow的成就感。
不懂RL的数学天才分享在DeepSeek的研究方式
另一个直观感受是,这些研究员的背景很不一样。此前有接近DeepSeek的人分享的招聘经历称,DeepSeek喜欢找复合背景,尤其基础学科的人才。
而在关于DeepSeek的技术报告的讨论里,有人形容其中公式简洁明了,把SFT和大多数的RL类型统一到了一个公式里。这种对算法的理解——所有这些训练方法是事实可以被构建为同一个数学原理,是简洁而美妙的。
很多人认为这最终是依靠数学的品味。
而参与了DeepSeek几代重要模型的Peiyi Wang则在推特上,直接分享了自己的研究历程:
“去年我加入DeepSeek,没有任何强化学习经验。在进行 Mathshepherd 和 DeepSeekMath 研究时,我独立推导出了这个统一公式,以了解各种训练方法。感觉就像是一个“顿悟时刻”,尽管我后来意识到这些就是Policy Gradient(策略梯度)。”
这种思考体现在DeepSeek的好几个模型里:不拘泥于现有的思路,不拘泥于RL或者任何已有的算法分类带来的约束,从模型能力本身来思考。梁文锋也曾提到,DeepSeek最重要的一个架构创新MLA,就是一个年轻人“在总结出Attention架构的一些主流变迁规律后,突发奇想去设计一个替代方案”。
和其他研究员一样,翻看Peiyi Wang的推特,他也一直在和社区交流自己的研究,而在DeepSeek被更多人关注到后,他第一时间分享的是好奇心。把真实情况分享给社区的开源精神明显。这种分享在今天越来越不说人话创造大词的AI圈里,能带来十分难得的接地气的讨论。
对DeepSeek 内部来说,超越ChatGPT有多重要
大部分时候,这些研究员在各自关注自己关心的领域,但最近他们有个共同的庆祝时刻:
超越ChatGPT。
多个研究员转发了DeepSeek的app登顶应用商店并超过ChatGPT的新闻。
“每一次突破都提醒我们,还有很多东西需要学习和改进。让我们一起继续突破界限!”
“这个时刻对我来说简直太现象级了。”潘子正写到。此前他在英伟达的导师曾分享过他的经历,曾在英伟达实习的潘子正在2023年却毅然决然回国加入了当时只有3人的DeepSeek多模态团队。现在这个决定带来了兑现的时刻。
从这些反应也可以看出来,对于内部来说,瞄准和超越OpenAI是一个多么关键的历史时刻,对他们来说意义有多重大。
而在OpenAI传出对DeepSeek的蒸馏指控后,这些研究员也做出了隔空回应:
“鲸鱼帮每个人提前蒸馏好了。好笑吧。”刘星超写到。这也是少有的带有火药味的回应。在R1系列的技术报告里,DeepSeek用R1系列模型为Qwen等更小模型做好了蒸馏,供社区直接使用。
从这些分享也能看出,在内部,战胜一次OpenAI对他们来说有多重要。
另一个最近让这些研究员纷纷转发的,是对一个虚假账号的辟谣。一个冒充梁文锋的账号在推特出现,还得到大量关注。
“这不是我们的文锋”,多个DeepSeek研究员忙于转发辟谣。能看出DeepSeek最近爆火后的困扰。
从这些研究员的分享看,R1系列的发布原本就是一个春节礼物。但看起来这个效果出乎他们自己的预料,也加速了他们和OpenAI的继续竞争。
“春节期间让我最兴奋的事情,是亲眼见证了 R1-Zero 模型性能曲线的 持续增长,并真正的感受到强化学习的力量。”DeepSeek研究员郭达雅在推特上感慨。他2023年刚刚博士毕业,参与了DeepSeek一系列数学和代码的模型工作。
而他也由此开始做了一次难得的小型问答,并被大家以对待OpenAI自己爆料的规格对待,认为这是难得的剧透。在几个问答里,透露了一些令人兴奋的信息。
—— “想问下模型的性能持续提升能持续多久呢?现在是早期阶段吗?DeepSeek的RL模型是像GPT-2时刻一样还是已经到GPT-3.5这种比较成熟的阶段,快到瓶颈了?”
郭达雅: “我觉得我们还处于非常早期的阶段,RL领域还有很长的路要探索。但我相信今年会看到显著的进展。”
—— “基于 R1-Zero 的性能,如何评估模型是真的具备了泛化能力,还是仅仅记忆了状态转换和奖励 ?”
郭达雅:“我们使用 RL prompt 未覆盖的领域的基准来评估泛化能力。目前来看,它似乎具备泛化能力”
——“这次 RL 训练跑了多久?”
郭达雅: “660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型其实是 R1-Lite 或者 R1-Lite-Zero”
—— “你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?今年如果有开源模型能在 IMO 拿金牌就好了。”
郭达雅: “我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型”
——“下一个模型更新?”
郭达雅:“我们并不确定模型会在何时更新,因为它取决于实验的进程。我们没有设置deadline。但当模型有显著的进步时,一般我们自然就会做发布和更新。”
这些回答信息量巨大,更重要的是,它们显得十分真诚,都关乎DeepSeek的核心技术和发展方向,回答也都围绕技术本身,没有故弄玄虚,没有在刻意用那些AGI的叙事去收获泡沫式的关注,讨论的都是具体而真实的研究。
此前,前OpenAI的研究员Andrej Karpathy 曾说,今天AI界真正在改变世界的爱因斯坦们,可能在架构表里藏在CEO以下5层。
从对DeepSeek的组织形态的各种研究来看,这是一个极其扁平的组织,有OpenAI和英伟达的味道,不论层级,可以直接像CEO汇报,也可以跨部门打散整合,因此不同模型能力也可以随时因重要的创新而共同协作。
而对于一个注定要影响人类未来的技术,把它交给每天都有新的莫名其妙的新名词出现的团队,和把它交给看起来依然是热情洋溢的鲜活的个体的团队,后者可能更能让普通人对关键的话题参与进去。
这些具体在做着自己相信的研究的年轻AI科学家,看起来确实在改变着世界。
0 条评论
请「登录」后评论