品玩

科技创新者的每日必读

打开APP
关闭

对话源络创始人连文昭:这家刚融了几亿的机器人公司,并不太喜欢“具身智能”这个词

「机器人一定是一个跨周期的东西,不火也要做,火了反而更要冷静一些」

王兆洋

发布于 4月19日

2010年,一家叫做Vicarious的公司在硅谷成立,它的早期投资人包括伊隆·马斯克,马克·扎克伯格和杰夫·贝索斯等人。在2014年它正式开始更大规模招聘时,对外公开宣告的公司使命是:

实现AGI。

今天扛着AGI大旗的OpenAI要到一年后的2015年底才成立,在当时的AI圈,当红炸子鸡就是英国的DeepMind和美国的Vicarious。

当时在美国杜克大学拿到博士学位的连文昭,毕业没有像大多同学那样进入Facebook等硅谷大厂,而是直接加入了Vicarious。他之后成为该公司的机器人团队负责人,做的项目包括用类脑神经网络去替代卷积神经网络,用更接近人类的方式去训练机器人,让机器人可以低成本甚至零成本部署实现新任务——几乎就是今天具身智能浪潮里每一家拿下巨额融资的公司宣称在做的事情。

在Vicarious待了几年后,连文昭还是不满足于机器人实现智能的方式,他加入了Google当时如日中天的Google X、两年后公开名为Intrinsic,有了一个更大的野心,他们希望做一个统一的算法操作系统来控制所有形态的机器人,以实现更通用的智能

之后在2022年,Figure的创始人Brett Adcock找到连文昭,把他招到了刚刚成立的Figure,负责创造机器人的「大脑」,他也成为这家今天已估值400亿美元的公司里第一个AI方向负责人。

连文昭
连文昭

2023年,当够了「前排看球的观众」,连文昭决定自己创办一家机器人公司,实现他一直想要实现的机器人梦。他回国创办了源络科技,并拉来了曾担任优必选 Walker人形机器人产品线负责人的谢铮一起创业。

这样的经历,在今天这个具身智能创业的黄金时代,是能让每个投资人都眼前一亮的存在。但连文昭却异常的低调鲜少露面。据硅星人了解,源络科技近日刚刚完成了最新一轮融资,累计金额达数亿元。本轮融资由阿里巴巴集团领投,其他投资机构包括北京市人工智能基金、元禾原点、戈壁创投、坚果资本、峰瑞资本等。此前,源络科技已获得峰瑞资本、水木创投等投资。

面对行业热度的突然爆发,连文昭希望保持客观冷静。作为一个经历过多家明星公司起伏的创业者,他对今天的很多热门的「共识」也有不同的想法,比如今天最为火热的「具身智能」这个词,却让他有些警惕。

「我一直不太喜欢具身智能这个词。」他在最近和我们的一次对话中说。「直接拿大语言模型上的成功套到机器人,我觉得是个有点危险的事。」

而他相信的机器人的未来,以及源络这家公司要做的事情,是「用具身实现智能」。他认为这才是那个更长期和更宏大的,值得和志同道合的人一起去做的事情。

「机器人是个长期的事情。今天的资本热度会起伏,而机器人本身的发展同样会有周期,但最终机器人一定会兑现它的潜力。」

以下为对话实录,经简单编辑。

小标题1: 源络的诞生

硅星人:这是你第一次以源络这家公司创始人的身份出来面对媒体,先讲讲源络吧。

连文昭:源络是2023年我从硅谷回来成立的。名字一方面来自交大校训「饮水思源」,络是想网络一群希望脚踏实地做事情、有信仰,希望能用robotics(机器人)来解决一些事情的小伙伴。另一层则是「以AI为源头,机器人为脉络,去联结数字跟物理世界」。

我们肯定希望能做一个锚定物理世界的通用人工智能。但这是一条很远的路,是飞向月球(moonshot),那短期我们需要有个梯子,知道先往哪儿爬。

所以第一阶段,我们希望有一个相对确定、看得见摸得着的目标来牵引研发。我们希望把我们的机器人形态、硬件设计上等都有一些约束,这需要有真实场景来给我们输入。

以前我做过的行业中,物流和工厂很多,但客观冷静评估一下,是不是这一波用多模态、大模型的新技术就能比之前的技术方案做得更好,其实现在也很难讲。那么思考哪些地方更能发挥我们的优势,目前我们也在探索一些其他场景,像生物医药和大健康领域、农业等等。我觉得这些场景是比较有趣和有意思的,因为能够提高它的上限。

硅星人:你的机器人长什么样?

连文昭:我们通过选择场景,来牵引目前的研发,把数据回流做好,把机器人的通用控制模型做好。目前我们机器人本体的设计是轮式双臂灵巧手,在这种设计上,我们没有过分的给定单一场景,未来我们希望它会去做更通用的任务。

硅星人:你认为机器人未来会都是人形的么?

连文昭:我认为它需要是一个统一的载体,但是不是人形不一定。

我相信统一的载体会好很多。可能一个,可能两个,但不可能是无穷多个,这样的话你才能共享很多数据、模型和算法,成本也能下来,规模化更容易。包括我们现在轮式的也是,上半身可以做各种各样的事情。我们研发努力的方向也是朝此在走。

源络的机器人产品 Monte02
源络的机器人产品 Monte02

硅星人:你们目前在技术上的主线是什么?

连文昭:我们自己确实有一套主线,核心是怎么能够从噪声很高、很原始的物理世界中,提取出来最有效的信息,来喂给我的控制模型去输出动作。

我们现在希望能在一些半结构化的场景里边提取一些中间层结构化的表征方式。它就像一个信息瓶颈一样,原始高噪声的信息,经过漏斗把噪声剔除出去,能够提取出来比如说物体的状态、物体之间的关系,然后以相对结构化的表示方式再去输入给控制模型。这样它就可以输出比较精准的动作,在跨物体、跨任务的环境里都能输出。

我们希望引入这么一个信息瓶颈来做这件事。这是一个结构化的表征方式,也是保证可靠性,同时有机会提高泛化性的路线。

比如说我们通过大模型,通过多模态模型,可以把中间的物体状态表征得越来越好,能够学到一些泛化的物体表征方式模型。这是有希望提高它的上限的。

当然未来随着数据量的积累,模型能力的提高,有可能中间层会越来越非结构化,有可能后来会衍生出来一些,Latent embedding(隐式表达)等,可能就是机器人自己能理解的,而非现在人类理解的一些表征方式。

硅星人:只专注做医疗和大健康么,还是目前的策略是这样。

连文昭:目前合作的客户很多是在这个场景。但其他的产业需求评估下来,我们也在做些不同方向的尝试。

从Vicarious,Google再到Figure,从「前排看球」到自己创业

硅星人:你过往的经历也很有意思,回国之前,你在硅谷多个不同阶段的机器人公司待过。

连文昭:对。我2011年从上海交大毕业,然后在杜克读博士,2015年毕业去硅谷,待了八年。三段工作经历,先是在Vacarious,一个 AGI 的公司,后去 Google 待了三四年,然后去Figure待了小半年。

硅星人:你去读的是什么专业?怎么那时候就想去机器人公司。

连文昭:在杜克做的是机器学习,现在统称AI。当时更火的是大数据,做推荐、社交网络等,毕业时候我不想去这些公司,更想做通过自己做算法做模型改变一些事情的工作。

博士最后一两年正好在跟一个做机器人的老师,做一些强化学习领域的东西,感觉这个领域很有意思。当时就觉得机器人这个行业到处都是坑,到处都是机会,做一点东西就能改变一些性能,也跟物理世界相关,比较直观,所以更有意思一点。

然后2015年底毕业就去这个叫Vicarious的公司,做通用人工智能。马斯克、贝索斯和扎克伯格都是早期投资人。你想想马斯克那时候就搞AGI。

硅星人:有OpenAI那味儿了。

连文昭:那会儿OpenAI还没成立,如果搜当时新闻的话,英国那边是DeepMind,美国就是Vicarious,然后去了以后不久,DeepMind就被Google收购了。

它2014年开始招人,我去的时候有10个人左右。我们做机器人做的是类脑神经网络,视觉理解上模拟人脑, V1 到 V6 ,六层神经网络怎么去用更小的数据量去学习。我们当时跟卷积神经网络去比,说只要用 1/ 100 的数据能达到更好的识别效果就可以。我们想把它用到机器人上,部署了几十台百台量级的机器人。跟包括USPS供应商在内的多家物流公司合作了一些机器人,做分拣装箱、抓取、打包等。用3D、2D感知,训练模型,做机械臂运动规划。

硅星人:做的就是今天说的“大脑”。

连文昭:对,当时就是做大脑,并没有做任何硬件,就是做视觉、路径规划、决策这些部分。现在这些路线还有很多公司在用,跟当时没有太明显差别。

当时做的比较简单,但跟现在的逻辑一摸一样。那会儿的渲染是用上一代的渲染器,但逻辑就是让它自己去尝试。然后做真实的物理仿真,自己去建模让它尝试不同角度、不同方式去抓这些螺丝螺母。我们在仿真里面会建模,建各种各样的物体模型。然后去做一些放大收缩,失真(distortion),加各种扰动产生不同场景,让机器人自己尝试,是不是能完成下游的任务,抓起来是不是还能拧进去。能的话就记录出来一个正样本,不能的话就是负样本,靠这个自动采集大量数据。

这样训完以后至少能懂一个类别,然后让客户能零成本部署。这个还是挺厉害的,可靠性能做得比较高,可能到98%,一个 9 到两个 9 之间。

硅星人:后来去了Google。

连文昭:对。在那儿待了三年半。我觉得如果仅仅如此,智能用得太有限——我看一眼,然后规划完就闭上眼睛去执行了。我还是希望能做得更智能一些,根据感知信号能实时决定下一时刻怎么动,完成更复杂的任务。

所以就去 Google 了。Google当时有一个项目,现在叫Intrinsic,当时属于 Google X 实验室,它就做很多前沿科技探索,做一些跟主业搜索广告没关系的。其中重要的一个就是操作系统,手机里面有安卓,那机器人里面是不是也得有个操作系统,能适配各种各样的硬件?就是统一到软件,可以适配所有的硬件,开发者只要写一遍APP,就不需要给什么ABB之类的不同机器人品牌再做兼容,就写一套就行。

你既然要搞操作系统,就得证明用这个操作系统能干以前干不了的事。所以把我招过去,这个组就是干机器人学习,比如利用模仿学习,还有仿真学习的一些方案,来证明我们可以做更复杂的东西。

当时跟家居品牌企业合作用一个多模态的力觉、视觉融合去做家具拼接。我们能让机器人自己去学会怎么去拼一个小书柜等。其实当时做了很多POC,证明了我们的系统处理复杂柔性任务的可行性。

硅星人:想要证明的命题很大,但具体做法还是选择一些场景。

连文昭:对,这个策略就像 Google 做 Pixel 手机一样。它要做个样机,打个样,当时选了很多典型场景。背后两个思路,一个做更难的、以前做不了的事儿,另一个是把以前很费劲的事儿的部署成本降下来,就是我们机器人学习这个组来做的。

硅星人:借这两点来吸引所有人都用你同一套操作系统。

连文昭:这个项目现在Google还在做,并且从Google X孵化了出来。

硅星人:所以Google X还没消失。

连文昭:对,现在声音相比以前可能小一些了。像是之前的气球项目Loon关掉了,我们的Intrinsic独立拆分了,Waymo是很早独立在自己跑。Intrinsic走的是制造业这种高可靠性的路线。然后Vicarious在2022年底,被Google收购,合并进了Intrinsic。

硅星人:再后来你从Google去了Figure。

连文昭:那时候正好2022年下半年Figure刚成立,跟CEO Brett深入地讨论了几次。感觉他很独特,他当时正在筹办这个公司,邀请了 Jerry Pratt 做CTO,也从波士顿动力、苹果、特斯拉招募到了顶尖的硬件和控制工程师。

我觉得这个团队很有意思然后就过去了。

我相当于Figure第一个做 AI 的人。当时做软件的人很少,团队很偏重硬件本体。我也跟硬件团队学习了很多。当然其中一点是硬件这个迭代周期确实很长,你犯一个错误,或者要调个东西一两个月就出去了,但软件改起来很容易。

总之在Figure参与到了最前沿的事情中。

硅星人:今天Figure估值这么高,如日中天,有人会说你错过了几个亿吧。

连文昭:是的。包括最近Figure出来一些新闻都会有人来问,后不后悔。我觉得肯定不后悔。人不会为自己做过的事情而后悔,只会为自己没做过的事情后悔。

要说放弃的确放弃了很多,但在那边留下,每天就是晒晒加州的太阳。但是回来以后更有挑战性,因为这个事情很长期,现在终于能按照自己的思路去实现它。以前相当于是买了一个前排 VIP 的票,坐在场边去看比赛。包括在Vicarious和Figure,我去的时候都很早期,会不自觉的想这些事,从一个初创公司维度去想事情,但有时候公司会有自己的路线。

现在可以「言行一致」了,怎么想就能怎么付诸实践,能够放大一些影响力。以前在公司里的时候,会觉得有些时候受到束缚,可能实现不了想法,现在我会努力给大家提供这样的机会,有什么想法就可以去实践。很欣慰能给大家营造这样的环境。能干这件事是很有趣的,有趣很重要。

不喜欢「具身智能」这个词,应该「靠具身来做智能」

硅星人:所以来说,Figure反而是一家硬件团队很强,只不过因为今天所有话题和估值都来自AI软件,所以它恨不得不跟OpenAI合作也要把这个角色占住。但你在这段经历里,反而增加了很多硬件视角的思考。

连文昭:像具身智能这个词,我自己其实一直不太认同。

它其实有两个层面,一是你可以狭义理解为,具身智能就是智能机器人,Intelligent Robot,机器人可以自己去感知决策规划。

但另外一层我觉得更有意思,可以泛化的讲,就是「靠具身来做智能」。它最后是一个智能体,这个智能体在不在物理世界没有关系——它可以学完后还是个数字世界的智能体,但是这个智能要锚定到物理世界。

它理解的一些概念,比如12345,它看到 5 个手机,它是知道 5 的,而不是靠大模型去背出来的,不是说我看到了 1 + 2 = 3,我是靠 「1 + 2」 推算得到三,而是说我是时时刻刻理解什么叫「一个东西」,就是锚定到物理世界,它是有物理感知的。比如说什么东西沉,什么东西摩擦力大,什么东西光滑,它时刻能够把这些文字和本体的感知结合。比如说我有数据传感器,有视觉的信号,这些信号是能够跟这个文字耦合起来的。

我是希望能够靠具身体验、靠主动感知,去做真正的具身智能体。这个是具身智能更宏大的一个事情。

机器人通过自己跟环境的交互来理解这些知识,这是真正的智能,而不仅仅是语义上的理解。语言是其次的,有没有语言都OK,但是机器人一定要先具备跟环境交互的能力。

硅星人:「靠具身来做智能」这个说法很有意思,我们之前在硅谷做的对话里,也提到,人们把硬件比如机器人的手脚和所谓「大脑」分开看待。我们看小朋友,他很多智能是通过手去感知学到的,比如拿起东西放下。所谓硬件和具身不只是载体。

连文昭:你刚才说的这一点,我觉得机器人如果分流派的话,应该分成养孩子派和不养孩子派。(笑)

有孩子的话,你会看着他从啥都不会,通过很少量的交互就可以学到一些很通用的概念。这个对我的冲击是很大的,而且有时候一发烧,烧完了以后特别聪明。

硅星人:想起来七龙珠里的吃仙豆。

连文昭:对。就是他会把一些体验存到一个很乱的状态,但是到一定量突然就能串起来,把一些概念给抽取出来。这个事情我觉得很神奇。

这也是我们在做的事,希望去能够给它一个环境,相当于给小孩儿一个安全的环境,能自己去探索,然后能够用最少量的数据交互来获取自己所需的一些概念。而这个是有先后顺序,要先提取出来这些概念,再去加这些语言。

这跟我们现在靠大量收集数据去训练大模型的方法有所不同。我们现在也逐渐看到scaling law的一些问题,所以我觉得还是要先从方法论上去探索,能不能有一个更像人的方式去获取和利用数据。

硅星人:所以今天大家都在用AI的思路聊机器人,但其实如果说大语言模型本质上是predict next token,它的前提是token可以穷尽,但如果只拿这后半句话套在机器人这边,其实是不一样的,它的前提都是根本不同的。

连文昭:直接拿大语言模型上的成功套过来,我觉得是一个有点危险的事。

它和大语言模型有很多不同之处。一是空间是离散还是连续,数据多还是少。另外一个没被广泛提及的是,比如DeepSeek用RL(强化学习)去训练,我可以去训,但是 RL 通常是未知世界模型、未知奖励模型。

世界模型包括两块,一个是它的状态,什么样的状态空间,观测量是什么,另一个是状态迁移,就是当前这个状态下施加什么动作,导致下一个时刻状态出现,就是 transition model(状态迁移模型)。它在语言里很友好,是确定性的。

比如用户问大语言模型,「硅星人谁最帅」。它回答「兆洋」。然后用户回复,「同意」。

硅星人:这用户估计是我自己。

连文昭:你就可以去对齐,你在RL里问和答,它的下一个时刻的状态就变成了把问答拼接起来,这个transition model是确定的。

但在机器人里,状态空间是——它看到了一个场景,比如桌子上的杯子在这,笔在这。我的动作是,比如要把笔放到杯子里,但能不能放进去我是不知道的,有可能拿不起来,有可能滑了,这是开放的,造成它训练起来难度是很大的。

当有不确定性,复杂度就大了很多,就变成概率问题了。所以从这个层面,大语言模型是相对简单的,但在物理世界去训强化学习,去建模世界模型,都是更难的事。

硅星人:你这个「用具身做智能」的说法,让我更理解了你们现在网站上写的这句话,「以AI为源头,机器人为脉络,联结数字与物理世界」,那源络这些想法都是来自哪里,看起来有过往各家经历的影子。

连文昭:我觉得整体这几段经历,带给我的角度都是不太一样的。

Vicarious走的是落地driven,什么能用就走什么的路线;Google给的是,我要探索能力边界,要做一些通过算法能够实现很通用的智能;到Figure就更像在实践一下,而且好处在于跟很多很出色的硬件同事共事,看到硬件的创新是什么样,如何软硬结合。 整个全都汇总起来收敛到今天对创业理解的话,可能就是「务实当下,乐观未来」。

另一点感受是,组织一定要有很强的凝聚力,大家都是踏踏实实会死磕,自己憋一口气儿,一定要把机器人做得有用。不是追风口,而是用长期主义来做这个事儿。机器人这个行业肯定是马拉松,不是百米冲刺,它极有可能是一个跨周期的事情,这个周期有可能没有达到它的promise(承诺),没有达到大家的期望。但是下一个周期有可能就能达到。

所以源络一定有这个耐心愿意做长期陪跑,在这个行业深耕下去。我们几个合伙人都是在这个行业做了十多年的,之前没有火的时候一直做,现在火了还是冷静地做这件事,未来也会持续做下去,一直做到让机器人真正变得有用。

硅星人:今天机器人前所未有的火热,高估值融资不停出现,你怎么看?这种热潮对你们融资等方面的影响是怎样的?

连文昭:我当时回国的时候是2023年,其实疫情刚结束,当时行业也没有特别火,甚至是行业一个低谷期。但我十分看好这个行业——一定要做机器人。同时大模型带来的这些好处,比如推理能力还有泛化能力,刚好跟我以前积累的那些经验和能力是互补的。以前我们做的都是怎么去把物理世界这些多模态的信号数字化,然后让它去做一些小的闭环,大模型其实是在数字世界去推理,它变强就能放大我们之前积累的这些能力。

到了目前这个行业变得这么火,我们还是一个长期思路来看这个事儿。它一定是一个跨周期的东西,不火也要做,火了反而更要冷静一些。

我觉得作为行业从业者,我们也有些义务给这个行业做些客观输出,把大家的期望值调整得更合理一些,不要大起大落。以前 AI 就出现过很多冬天,就是因为大家对行业预期太高,然后发现没有达到。这会对行业有些伤害。

我更希望说大家能有一些合理的预期,然后慢慢陪这个行业起来。它 100% 会起来,只要有耐心,愿意逐步的去投入,未来它一定能够健康的、很稳健的去增长起来。

所以我们还是做好自己。不论从公司规模,还是开发上,按我们自己的节奏去走,踏踏实实、安心地专注做自己的事儿,这最关键也最本质。

王兆洋

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测