最近,几乎每个星期我们都能看到关于AI Agent的新闻。微软发布了Magentic-One,谷歌泄露了Jarvis,OpenAI也即将推出Operator。似乎过不了多久,AI Agent就即将接管我们的生活和工作。
在周五的Agent OpenDay上,智谱AI也展示了在AI Agent方面最新成果。
智谱在周五的Agent OpenDay发布了AutoGLM、AutoGLM-Web、GLM-PC,分别对应手机、浏览器和电脑。
AutoGLM是智谱GLM的第一个产品化Agent,通过接受文字和语音指令,AutoGLM可以模拟人类操作手机,从而完成,点外卖、订酒店、微信朋友圈点赞写评论等任务。
AutoGLM在上个月发布,这次的OpenDay上进行了升级,升级后的AutoGLM对更多步操作的任务进行了更好的支持,同时新增了跨App的执行任务的能力。
目前支持的App包括微信、抖音、小红书、微博等社交平台、美团、饿了么、等美食平台、淘宝、京东、拼多多等购物平台、高德和百度地图等出行平台、以及 12306、去哪儿、携程等旅游订票平台。
在现场的demo视频中展示了AutoGLM自主执行了54步无中断操作,来完成从小红书查食谱到小象超市采购食材的任务。
支持核心场景和核心应用的AutoGLM标品API也即将上线到智谱maas开放平台试用。
智谱的浏览器插件上集成了AutoGLM-Web的功能,可模拟用户的浏览操作,包括点击、滚动和文本输入,用于自动完成网页浏览、信息检索和内容摘要等任务。
目前适配知乎、微博、X 和豆瓣等社媒网站,百度、谷歌和必应等搜索引擎,百度学术、谷歌学术和 arXiv 等学术网站,以及 GitHub 代码托管网站和资讯类网站。
如果说AutoGLM是智谱在“phone use”方向的探索,GLM-PC让智谱有了“computer use”。
GLM-PC是能够帮助用户操作计算机的软件,用户只要输入指令,GLM-PC即可理解指令,规划任务;然后识别电脑界面中的窗口、图形、文字等,并且自动操作电脑。
用户可发出如“查找指定平台网页信息并通过微信转发”等组合指令,应用会自动完成一系列操作。GLM-PC还支持手机远程控制、定时功能,让用户可随时下达指令操作电脑。
GLM-PC目前已经开启内测。
基于视觉和操作的智能体常与用户争夺屏幕和输入设备资源,迫使用户被动等待任务完成。为此,智谱研发了GLM-PC的“隐形屏幕”技术,试图解决这一问题,让用户可在 AI 执行任务的同时,继续使用电脑进行其他工作,相关模型技术报告和隐形屏幕将在明年第一季度推出。
Agent的Scaling和涌现
AutoGLM是基于ChatGLM模型系列构建的基础智能体,通过安卓无障碍服务获取屏幕信息,分析、规划任务,实现对手机常用操作的模拟执行,推动 AI 在“phone use”场景中的能力拓展。
智谱在Agent训练中引入了inference compute scaling概念,实验显示,增加训练时的计算规模,Agent的表现与o1在train-time compute scaling下的表现一致。这表明扩展计算规模可持续提升大模型智能体的能力,在这一能力提升的过程中,Agent也展现了能力涌现,比如能够遵从复杂指令在从未见过的APP应用中进行操作。
据智谱介绍,这种泛化能力是大模型智能体区别于传统编程式RPA方法的核心优势。
GLM-PC的底层模型是CogAgent,CogAgent是一个通用的视觉-操作模型,能够获得环境中的视觉信息,据此推理并执行正确的操作,实现“和人类几乎一样的操作方式”。
智谱认为,图形用户界面是计算机最为成功和广泛使用的交互界面,人类通过视觉感知从计算机中获取信息,而不是通过以HTML为典型代表的语言特征来获取信息。所以,CogAgent选择模拟人类的视觉感知来从环境中获取唯一的输入,以语言作为推理和决策的媒介,模拟人类理解和使用图形用户界面的思考过程,进一步促进CogAgent面对新设备、新应用、新界面的泛化能力。
为Agent打个样,然后招商
智谱发的三个产品都没有到很成熟的阶段,支持的应用种类和操作的准确率都有待提升。当前的探索意义高于其实际应用意义。
但它同时也意味更高的上限,理论上,AutoGLM、和GLM-PC可以适用于任何带有图形用户界面的计算设备,这带来了巨大的想象空间。正如智谱CEO张鹏在与媒体交流中表示,“今天是操作手机和电脑,明天就可能操作你的数据库和企业内部的数据,帮助你生成复杂报告,本质上是一样的”
所以智谱的这场Openday更像是在“秀肌肉”,同时向更多潜在的合作伙伴传递一个信息:我们现在展示了Agent技术能力以及可能性,欢迎大家来合作,一起开脑洞,挖掘更多的场景。
在智谱AI的发布会上,CEO张鹏多次向行业伙伴发出开放合作的邀约。现场,荣耀、华硕、小鹏汽车等终端厂商,以及高通、英特尔等芯片巨头,分别介绍了与智谱在AI大模型和智能体领域的深度合作计划,体现了智谱在AI生态构建中的关键地位。与终端厂商的合作聚焦于AI Agent的落地,而与芯片厂商的合作则致力于模型优化和性能提升。
从商业角度看,智谱的这种定位保持与第三方厂商生态的兼容性,通过构建开放、互利的合作模式,这也是张鹏所说的,“找增量”,“无意去争抢”。
以下内容为智谱CEO张鹏及AutoGLM技术负责人刘潇接受媒体采访的问答内容,经不改变愿意的编辑删节。
提问:今年整个行业大模型上半年寻找超级应用,下半年智谱发了智能体,行业也在探索底层的生态布局。转变的原因是什么?
张鹏:找大模型落地的应用也好,智能体也好,我们对这件事情的理解是在于底层的技术,不是简单的单项的文本技术能力提升之后就可以产生非常巨大的价值,当然也产生了ChatGPT这样的应用。我们希望它不能有短板,人类处理任务是多模态、复杂的交互情况。对能力的需求是全面性的。当模型的各项能力达到一定水平线之后叠加在一起,才会成为木桶效应,不能存在非常明显的短板。它是瞎子的话,哪怕语言能力再强做的事情也有限。我们对技术布局和产品布局都是全面性的,能力累积到一定程度之后才有今天的成果。
提问:创业公司和大厂之间的差异在哪里?
张鹏:我们看待问题更多的是技术导向和最终目的的导向,而不是仅局限于单项技术的快速变现,这件事可能跟有些大厂和同行业的伙伴们不太一样。最终是帮助大家切切实实解决生产力问题,不是简单的快速盈利。很多时候,我们看的会相对长远一些。生态技术一样,我们技术是全方位的做这个事情,生态更开放一些。
提问:今天发布的产品主要的应用场景在端侧,其实从去年开始,大家就在谈AIPC和AI手机,但是去年其实Agent这个概念很难和端侧联系,很少和厂商提这个概念,您的观察是什么?
张鹏:Agent是模型能力增长到一定程度之后的产物,太笨的时候不太能够产生这样一个效果。为什么是端侧?因为端侧落地效果比较明显,大模型改善的第一点是人机交互。Agent也可以调用API,但是面向企业级的。另外一方面是端侧的硬件厂商更多的适配,向这件事情靠拢。所以,这两个条件综合起来才会是现在你看到的Agent的能力在端侧上的应用感受更明显。
提问:为什么放弃GLMs?
张鹏:不是放弃,不同阶段做不同探索,过程当中大家都是不断的尝试和试错。GLMs最原初对于Agent的尝试,今天的AutoGLM是GLM底下非常具像的能力,这个能力产生的效果是可以Scaling的。今天是操作手机和电脑,明天就可能操作你的数据库和企业内部的数据,帮助你生成复杂的报告,本质上是一样的。因为大家每天用电脑和手机,对这件事情的接受程度和理解更容易,企业内部应用不存在这样的场景吗?也存在,只不过大家体感上有先有后。
提问:AutoGLM怎么考虑生态位的问题?软件中间的应用墙也是很厚的。
刘潇:AutoGLM希望帮助大家更好的连接,不论是连接硬件还是连接各种应用服务的中枢,或者说应该是一种工具,它能够更好的通过自然语言方式让用户更加容易的组装服务,更有意愿做这件事情,从技术背后挺困难。从技术角度来讲,让模型更好的连接这个事情,可以帮助到大家在商业形态的上得到一些启发。最后,模型做到这种水平的智能体能力,并不是想象中那么简单的事情,这是我们智谱比较有自信的地方,这件事情需要从原始创新、算法和模型能力上做持续迭代,这件事情从我的视角看是最重要的,最需要为大家提供的事情。
张鹏:我们还是技术驱动型公司,技术路线驱动了我们很多路径。像刘潇讲的一样,对我们自己的定位,我们更多的是探索新的可能性,新的范式,然后把我们自己变成这个生态和范式里面的赋能方。我们希望大家通过这种赋能的方式,帮助大家打开新的窗户。从商业化角度,我们是一个赋能方。包括现场也看到很多合作方在参与和合作,大家是互利的态度和方式,我们给大家提供新的技术和平台,原有的厂商和新厂商也好大家各取所需。
问:Agent远期来看主要通过现有的操作系统和硬件设备来实现,还是会出现新的硬件的形式?你们怎么思考这个问题的?在这个事情里面智谱的定位是怎样的?
张鹏:我们的定位永远是一种开放平台的模式。硬件这个事情,大家期待的是有新技术突破之后我们有新的东西诞生,我相信会有。我们非常期待和高兴的看到越来越多的这些东西,借助AI这一波东风产生出更多想象,更快的孵化,产生商业化落地的应用,我们会助力大家,一方面帮助大家把原有的东西升级改造,在新的东西方面吗,我们和合作伙伴、专家、有实力的企业做探索。无论是哪一种方式,我们都是赋能方,是一种合作的态度。
提问:无论是PMF还是模型能力的增长速度,现在大家对大模型越来越多质疑,未来可能遇到的难点是什么?
刘潇:我从技术上来说,Scaling是一个非常有效的东西。当你认为在某个问题上Scaling做不通的时候,不是Scaling本身的问题,是你把问题和路想窄了,Scaling的对象和Scaling的方式,包括怎么真正从算法上原始的创新和改进是最关键的。
提问:AI Agent可能是抢占用户入口,会不会对传统厂商构成威胁?怎么看待和传统厂商的竞争关系?未来我们会往操作系统方面发力吗?
张鹏:并不构成所谓的威胁。任何一种商业逻辑最终是为用户创造用户价值,这个是最根本的。我们希望用这样的技术帮助大家改进这件事情。我们帮助大家多了一条路而已,努力的找增量。我们没有必要把自己圈在一个圈子里或者一个天花板下面往内卷,我们应该找新的空间和新的可能性,这是我们一贯的态度,我们无意去争抢,我们是找新的方式,让用户得到最真实的价值,让他们自己去投票。
我们和现有的操作系统厂商合作,尝试把我们AI能力赋能进去,产生原生的新一代大模型操作系统,已经在做预研和研究的工作。
0 条评论
请「登录」后评论