品玩

科技创新者的每日必读

打开APP
关闭
Google

Google Bard 大更新!我们用 GPT-4 给它出了 20 道题

APPSO

发布于 2023年4月12日

*转载文章不代表本站观点。

本文来自微信公众号“APPSO”(appsolution)作者:学习心算的


AI 热潮以来,「突发」就成了我们标题的常客。

昨天,来自 Google 的大语言生成类 AI 模型 Bard 又迎来更新,新增了「Google it」按钮,增强了数学与逻辑能力,并发布了一个全新的功能更新公告板。

发布以来就饱受争议的 Bard,如今能在数理逻辑领域,与 GPT-4 一较高下吗?

三个更新点,做数学题是重点

为了让用户更方便的了解 Bard 更新变化,Google 上线了 experiment updates(实验更新)界面,展示 Bard 的最新消息。网址如下:
https://bard.google.com/updates

相比其他厂商「提高系统稳定性,优化系统流畅度」的更新对联,Bard 不仅告诉你更新了什么,还告诉你为什么更新。Google 表示,这是为了让用户更快的进行测试、提供反馈。

顺着更新公告往下看,「Google it」是这次的第一个功能更新,当你问过 Bard 后,可以在答案下方看到「Google it」的按钮,点击后 Bard 会生成几个相关主题,以便你使用 Google 进行更多元的搜索。

这样一来,Google 搜索就变成了 Bard 的补充,如果在未来,Bard 完全替代前者我也不会感到意外。

不过,Google it 在提取复杂问题的主题时准确性还不够高,比如在我询问奥数题时,Google it 的主题几乎没有价值。

最后,也是最大的更新,Bard 的数学和逻辑能力得到了升级,以前一道 123456*654321 就开始乱说的大语言模型终于站起了身,开始实践「学好数理化,走遍网络都不怕」的道理。

光说不练假把式,Bard 的数理能力够不够强,我们给它出了 20 道题,看看它的表现如何。

GPT-4 出了 20 道题,Bard 满分

第二题答案有误,应为(2,-1)
第二题答案有误,应为(2,-1)

我们用 GPT-4 整理了 20 道数学、逻辑类问题,用于测试 Bard 的数理能力。

先不说对不对,Bard 的反应速度着实很快,即使是加速后的 GPT-3.5 也不是它的对手。

先来看看 Bard 的表现,Bard 不仅完全答对了所有题目,还给出了详细的解题过程。

ChatGPT 的表现也不错,数学题全对,逻辑题只错了一个。

我们也把同样的问题翻译成中文去提问了百度的文心一言和阿里的通义千问,10 道数学题,通义千问仅对 1 题,文心一言则对了 4 题;10 道逻辑判断,通义千问 3 题正确略胜一筹,文心一言 2 题正确屈居第二。

不得不说,数理计算对大语言模型来说,门槛确实比较高。

无中生有的兔子
无中生有的兔子

从我们简短的测试来看,Bard 的表现相比它刚发布时确实有了显著的提升,在回答问题的逻辑性和正确性上已经逐渐赶上了 GPT-3.5。

比 ChatGPT 表现更好的是,Bard 在回答问题时还会加入引用信源,降低了编造事实的可能。

目前 Google 对 Bard 的试用申请似乎放松了不少,只要申请加入 Waitlist 后再刷新几次界面,就能马上体验 Bard。

感兴趣的朋友可以在下方地址体验。
https://bard.google.com/

如果你的试用申请一直都没通过,也不用着急。

Google 的 CEO Sundar Pichai 最近在接受采访时透露,Google 计划将 Bard 整合到搜索引擎中,以应对 ChatGPT 等聊天机器人带来的竞争压力和更为广泛的商业问题。

未来 Google 应该会像 Bing 那样开放一个聊天搜索界面,直接在搜索引擎就能调用 Bard。

目前 Google 并没有给出明确的时间表,也许在 5 月 10 日召开的 Google I/O 2023 大会上会透露出更多的信息。

AI 不会画手、AI 不会做数学题,这些问题已经慢慢成为了历史,那么问题来了,AI 的下一个突破点,又会在哪里呢?

下载品玩App,比99.9%的人更先知道关于「Google」的新故事

下载品玩App

比99.9%的人更先知道关于「Google」的新故事

iOS版本 Android版本
立即下载
APPSO

数字生活家,手机新娱乐

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测