品玩

科技创新者的每日必读

打开APP
关闭
王小川

王小川带来Baichuan2,并表示Llama2的时代已经过去了

搜索基因显现。

油醋

发布于 2023年9月6日

百川智能又有新进展。

96日,百川智能推出新的开源大模型Baichuan2,这是百川智能在今年6月推出的70亿参数量的开源大模型Baichuan-7B在3个月之后的一次重大迭代。

在此之前,中文大模型社区已经陆续发布大量的开源大模型,考虑到训练难度和成本,参数范围主要集中在6B-13B之间。此次Baichuan2沿袭了这个范围,Baichuan2也同样有Baichuan2-7BBaichuan2-13B两个版本。

Baichuan2在语言、数学以及代码能力等多个能力维度上相比之前版本有了全面提升,均处于开源模型最好水平。不久前从硅谷回来,将中国大模型发展与OpenAI对标的期望从理想慢半步,落地快半步调整到理想慢一步,落地快三步的百川智能创始人兼CEO王小川,这次兴奋而激进。

他表示,有了Baichuan2之后,“Llama2的时代已经过去了

图源: Meta
图源: Meta

目前全世界最主流的开源大模型是Llama2,其性能已经接近GPT-3.5,在开源大模型阵营中优势明显。一些行业人士将Llama2比作肃清大模型竞争的最后一步,从此GPTLlama将会形成如iOS和安卓一样的清晰格局,唯一的潜在对手可能只有谷歌。

王小川也认同,美国通用大模型闭源模型的头部门票只有OpenAIChatGPT与谷歌,Llama2则统一了美国开源大模型的竞争,但他同样也看到了,Llama2的开源是带有防御性质的自定义开源——其许可协议规定月活7亿以上的企业用户无法通过本License直接获取授权。并且Llama2对于服务于中文世界的开发者并不友好。这成为百川智能做开源的机会。

所有以挑战者姿态出现的开源大模型都会以Llama2作为假想敌,也包括迭代后的Baichuan2。而从这场发布会上拿出的测评结果来看,Baichuan2-7B在安全、代码、数学计算、逻辑推理以及语义理解五个类型的中英文主流任务中,全面超越了参数量高出自己一个数量级的Llama2-13B,其中除了语言理解能力相差不大外,另外四类能力的对比显示Baichuan2-7B甚至已经有了明显优势。

Baichuan2在模型结构上选择接近Llama,意图与以Llama起步的主流开源生态靠近,而相比Llama,百川开源大模型更适合中文开发者。现在Baichuan270亿的小参数在性能上超过了Llama2-13B,这让王小川有自信喊出“Llama2的时代已经过去了

在更宏观的能力提升上,Baichuan2在数学和代码能力上相比之前提升了49%46%,在安全能力上提升了37%。而在逻辑推理能力以及语义理解能力上的提升分别为25%15%

在和同尺寸的开源模型比较中,Baichuan2-7B的英文通用能力在MMLU测试基准中优于ChatGLM2-6B以及Llama2-7B,中文通用能力则在CMMLU测试基准中超过了所有主流的开源模型。

410日成立并经过最初三个月的研发准备之后,百川智能从6月开始每月都会拿出新的产品,研发节奏紧凑。

615日,参数量为70亿的开源大语言模型Baichuan-7B发布。

711日,参数量为130亿的通用大语言模型Baichuan-13B-Base和对话模型Baichuan-13B-Chat的两个量化版本发布。

88日,闭源大模型产品Baichuan-53B发布。

96日,Baichuan2开源大模型发布。

模型能力上,国内大模型榜单SuperCLUE8月测评中Baichuan-13B-Chat(V2)力压MiniMax-abab5以及文心一言(V2.2.3),在这个由多轮开放问题和三大能力客观题总计3337道测试题的模型能力测试基准中位列国产大模型评分第一。

而关于百川智能究竟要做什么样的大模型,Baichuan-53B发布时,已有开源大模型打底的王小川第一次透露百川智能的大模型业务将与这家创业公司隐藏的搜索基因做更深的结合。未来搜索与大模型的结合将会是百川智能未来的产品走向。

现在看来,这种结合并不只在产品层面,也已经体现在Baichuan2训练数据的流程里。王小川介绍,搜索业务多年的基础让百川智能能够顺利从万亿互联网数据中找到优质的语料,并且构建出一个世界知识体系,以结构化的寻找优质数据;搜索业务的技术积累在Baichuan2的数据清洗环节中形成了一个多粒度内容质量打分机制,模型能够根据语料的篇章、段落以及语句质量打分,支持细颗粒度采样。百川智能此次也透露了Baichuan2的训练预料规模,达到2.6TB训练Token

Baichuan2发布几日前,首批通过《生成式人工智能服务管理暂行办法》备案的大模型产品已经公布,这意味着大模型的竞争将迅速转入实际应用层面。

百川智能在这份名单内。同样通过备案的有百度、智谱 AI、抖音、商汤科技、MiniMax、中科院以及上海人工智能实验室。这其中,百川智能是成立时间最晚的,也是除了抖音云雀大模型之外,最晚面对外界亮相的大模型。

按照计划,百川智能将在年底之前拿出另一个瞩目的大模型产品,真正进入这场几个闭源玩家之间的残酷竞争。但在那之前,早已热闹起来的中文大模型开源生态里,Baichuan2来的刚刚好。

下载品玩App,比99.9%的人更先知道关于「王小川」的新故事

下载品玩App

比99.9%的人更先知道关于「王小川」的新故事

iOS版本 Android版本
立即下载
油醋

品玩作者 线索采集微信:myfelix177关注大公司、科技初创公司的有趣商业故事

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测