品玩7月11日讯,百川智能正式发布参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。
据介绍,Baichuan-13B中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身,是目前所有33B以下尺寸开源模型中效果最好的可商用大语言模型。在国外已建立起闭源及开源大模型完整生态的背景下,弥补了国内高品质开源商业模型的不足,对助力中国大模型产业发展和技术进步都具有重要意义。
相比此前发布的Baichuan-7B,Baichuan-13B在1.4万亿token数据集上训练,超过LLaMA-13B 40%,是当前开源13B尺寸下训练数据量最大的模型。在语言模型中,上下文窗口长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B上下文窗口长度为4096,不同于Baichuan-7B的RoPE编码方式,Baichuan-13B使用了ALiBi位置编码技术,能够处理长上下文窗口,甚至可以推断超出训练期间读取数据的上下文长度,从而能够更好的捕捉文本中上下文的相关性,做出更准确的预测或生成。

开源地址:
Hugging Face:
0 条评论
请「登录」后评论