大模型资讯:
阿里云宣布开源通义千问 140 亿参数模型 Qwen-14B 及其对话模型
据阿里云官方消息,阿里云开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。
据阿里云表示,Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推理、认知、规划和记忆能力。Qwen-14B-Chat是在基座模型上经过精细SFT得到的对话模型。借助基座模型强大性能,Qwen-14B-Chat生成内容的准确度大幅提升,也更符合人类偏好,内容创作上的想象力和丰富度也有显著扩展。
Anthropic 将获得亚马逊至多 40 亿美元注资
亚马逊宣布与 AI 初创公司Anthropic达成合作,将向其投资至多40亿美元。
据悉,亚马逊将首期投资12.5亿美元,获得Anthropic的少数股权,两家公司以后都可以选择将投资总额增加到40亿美元。此外,Anthropic还将获得亚马逊提供的AWS Trainium和Inferentia芯片,以构建、训练和部署其未来的基础模型。
百川智能发布Baichuan2-53B,开放API全面进军To B领域
百川智能发布Baichuan2-53B 闭源大模型,全面升级了Baichuan1-53B的各项能力。Baichuan2-53B不仅数学和逻辑推理能力提升显著,还通过高质量数据体系和搜索增强极大降低了模型幻觉,是目前国内幻觉问题最低的大模型。
作为首批通过备案的大模型企业,百川智能此次还开放了Baichuan2-53B API接口,正式进军To B领域,开启商业化进程。此次开放API后,百川智能将把行业领先的大模型能力赋能给各行各业的合作伙伴,助力万千企业智能化发展。
Meta 计划推出 AI 聊天机器人,吸引年轻用户
据 The Verge 报道,Meta 计划最快在本周发布一款 AI 聊天机器人产品,吸引更多年轻用户。
据悉,这款AI 聊天机器人目前正进行测试,最快有望在本周三发布。这款机器人将借助 AI 技术来和用户进行互动,并且可能会加入一些生成式功能,但具体的功能细节还不能确定。
GitHub 首席执行官 Thomas Dohmke称AI 无法取代程序员
据 TechCrunch 报道,GitHub 首席执行官 Thomas Dohmke近日在接受采访时,谈了谈他对于人工智能与软件开发的看法。
据 Dohmke 表示,随着 Copilot Chat 等辅助工具的诞生,AI 技术已经成为了软件开发不可或缺的一部分,有不少人都在担忧,生成式AI 技术将会取代程序员参与开发工作。而 Dohmke 不这么认为,他认为软件开发人员将继续供不应求。
Dohmke 还表示, Copilot 等 AI 工具只是用于提高开发者的工作效率,并不能取而代之。
恒生大模型宣布面向20家金融机构开启内测
据恒生电子官方消息,恒生电子旗下恒生大模型产品现已面向20家金融机构开启内测。
恒生大模型旗下包括金融行业大模型 LightGPT。该模型基于海量金融数据训练而来,对金融相关问题的理解比通用大模型更有优势,有利于推动大模型在金融行业的应用,降低大模型的应用门槛,提升金融行业智能化水平。
重点论文:
微软联手约翰霍普金斯大学,推出专注翻译工作的大模型ALMA
据 Arxiv 页面显示,约翰霍普金斯大学的研究者近日联手微软,推出了一款全新的大语言模型ALMA,专注于翻译工作。
ALMA 的全名是Advanced Language Model-based trAnslator,基于 LLaMA-2 研发。该模型引入了一种新的微调方法,通过在单语数据上的初始微调,然后在一小部分高质量平行数据上的后续微调,消除了传统翻译模型通常依赖的大量平行数据的需求。
实验结果显示, ALMA在翻译工作中的表现优于传统模型。
论文地址:点此前往
0 条评论
请「登录」后评论