大模型资讯:
OpenAI 计划以860亿美元的价格出售现有员工股份
据investing 报道,OpenAI正在洽谈以860亿美元的估值出售现有员工的股份。
据悉,OpenAI 正在与潜在投资者谈判要约收购,不过该公司尚未最终确定分配方案,条款仍有可能发生变化。此前曾有报道称,OpenAI正在为出售股份寻求高达900亿美元的估值。
Claude 2 正式上线,支持文件上传处理
Anthropic 近日宣布,旗下生成式大模型产品 Claude 2 已在全球95个国家和地区上线,此前该产品仅在部分地区开放测试。
Claude 2 是一款类似ChatGPT 的大模型产品,支持用户上传文件并进行处理。Claude 2 可以根据用户上传的文件来回答问题,同时还可以实现代码生成、文本生成、推理等多个功能。
Sam Altman 表示没兴趣参与智能手机的竞争
据 gizmodo 报道,OpenAI 的CEO Sam Altman 近日在一次访谈中透露,并没兴趣参与智能手机竞争。
据报道, Altman 表他并不确定与前苹果设计师Jony Ive 共同推出的 OpenAI 产品究竟是什么,因为现在还只是模糊的想法。不过 Altman 确定不会是智能手机。因为他认为 iPhone 在他们所做的事情上有惊人的表现,他不认为任何人工智能设备会盖过 iPhone 的风头。
北大推出代码生成模型CodeShell-7B ,现已开源
据 GitHub页面显示,北大软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室推出代码生成模式CodeShell-7B,该模型现已在 GitHub上开源。
CodeShell-7B基于 5000 亿Tokens进行了冷启动训练,上下文窗口长度为8192,架构设计上融合了StarCoder和Llama两者的核心特性。研究团队表示,CodeShell-7B构建了包含 7 万个词的词表,中文、英文、代码的压缩比分别为2.83、3.29、3.21,支持中英文和代码的平衡且高效的编解码。
实验显示,CodeShell 超过了CodeLlama-7B和StarCodeBase-7B,在humaneval的其它编程语言评测中,如JavaScript、Java、C++,CodeShell性能领先。
Gartner 发布《2024 十大战略技术趋势》,其中四项涉及人工智能
分析公司 Gartner 近日发布了《2024 十大战略技术趋势》,号称可预测“能够在未来 36 个月内为 IT 领导者带来重大颠覆和机遇的 10 大战略技术趋势”。
这十项战略技术分别是:
全民化的生成式 AI
AI 信任、风险和安全管理
AI 增强开发
智能应用
增强型互联员工队伍
持续威胁暴露管理
机器客户
可持续技术
平台工程
行业云平台。
Gartner研究副总裁Bart Willemsen表示:“由于技术变革以及社会经济方面的不确定性,我们必须大胆采取行动并从战略上提高弹性,而不是采取临时措施。IT领导者的地位特殊,他们可以制定通过技术投资帮助企业在这些不确定性和压力下保持成功的战略规划。”
DALL・E 3 测试版现已上线 ChatGPT,付费用户可以参与测试
OpenAI旗下图片生成模型产品DALL・E 3现已在ChatGPT 上推出测试版本,付费用户可以参与进行测试。
据 OpenAI 表示, DALL・E 3 的性能比DALL・E2 更强,可以更精确的理解用户输入的语句,从而绘制出更符合用户需求的图片,而且 DALL・E 3 的图片质量也获得了提升,可以绘制出更加繁复、精美的 AI 图片。
目前,微软已经免费在 Bing Chat 中提供 DALL・E 3。
重点论文:
微软联手清华、中国科学院大学共同推出 BitNet 架构
据 Arxiv 页面显示,微软研究院联手中国科学院大学、清华大学共同发布论文,公布了一款可扩展且稳定的 1 位 Transformer 架构 BitNet 架构。
据悉, BitNet 转为大语言模型设计。研究团队表示,为了训练1位权重,团队引入了 BitLinear作为 nn.Linear 层的替代品。实验结果显示,BitNet 在语言建模任务上实现了竞争力的性能,同时显著减少了内存占用和能源消耗。
此外,BitNet 呈现出与全精度 Transformer 类似的扩展定律,表明它有潜力在保持效率和性能优势的同时,扩展到更大的语言模型。
0 条评论
请「登录」后评论