品玩

科技创新者的每日必读

打开APP
关闭

Anthropic 正测试新工具,称可避免95%大模型越狱问题

3小时前

品玩2月5日讯,据 VentureBeat 报道,Anthropic 近日发布一款全新的工具,Constitutional classifiers,该工具号称可以阻止 95% 的大模型越狱问题,防止 AI 模型生成有害内容。

据 Anthropic 表示,Constitutional classifiers 能过滤 “绝大多数 ”针对其顶级模型 Claude 3.5 Sonnet 的越狱尝试。该系统能最大限度地减少过度拒绝(拒绝实际上是良性的提示),而且不需要大量计算。

据悉,Anthropic 进行了一项大规模测试。公司招募了183名参与者,在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题,试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15000美元的奖金和约3000小时的测试时间,但没有任何参与者能够完全绕过 Anthropic 的安全措施。

取消 发布

下载品玩App,比99.9%的人更先知道关于「Anthropic」的新故事

下载品玩App

比99.9%的人更先知道关于「Anthropic」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测