品玩2月5日讯,据 VentureBeat 报道,Anthropic 近日发布一款全新的工具,Constitutional classifiers,该工具号称可以阻止 95% 的大模型越狱问题,防止 AI 模型生成有害内容。
据 Anthropic 表示,Constitutional classifiers 能过滤 “绝大多数 ”针对其顶级模型 Claude 3.5 Sonnet 的越狱尝试。该系统能最大限度地减少过度拒绝(拒绝实际上是良性的提示),而且不需要大量计算。
据悉,Anthropic 进行了一项大规模测试。公司招募了183名参与者,在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题,试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15000美元的奖金和约3000小时的测试时间,但没有任何参与者能够完全绕过 Anthropic 的安全措施。
0 条评论
请「登录」后评论