品玩12月25日讯,TechCrunch报道,OpenAI 发布新研究,介绍了该公司确保人工智能推理模型与人类开发者价值观保持一致的最新方法。
这个新方法被称为 deliberative alignment,根据 OpenAI 的研究,这种方法提高了 o1 与公司安全原则的整体一致性。这意味着慎重对齐降低了 o1 回答 “不安全 ”问题(至少是 OpenAI 认为不安全的问题)的比率,同时提高了其回答良性问题的能力。
据悉,这种方法的关键创新之处在于,OpenAI 训练 o1 和 o3 在思维链阶段用 OpenAI 安全政策中的文字重新提示自己。研究人员表示,这使得 o1 和 o3 与 OpenAI 的政策更加一致,但在不减少延迟的情况下实施起来有一定的困难--稍后再详述。
0 条评论
请「登录」后评论