品玩3月11日讯,OpenAI 今天在其官网发布文章,公布其在思维链(COT)推理模型方面的最新研究进度。这种模型可以帮助开发者监控他模型的思考过程,提早发现其错误行为。
OpenAI 表示,思维链 推理模型以人类可以理解的自然语言进行“思考”。而监控他们的“思考”行为能够让人们提早发现其不当行为,例如在编码任务中破坏测试、欺骗用户或在问题太难时放弃。OpenAI 表示,CoT 监控可能是人们监督未来超人模型的少数工具之一。
最新研究发现,直接优化 CoT 以遵守特定标准(例如不考虑奖励黑客)可能会在短期内提高性能;然而,它并不能消除所有不当行为,并可能导致模型隐藏其意图。OpenAI希望未来的研究能够找到直接优化 CoT 而没有这个缺点的方法,但在此之前,建议不要直接对前沿推理模型的 CoT 施加强大的优化压力,而应该对 CoT 进行不受限制的监控。

0 条评论
请「登录」后评论