谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具-品玩

品玩4月1日讯，Arxiv 页面显示，谷歌近日联手斯坦福大学推出一款基于大语言模型的工具 SAFE（Search-Augmented Factuality Evaluator）。

据研究显示，SAFE可对聊天机器人生成的长回复进行事实核查。该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估，以验证准确性和真实性：将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后，该系统还会检查各个事实与原始问题的相关性。

为评估其性能，研究人员创建了包含约 16000 个事实的数据集 LongFact，并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示，在对 100 个有争议的事实进行的重点分析中，SAFE 的判定在进一步审查下正确率达到 76% 。与此同时，该框架还具备经济性优势：成本比人工注释便宜 20 多倍。