品玩9月3日讯,据 marktechpost 报道,谷歌近日宣布推出大模型基准测试 CardBench,满足对学习型基数估计(cardinality estimation)模型的系统评估框架的需求。
ardBench 是一个综合基准,包含 20 个不同真实数据库中的数千个查询,大大超过了以往的任何基准。这样就能在各种条件下对学习到的万有引力模型进行更全面的评估。该基准支持三种关键设置:基于实例的模型,即在单个数据集上进行训练;零点模型,即在多个数据集上进行预训练,然后在一个未见数据集上进行测试;微调模型,即进行预训练,然后使用目标数据集的少量数据进行微调。
CardBench 的设计包括用于计算必要数据统计、生成真实 SQL 查询和创建注释查询图以训练 CE 模型的工具。该基准提供了两组训练数据:一组用于带有多个过滤谓词的单表查询,另一组用于涉及两个表的二进制连接查询。该基准包括 9125 个单表查询和 8454 个二进制连接查询,其中一个数据集较小,确保了模型评估环境的稳健性和挑战性。来自 Google BigQuery 的训练数据标签需要 7 个 CPU 年的查询执行时间,凸显了创建该基准所需的大量计算投资。通过提供这些数据集和工具,CardBench 降低了有兴趣开发和测试新 CE 模型的研究人员的门槛。

0 条评论
请「登录」后评论