评估AI系统时如何减少标注工作-尧图网站建设

📅 发布时间：2026/6/20 14:02:11

商业机器学习系统在代表真实世界的数据上进行训练。但世界在不断变化，已部署的机器学习系统需要定期重新评估，以确保其性能没有下降。

评估一个已部署的AI系统意味着人工标注该系统已分类的数据，以确定这些分类是否准确。但标注是劳动密集型的，因此需要尽量减少评估系统性能所需的样本数量。

许多商业机器学习系统实际上是二元分类器的集成；每个分类器对输入是否属于特定类别进行“投票”，然后汇总投票以产生最终决策。

在一篇于欧洲机器学习会议上发表的论文中，我们展示了如何通过利用用于评估单个组件的样本集之间的重叠，来减少评估二元分类器集成所需的随机样本数量。

例如，假设一个集成有三个分类器，我们需要10个样本来评估这三个分类器的性能。评估该集成需要40个样本——每个分类器10个，整个集成10个。如果这40个样本中有10个是重复的，我们就可以只使用30个标注。我们的论文就是基于这种直觉。

在使用真实数据的实验中，我们的方法在保持评估准确性的同时，将评估集成所需的样本数量减少了超过89%。

我们还使用模拟数据进行了实验，改变了个体分类器样本集之间的重叠程度。在这些实验中，平均节省了33%的样本。

最后，在论文中，我们证明了我们的抽样过程相对于随机抽样，不会给结果样本集引入任何偏差。

共同点

直观地说，为集成的各个组件随机选择的样本不可避免地会包含一些重复。大多数对评估一个模型有用的样本也应该对评估其他模型有用。目标就是添加刚好足够多的额外样本来评估所有模型。

我们首先为整个集成选择一个样本集，我们称之为“父模型”；而集成的单个模型相应地称为“子模型”。在找到足够评估父模型的样本集后，我们扩展它以包含第一个子模型，然后重复该过程，直到样本集覆盖所有子模型。

我们的通用方法适用于评估集成性能的任何标准，但在论文中，我们以精确率（即分类器正确识别的真阳性百分比）作为运行示例。

在此图中，被父模型判断为阳性的输入集（右圆，AP）与被子模型判断为阳性的输入集（左圆，AC）相交。AP的随机样本（橙色曲线，SP）与AC的交集（橙色阴影区域）代表S+，即来自父模型阳性集且被子模型同样分类为阳性的样本。绿色阴影区域代表S-，即被子模型分类为阳性但未被父模型分类为阳性的样本。散布的x代表Sremain，即为了获得足够样本以精确估计子模型精确率所需的、被子模型分类为阳性的额外输入样本。

我们从父模型判断为目标类别的总输入集和子模型判断为阳性的总输入集开始。这两个集合通常有相当大的重叠；例如，在一个由三个分类器构成的多数投票集成中，只要有两个组件（子模型）判定为阳性，集成（父模型）就会将输入分类为阳性。

我们从父模型的集合中选取足够多的随机样本来评估父模型。然后，我们找到该样本集与子模型所有阳性分类总集的交集（上图中的S+）。这成为我们用于评估子模型的基线样本集。

接下来，我们随机抽取被子模型分类为阳性但父模型未分类为阳性的输入样本（上图中的S-）。该样本的大小与基线样本集大小的比率，应与被子模型（而非父模型）标记为阳性的输入数量与两者都标记为阳性的输入数量的比率相同。

当我们将这些样本添加到基线样本集时，我们得到的组合样本集可能不够大，无法准确估计精确率。如果需要，我们会从被子模型分类为阳性的输入中选择更多样本。这些样本也可能被父模型分类为阳性（上图中的Sremain）。

回想一下，我们首先从子模型和父模型意见一致的集合中抽取样本，然后从它们意见不一致的集合中抽取。这意味着我们构建的样本集并非真正随机的，因此下一步是将组合集中的样本混合在一起。

重新洗牌还是重新抽样？

我们尝试了两种不同的混合方法。一种是将组合集中的所有样本简单地重新洗牌。另一种是从组合集中随机抽取样本，并将它们添加到一个新的混合集中，直到混合集与组合集大小相同。在这两种方法中，最终结果都是，当我们从样本中挑选任何元素时，我们都不知道它来自父模型和子模型意见一致的集合还是意见不一致的集合。

我们实验中可视化了当改变父模型和子模型判断之间重叠量时，我们的方法带来的平均样本节省量。

在我们的实验中，我们发现当使用重新洗牌来产生混合样本集和使用重新抽样时，算法的结果之间存在轻微的权衡。因为重新抽样在混合集中引入了一些冗余，它比重新洗牌需要更少的样本，从而相比随机抽样增加了样本量的节省。

然而，与此同时，它略微降低了精确率估计的准确性。通过重新洗牌，我们的算法平均在三个测试数据集上略优于随机抽样，而通过重新抽样，则略低于随机抽样。

总体而言，我们开发的抽样程序减少了所需的样本量。当然，节省的量取决于父模型和子模型判断之间的重叠程度。重叠越大，样本节省越多。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码