当前位置: 首页 > news >正文

评估AI系统时如何减少标注工作

商业机器学习系统在代表真实世界的数据上进行训练。但世界在不断变化,已部署的机器学习系统需要定期重新评估,以确保其性能没有下降。

评估一个已部署的AI系统意味着人工标注该系统已分类的数据,以确定这些分类是否准确。但标注是劳动密集型的,因此需要尽量减少评估系统性能所需的样本数量。

许多商业机器学习系统实际上是二元分类器的集成;每个分类器对输入是否属于特定类别进行“投票”,然后汇总投票以产生最终决策。

在一篇于欧洲机器学习会议上发表的论文中,我们展示了如何通过利用用于评估单个组件的样本集之间的重叠,来减少评估二元分类器集成所需的随机样本数量。

例如,假设一个集成有三个分类器,我们需要10个样本来评估这三个分类器的性能。评估该集成需要40个样本——每个分类器10个,整个集成10个。如果这40个样本中有10个是重复的,我们就可以只使用30个标注。我们的论文就是基于这种直觉。

在使用真实数据的实验中,我们的方法在保持评估准确性的同时,将评估集成所需的样本数量减少了超过89%。

我们还使用模拟数据进行了实验,改变了个体分类器样本集之间的重叠程度。在这些实验中,平均节省了33%的样本。

最后,在论文中,我们证明了我们的抽样过程相对于随机抽样,不会给结果样本集引入任何偏差。

共同点

直观地说,为集成的各个组件随机选择的样本不可避免地会包含一些重复。大多数对评估一个模型有用的样本也应该对评估其他模型有用。目标就是添加刚好足够多的额外样本来评估所有模型。

我们首先为整个集成选择一个样本集,我们称之为“父模型”;而集成的单个模型相应地称为“子模型”。在找到足够评估父模型的样本集后,我们扩展它以包含第一个子模型,然后重复该过程,直到样本集覆盖所有子模型。

我们的通用方法适用于评估集成性能的任何标准,但在论文中,我们以精确率(即分类器正确识别的真阳性百分比)作为运行示例。

在此图中,被父模型判断为阳性的输入集(右圆,AP)与被子模型判断为阳性的输入集(左圆,AC)相交。AP的随机样本(橙色曲线,SP)与AC的交集(橙色阴影区域)代表S+,即来自父模型阳性集且被子模型同样分类为阳性的样本。绿色阴影区域代表S-,即被子模型分类为阳性但未被父模型分类为阳性的样本。散布的x代表Sremain,即为了获得足够样本以精确估计子模型精确率所需的、被子模型分类为阳性的额外输入样本。

我们从父模型判断为目标类别的总输入集和子模型判断为阳性的总输入集开始。这两个集合通常有相当大的重叠;例如,在一个由三个分类器构成的多数投票集成中,只要有两个组件(子模型)判定为阳性,集成(父模型)就会将输入分类为阳性。

我们从父模型的集合中选取足够多的随机样本来评估父模型。然后,我们找到该样本集与子模型所有阳性分类总集的交集(上图中的S+)。这成为我们用于评估子模型的基线样本集。

接下来,我们随机抽取被子模型分类为阳性但父模型未分类为阳性的输入样本(上图中的S-)。该样本的大小与基线样本集大小的比率,应与被子模型(而非父模型)标记为阳性的输入数量与两者都标记为阳性的输入数量的比率相同。

当我们将这些样本添加到基线样本集时,我们得到的组合样本集可能不够大,无法准确估计精确率。如果需要,我们会从被子模型分类为阳性的输入中选择更多样本。这些样本也可能被父模型分类为阳性(上图中的Sremain)。

回想一下,我们首先从子模型和父模型意见一致的集合中抽取样本,然后从它们意见不一致的集合中抽取。这意味着我们构建的样本集并非真正随机的,因此下一步是将组合集中的样本混合在一起。

重新洗牌还是重新抽样?

我们尝试了两种不同的混合方法。一种是将组合集中的所有样本简单地重新洗牌。另一种是从组合集中随机抽取样本,并将它们添加到一个新的混合集中,直到混合集与组合集大小相同。在这两种方法中,最终结果都是,当我们从样本中挑选任何元素时,我们都不知道它来自父模型和子模型意见一致的集合还是意见不一致的集合。

我们实验中可视化了当改变父模型和子模型判断之间重叠量时,我们的方法带来的平均样本节省量。

在我们的实验中,我们发现当使用重新洗牌来产生混合样本集和使用重新抽样时,算法的结果之间存在轻微的权衡。因为重新抽样在混合集中引入了一些冗余,它比重新洗牌需要更少的样本,从而相比随机抽样增加了样本量的节省。

然而,与此同时,它略微降低了精确率估计的准确性。通过重新洗牌,我们的算法平均在三个测试数据集上略优于随机抽样,而通过重新抽样,则略低于随机抽样。

总体而言,我们开发的抽样程序减少了所需的样本量。当然,节省的量取决于父模型和子模型判断之间的重叠程度。重叠越大,样本节省越多。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.rkmt.cn/news/93700.html

相关文章:

  • 家庭园艺种植提醒工具,核心功能,录入植物名称,比如绿萝,月季等,种植日期,设置浇水周期,施肥周期,到点自动弹出提醒,记录养护日志,应用场景,养花爱好者,尤其是记性不好的老年人,让植物养得更茂盛。
  • 【笔记篇】【硬件基础篇】电力电子元器件应用手册 阅读笔记(1)电阻器及其应用
  • Flutter 2025 安全加固指南:从代码混淆到数据加密,构建可信、合规、防逆向的移动应用安全体系
  • 菜市场价格对比工具,输入蔬菜/肉类名称,显示周边三个菜市场的实时价格及距离,推荐性价比最高的购买地点。
  • 2026老年春晚怀化区域节目征集启动仪式在怀化学院举行
  • Go 语言
  • springboot公司人力资源管理系统_nvj0q68d-
  • 儿童护眼灯什么牌子的好?黑马顶流护眼灯揭秘,宝妈圈都在夸!
  • **免费游戏角色AI配音软件2025推荐,适配独立开发者与小
  • 从MinIO迁移实战指南:RustFS的平滑迁移步骤与风险控制
  • 初创公司缺法务、缺设计、缺运营,如何靠AI提高工作效率?
  • thinkcmf改存储CloudflareR2
  • 告别“创意枯竭周期”:华为云Flexus AI智能体如何重构传统企业营销内容生产力
  • 为什么你的视觉AI项目总是耗时又低效?Florence-2-large-ft一站式解决方案
  • 如何与猎头高效沟通,获得心仪的SDET岗位推荐?
  • Sniffnet容器化部署终极指南:3步搞定网络流量监控
  • springboot大学生社团管理系统_z48oy3bd-
  • 测试开发面试题:单例的设计模式和应用场景
  • springboot家政服务管理系统的设计与实现_z7z041x0-
  • 探索城市脉搏:解密共享单车数据背后的故事
  • 2025大模型效率革命:Gemma 3 12B实现高性能与低门槛部署新范式
  • 打包后页面出现空白问题
  • 30亿参数撬动边缘智能革命:SmolLM3重新定义小模型商业价值
  • offline meta-RL | 近期工作速读记录
  • 解锁大脑奥秘:Yeo7与AAL90脑图谱的终极映射指南
  • LTspice中的齐纳二极管特性
  • 基于Spring Boot的仓储管理系统的设计与实现_yd8h4784-java毕业设计
  • Profinet转ModbusTCP网关:实现电池产线PLC与打标卡稳定通讯
  • OpenLayers三维地图实战:如何让建筑在地图上“站起来“?[特殊字符]
  • 基于YOLO11-SEG-AIFI的仪表指针位置识别与读取系统_1