尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

评估AI系统时如何减少标注工作

评估AI系统时如何减少标注工作
📅 发布时间:2026/6/20 14:02:11
本文提出了一种减少评估集成分类器所需标注样本数量的新方法。通过利用集成系统各组件间判断结果的重叠性,该方法可显著减少评估所需的随机样本数量,在实验中最高减少超过89%。

商业机器学习系统在代表真实世界的数据上进行训练。但世界在不断变化,已部署的机器学习系统需要定期重新评估,以确保其性能没有下降。

评估一个已部署的AI系统意味着人工标注该系统已分类的数据,以确定这些分类是否准确。但标注是劳动密集型的,因此需要尽量减少评估系统性能所需的样本数量。

许多商业机器学习系统实际上是二元分类器的集成;每个分类器对输入是否属于特定类别进行“投票”,然后汇总投票以产生最终决策。

在一篇于欧洲机器学习会议上发表的论文中,我们展示了如何通过利用用于评估单个组件的样本集之间的重叠,来减少评估二元分类器集成所需的随机样本数量。

例如,假设一个集成有三个分类器,我们需要10个样本来评估这三个分类器的性能。评估该集成需要40个样本——每个分类器10个,整个集成10个。如果这40个样本中有10个是重复的,我们就可以只使用30个标注。我们的论文就是基于这种直觉。

在使用真实数据的实验中,我们的方法在保持评估准确性的同时,将评估集成所需的样本数量减少了超过89%。

我们还使用模拟数据进行了实验,改变了个体分类器样本集之间的重叠程度。在这些实验中,平均节省了33%的样本。

最后,在论文中,我们证明了我们的抽样过程相对于随机抽样,不会给结果样本集引入任何偏差。

共同点

直观地说,为集成的各个组件随机选择的样本不可避免地会包含一些重复。大多数对评估一个模型有用的样本也应该对评估其他模型有用。目标就是添加刚好足够多的额外样本来评估所有模型。

我们首先为整个集成选择一个样本集,我们称之为“父模型”;而集成的单个模型相应地称为“子模型”。在找到足够评估父模型的样本集后,我们扩展它以包含第一个子模型,然后重复该过程,直到样本集覆盖所有子模型。

我们的通用方法适用于评估集成性能的任何标准,但在论文中,我们以精确率(即分类器正确识别的真阳性百分比)作为运行示例。

在此图中,被父模型判断为阳性的输入集(右圆,AP)与被子模型判断为阳性的输入集(左圆,AC)相交。AP的随机样本(橙色曲线,SP)与AC的交集(橙色阴影区域)代表S+,即来自父模型阳性集且被子模型同样分类为阳性的样本。绿色阴影区域代表S-,即被子模型分类为阳性但未被父模型分类为阳性的样本。散布的x代表Sremain,即为了获得足够样本以精确估计子模型精确率所需的、被子模型分类为阳性的额外输入样本。

我们从父模型判断为目标类别的总输入集和子模型判断为阳性的总输入集开始。这两个集合通常有相当大的重叠;例如,在一个由三个分类器构成的多数投票集成中,只要有两个组件(子模型)判定为阳性,集成(父模型)就会将输入分类为阳性。

我们从父模型的集合中选取足够多的随机样本来评估父模型。然后,我们找到该样本集与子模型所有阳性分类总集的交集(上图中的S+)。这成为我们用于评估子模型的基线样本集。

接下来,我们随机抽取被子模型分类为阳性但父模型未分类为阳性的输入样本(上图中的S-)。该样本的大小与基线样本集大小的比率,应与被子模型(而非父模型)标记为阳性的输入数量与两者都标记为阳性的输入数量的比率相同。

当我们将这些样本添加到基线样本集时,我们得到的组合样本集可能不够大,无法准确估计精确率。如果需要,我们会从被子模型分类为阳性的输入中选择更多样本。这些样本也可能被父模型分类为阳性(上图中的Sremain)。

回想一下,我们首先从子模型和父模型意见一致的集合中抽取样本,然后从它们意见不一致的集合中抽取。这意味着我们构建的样本集并非真正随机的,因此下一步是将组合集中的样本混合在一起。

重新洗牌还是重新抽样?

我们尝试了两种不同的混合方法。一种是将组合集中的所有样本简单地重新洗牌。另一种是从组合集中随机抽取样本,并将它们添加到一个新的混合集中,直到混合集与组合集大小相同。在这两种方法中,最终结果都是,当我们从样本中挑选任何元素时,我们都不知道它来自父模型和子模型意见一致的集合还是意见不一致的集合。

我们实验中可视化了当改变父模型和子模型判断之间重叠量时,我们的方法带来的平均样本节省量。

在我们的实验中,我们发现当使用重新洗牌来产生混合样本集和使用重新抽样时,算法的结果之间存在轻微的权衡。因为重新抽样在混合集中引入了一些冗余,它比重新洗牌需要更少的样本,从而相比随机抽样增加了样本量的节省。

然而,与此同时,它略微降低了精确率估计的准确性。通过重新洗牌,我们的算法平均在三个测试数据集上略优于随机抽样,而通过重新抽样,则略低于随机抽样。

总体而言,我们开发的抽样程序减少了所需的样本量。当然,节省的量取决于父模型和子模型判断之间的重叠程度。重叠越大,样本节省越多。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

相关新闻

  • 家庭园艺种植提醒工具,核心功能,录入植物名称,比如绿萝,月季等,种植日期,设置浇水周期,施肥周期,到点自动弹出提醒,记录养护日志,应用场景,养花爱好者,尤其是记性不好的老年人,让植物养得更茂盛。
  • 【笔记篇】【硬件基础篇】电力电子元器件应用手册 阅读笔记(1)电阻器及其应用
  • Flutter 2025 安全加固指南:从代码混淆到数据加密,构建可信、合规、防逆向的移动应用安全体系

最新新闻

  • 本地部署Scout代码模型:轻量级编程助手实战指南
  • 中考100-200分想参军?淮南公办中专,学籍合规,参军升学两不误 - 我叫小周
  • 如何用3个技巧突破网盘下载瓶颈?开源工具LinkSwift实战指南
  • Clawdbot本地AI网关:绿联NAS上的数字员工部署指南
  • SPI通信协议深度解析:时序、错误处理与实战配置
  • TradingAgents-CN:可审计的金融AI Agent工程化部署指南

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号