当前位置: 首页 > news >正文

准确率和召回率的平衡点

目录
  • 🚪 决策阈值和 Agent 的“信心”
    • 1. 追求高准确率(Precision)
    • 2. 追求高召回率(Recall)
  • 总结:二者间的权衡曲线

您的问题非常关键,这是理解所有分类模型(包括智能体 Agent)性能评估时最核心的逻辑之一:准确率(Precision)和召回率(Recall)在大多数情况下存在此消彼长的关系,即权衡(Trade-off)。

我们用一个“门槛”“决策阈值”(Decision Threshold)的例子来直观地理解它。

🚪 决策阈值和 Agent 的“信心”

想象您的合同审查 Agent 在判断一份合同是否是“风险”时,会给出一个 信心分数(Confidence Score),范围是 $0$ 到 $100%$。

  • 您必须设置一个“门槛”: Agent 只有在信心分数超过这个门槛时,才会将合同标记为“风险”。

1. 追求高准确率(Precision)

当您要求准确率达到 $99%$ 时,您实际上是在告诉 Agent:“你标记的风险中,几乎不能有错!”

  • 操作: Agent 必须将决策门槛(Threshold)设置得非常高,例如:$95%$。

    • Agent 行为: 只有当 Agent 认为一份合同有 $95%$ 以上的可能性是风险时,它才敢标记它。
  • 结果分析:

    • 准确率 (Precision) 极高: 标记的风险很少出错(FP 极少)。因为 Agent 只标记那些它超级确定是风险的合同。
    • 召回率 (Recall) 下降: 许多真正的风险合同(例如信心分数在 $80%$ 到 $94%$ 之间)因为没有达到这个高门槛,被 Agent 错误地归类为“安全”。这些就是漏报(假阴性,FN)。门槛越高,漏掉的真风险就越多,召回率自然就下降了。

2. 追求高召回率(Recall)

当您要求 Agent 尽量不放过任何风险时,您是在告诉 Agent:“哪怕只是有点怀疑,也要标记出来!”

  • 操作: Agent 必须将决策门槛设置得非常低,例如:$50%$。

    • Agent 行为: 只要 Agent 认为一份合同有 $50%$ 以上的可能性是风险,它就会标记它。
  • 结果分析:

    • 召回率 (Recall) 极高: 大多数真正的风险合同都被 Agent 成功标记了(FN 极少)。
    • 准确率 (Precision) 下降: Agent 标记的风险中会包含大量误报(FP 激增)。因为许多实际上是安全的合同(例如信心分数 $51%$)也被 Agent 标记为风险。

总结:二者间的权衡曲线

准确率和召回率就像跷跷板的两端。你永远无法在不付出代价的情况下,让两者同时达到 $100%$。

目标倾向 Agent 的决策门槛 (Threshold) 结果
倾向准确率 (如 $99%$ Precision) (比如 $95%$) 牺牲召回率:减少了误报(FP),但增加了漏报(FN)。
倾向召回率 (如 $95%$ Recall) (比如 $50%$) 牺牲准确率:减少了漏报(FN),但增加了误报(FP)。

在合同审查中,您需要找到一个平衡点,这个点通常是召回率略高于准确率,以确保不会漏掉那些代价高昂的真风险。

http://www.rkmt.cn/news/81778.html

相关文章:

  • Python threading.Lock() thread lambda
  • 【Agent】MemOS 源码笔记---(4)---KV Cache
  • 2025.12.10
  • 大数据存储新范式:RustFS与Hadoop生态无缝集成实战指南
  • Ai元人文构想:黑箱之渡,白箱之锚——大行为模型践行意义行为原生
  • 60
  • python —— 树的遍历 —— 深度优先遍历(先序、中序、后序) —— 非递归方式(使用栈数据结构进行辅助)
  • IntelliJ IDEA 最常用的快捷键
  • C++ 循环结构:控制程序重复执行的核心机制 - 教程
  • python —— 满二叉树的广度优先遍历
  • 无参和有参URL的定义
  • 【Ubuntu】系统下VScode配置ESP-IDF插件esp-clang和Python 3报错问题
  • vue 中支持不定高的虚拟滚动的表格 vxe-table 的使用,动态高度虚拟列表高性能表格
  • windriver 第4章:PCI Express 概述
  • Docker Swarm 的负载均衡和平滑切换原理 - 实践
  • 2025年推荐实力户外滑梯厂家飞友,以专业品质守护儿童欢乐时光 - 速递信息
  • 纯棉卫生巾推荐,4款热门产品深度横评,看完这篇再下单! - 速递信息
  • 2025年最新幼儿园教玩具品牌推荐,守护孩子成长——飞友用硬核筑牢成长防线 - 速递信息
  • 吐血整理!揭秘2025年新房装修公司哪家靠谱! - 品牌测评鉴赏家
  • 创建用户赋予权限
  • 2025 最新实测:AI 学习机是智商税吗?有没有用 + 高性价比品牌清单 - 品牌测评鉴赏家
  • AI 学习机品牌推荐(2025 年 12 月最新) 高性价比机型选购指南 - 品牌测评鉴赏家
  • 学习差的孩子用学习机是智商税吗?双线模式针对性提分解决方案 - 品牌测评鉴赏家
  • 买完学习机还需要去线下补课吗? AI 学习机 + 自习室是中小学生普娃的更优解! - 品牌测评鉴赏家
  • 拼多多代运营公司推荐排行榜:2025年行业权威榜单深度解析 - 前沿公社
  • counting
  • Dev-C++ 安装
  • Bloxstrap - 增强版Roblox启动器
  • 【Linux】服务器配置 ssh 公钥 私钥认证登录
  • windriver 第1章:概述