准确率陷阱：为什么95%的模型在业务中毫无价值-尧图网站建设

📅 发布时间：2026/6/30 20:51:26

1. 项目概述：当准确率变成一场精心设计的幻觉

“你的模型准确率有95%——它完全没用。”这句话第一次砸在我面前时，我正站在客户会议室的投影幕布前，PPT第7页赫然写着鲜红的95.2% Accuracy。台下三位业务负责人面无表情，其中一位把咖啡杯轻轻推到桌沿，说：“上个月我们靠人工审核，漏掉3个高风险欺诈订单，损失了87万。你这个‘95%’模型，上周末自动放行了11个同类订单。”那一刻我后颈发凉——不是因为被质疑，而是突然意识到：我花了三个月调参、堆特征、换集成方法，却连“准确率到底在量什么”都没跟业务对齐。

这绝非个例。在真实工业场景里，accuracy（准确率）是被滥用最严重的评估指标，没有之一。它像一张光滑的滤镜，把数据分布的畸变、业务目标的错位、样本标签的噪声，全数柔化成一个看似体面的数字。尤其当你面对的是高度不平衡数据集——比如信用卡欺诈检测中正样本（欺诈）占比0.02%，医疗早筛中阳性病例不足0.5%，客服工单中的重大投诉仅占0.3%——此时95%的准确率，可能只是模型把所有样本都预测为“正常”，然后心安理得地躺赢了95%的正确率。这不是模型聪明，是它精准地学会了偷懒。

这篇文章要拆解的，正是这个标题背后血淋淋的真相：为什么一个数学上无可挑剔的95%准确率，在业务现场会沦为废纸？它暴露了哪些被算法工程师刻意回避的系统性断层？更重要的是——当accuracy失效时，真正该盯住的5个核心指标是什么？它们怎么算？为什么必须一起看？我会用三个真实复盘案例（金融风控、智能客服、工业质检）带你看清每一步陷阱，附上可直接粘贴运行的Python评估代码、阈值优化脚本，以及一份我压箱底的《业务-算法需求对齐检查表》。无论你是刚学完scikit-learn的新人，还是带过十人算法团队的TL，只要你的模型要落地，这篇就是你绕不开的生存指南。

2. 核心逻辑解构：准确率为何在真实世界中集体失能

2.1 准确率的数学本质与致命软肋

准确率（Accuracy）的公式简单到小学生都能背：
Accuracy = (TP + TN) / (TP + TN + FP + FN)
其中TP（True Positive）是真阳性，TN（True Negative）是真阴性，FP（False Positive）是假阳性，FN（False Negative）是假阴性。

问题就藏在这个分母里——它把四类错误同等加权。但在真实业务中，FP和FN的代价天差地别。举个极端例子：某医院AI辅助诊断系统，用准确率作为唯一指标，测试集上达到94.8%。但细看混淆矩阵：

TP（确诊患者被正确识别）：42例
TN（健康人被正确排除）：948例
FP（健康人被误诊为癌症）：8例
FN（癌症患者被漏诊）：2例

计算得Accuracy = (42+948)/(42+948+8+2) = 990/1000 =99%。等等，刚才说94.8%？不，这是故意设的障眼法——实际99%更可怕，因为它掩盖了FN=2这个致命伤。这两个漏诊的患者，将错过黄金治疗期。而8个误诊的健康人，顶多再做一次活检。这里FP的业务成本≈2000元/例，FN的成本≈50万元/例。准确率把50万和2000元揉进同一个分母，假装它们价值相等。

提示：准确率失效的第一重断层，是业务代价的不可通约性。它要求你先回答：漏判一个高风险样本（FN），和误杀一个正常样本（FP），哪个会让你的老板连夜打电话？

2.2 不平衡数据：准确率的“温水煮青蛙”陷阱

当正样本比例极低时，准确率会陷入一种温柔的暴政。假设你做贷款违约预测，历史数据中违约率仅1.2%（即正样本占比1.2%）。此时一个最懒惰的模型——永远预测“不违约”——其准确率直接就是98.8%。如果你只盯着这个数字，你会以为模型近乎完美。但它的召回率（Recall）是0%：所有真实违约者都被它无视了。

我们来算一笔账。某银行有10万贷款申请，其中1200笔真实违约（1.2%）。模型A（永远预测不违约）：

Accuracy = 98.8%
Recall = 0/1200 = 0%
Precision = 0/0 → 未定义（但实际为0）

模型B（稍作努力，召回了600个违约者，但误杀了1500个正常客户）：

TP=600, FN=600, FP=1500, TN=97900
Accuracy = (600+97900)/100000 =98.5%（比模型A还低0.3%）
Recall = 600/1200 =50%
Precision = 600/(600+1500) =28.6%

看懂了吗？模型B在业务上救回了一半违约者，但准确率反而更低。如果KPI只考核Accuracy，工程师会本能地优化模型A——因为它的数字更漂亮。这就是准确率在不平衡数据中的第二重暴政：它奖励保守主义，惩罚积极干预。

注意：当正样本比例 < 5% 时，Accuracy已基本丧失指导意义；当 < 1% 时，它纯粹是干扰项。此时必须切换到以Recall（召回率）或F1-score为核心的评估体系。

2.3 标签质量：被忽略的“地基塌陷”风险

很多团队把准确率低归咎于模型能力，却从不质疑标签本身。我在某电商公司复盘过一个“商品违禁词识别”项目。NLP团队用BERT微调，验证集Accuracy达93.7%，上线后误判率飙升。深入日志发现：标注团队对“是否违禁”的判定标准模糊。例如“特效美白”一词：

标注员A认为“美白”属功效宣称，打标为违禁（正样本）
标注员B认为“特效”夸大，但“美白”是客观描述，打标为合规（负样本）
标注员C查了法规，发现“美白”需特证，但当前商品有备案，故标为合规

同一句话，三人标注结果两正一负。这种标签噪声直接导致模型学习目标混乱。更致命的是，测试集也用了同样混乱的标注标准，所以93.7%的Accuracy只是在拟合噪声，而非真实规律。当标签一致性（Inter-annotator Agreement）低于0.6（Cohen’s Kappa系数），任何基于该标签的Accuracy都是空中楼阁。

3. 实操替代方案：5个必须并行监控的核心指标

3.1 召回率（Recall）：业务安全的生命线

召回率衡量的是“模型找出了多少真实的问题”。公式为：
Recall = TP / (TP + FN)

它直击业务痛点：在风控中，Recall=80% 意味着每100个真实欺诈，模型抓住了80个，漏掉20个；在医疗中，Recall=95% 意味着每100个早期癌症患者，95人被及时预警。它是业务安全的底线指标——可以接受误报（FP），但不能容忍漏报（FN）。

实操中，Recall与分类阈值强相关。sklearn默认阈值0.5，但真实场景需动态调整。以下代码演示如何绘制Recall-Threshold曲线，并找到业务可接受的最低Recall：

import numpy as np import matplotlib.pyplot as plt from sklearn.metrics import recall_score, precision_recall_curve # 假设y_true是真实标签（0/1），y_proba是模型输出的概率 y_true = [0,1,0,1,1,0,0,1,0,1] # 示例数据 y_proba = [0.1,0.85,0.2,0.92,0.78,0.15,0.3,0.88,0.22,0.95] # 计算不同阈值下的Recall thresholds = np.arange(0.1, 1.0, 0.05) recalls = [] for t in thresholds: y_pred = (y_proba >= t).astype(int) recalls.append(recall_score(y_true, y_pred)) # 绘图 plt.figure(figsize=(8,5)) plt.plot(thresholds, recalls, 'bo-', label='Recall') plt.axhline(y=0.9, color='r', linestyle='--', label='Target Recall: 90%') plt.xlabel('Classification Threshold') plt.ylabel('Recall') plt.title('Recall vs Threshold') plt.legend() plt.grid(True) plt.show() # 找到满足Recall>=0.9的最低阈值 min_threshold_for_90_recall = thresholds[np.argmax(np.array(recalls) >= 0.9)] print(f"为达到90%召回率，最低阈值需设为: {min_threshold_for_90_recall:.2f}")

实操心得：在金融风控中，我们硬性规定Recall不得低于85%（监管要求），此时阈值常需下调至0.3~0.4，虽FP增加，但FN被严控。记住：Recall是业务红线，不是优化目标——它必须先达标，再谈其他。

3.2 精确率（Precision）：运营成本的温度计

精确率回答的是：“模型说有问题的样本里，有多少是真的有问题？”公式为：
Precision = TP / (TP + FP)

它直接关联运营成本。在智能客服中，模型标记“需人工介入”的工单，Precision=40%意味着每处理100个标记工单，60个是白忙活。这会迅速拖垮客服团队响应速度。而在推荐系统中，低Precision导致大量无效曝光，用户流失率上升。

Precision与Recall天然存在跷跷板关系：提高阈值（如从0.5升到0.7）会提升Precision（更严格，减少FP），但降低Recall（更保守，增加FN）；反之亦然。因此必须二者同看。以下代码生成Precision-Recall曲线：

# 接续上段代码 precision, recall_curve, _ = precision_recall_curve(y_true, y_proba) plt.figure(figsize=(8,5)) plt.plot(recall_curve, precision, 'go-', label='Precision-Recall Curve') plt.xlabel('Recall') plt.ylabel('Precision') plt.title('Precision-Recall Curve') plt.grid(True) plt.legend() plt.show() # 计算F1-score（Precision与Recall的调和平均） from sklearn.metrics import f1_score f1 = f1_score(y_true, (y_proba >= 0.5).astype(int)) print(f"F1-score at threshold 0.5: {f1:.3f}")

注意：当业务对FP极度敏感（如法律文书审核），应优先保Precision；当对FN零容忍（如核电站故障预警），则优先保Recall。二者不可兼得时，必须由业务方拍板取舍。

3.3 F1-score：Precision与Recall的强制婚姻

F1-score是Precision和Recall的调和平均数，公式为：
F1 = 2 * (Precision * Recall) / (Precision + Recall)

它强迫模型在Precision和Recall间找平衡点。相比算术平均，调和平均对极小值更敏感——若Recall=0.1，Precision=0.9，F1仅为0.18，远低于算术平均0.5。这恰恰反映了业务现实：一个漏掉90%问题的系统，再高的精确率也毫无意义。

但F1并非万能。当业务代价严重不对称时（如FN代价是FP的100倍），需用Fβ-score，通过β参数调节侧重：

β>1（如β=2）：更看重Recall（F2-score）
β<1（如β=0.5）：更看重Precision（F0.5-score）

from sklearn.metrics import fbeta_score # 计算F2-score（更重视Recall） f2 = fbeta_score(y_true, (y_proba >= 0.5).astype(int), beta=2) print(f"F2-score at threshold 0.5: {f2:.3f}") # 计算F0.5-score（更重视Precision） f05 = fbeta_score(y_true, (y_proba >= 0.5).astype(int), beta=0.5) print(f"F0.5-score at threshold 0.5: {f05:.3f}")

实操心得：我在某工业质检项目中，因漏检一个缺陷零件可能导致整条产线停机（FN代价极高），故采用F2-score作为主指标。模型最终Recall=92%，Precision=78%，F2=89.3%。若只看F1（84.7%），会低估其业务价值。

3.4 ROC曲线与AUC：模型判别能力的纯度检验

ROC曲线（Receiver Operating Characteristic）横轴是假正率（FPR = FP / (FP + TN)），纵轴是真正率（TPR = Recall）。它描绘模型在所有可能阈值下的表现，完全脱离具体业务阈值，反映模型本身的判别能力。

AUC（Area Under Curve）是ROC曲线下面积，取值0.5~1.0：

AUC=0.5：模型等同随机猜测
AUC=0.7~0.8：可接受
AUC>0.9：优秀

关键洞察：AUC高，只说明模型有潜力区分正负样本，不代表在业务阈值下表现好。一个AUC=0.95的模型，若业务要求Recall=99%，其对应阈值下Precision可能只有5%，完全不可用。

from sklearn.metrics import roc_curve, auc fpr, tpr, _ = roc_curve(y_true, y_proba) roc_auc = auc(fpr, tpr) plt.figure(figsize=(8,5)) plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc:.2f})') plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('ROC Curve') plt.legend(loc="lower right") plt.grid(True) plt.show()

提示：AUC是模型选型阶段的黄金指标。当对比XGBoost、LightGBM、深度网络时，AUC能剔除阈值干扰，客观比较模型“内功”。但一旦进入业务部署，必须回归到Recall/Precision/F1等阈值敏感指标。

3.5 业务定制指标：让算法真正长出业务肌肉

以上四个指标仍是通用框架。真正的专业在于，根据业务流再造专属指标。以下是三个行业实战案例：

案例1：金融反洗钱（AML）—— “可疑交易捕获效率”
不只看Recall，更要看：

Recall@TopK：模型排序后前K个最可疑交易中的真实洗钱数
Investigation Cost per True Positive：人工核查1个真实洗钱案例的平均耗时（分钟）
公式：效率 = (True Positives Found) / (Total Investigation Hours)
为什么？反洗钱团队人力有限，必须最大化单位时间发现的真实案件数。

案例2：电商搜索—— “首屏有效曝光率”
不只看Precision，更要看：

Precision@10：搜索结果前10条中，用户点击且成交的商品数
Dwell Time Weighted Precision：对用户停留>30秒的商品赋予更高权重
为什么？用户没点击不等于不相关，可能图片/价格不合意；停留久才是真实兴趣信号。

案例3：工业设备预测性维护—— “提前预警窗口”
不只看Recall，更要看：

Mean Time to Failure (MTTF) Coverage：模型预警时，距离设备真实故障的平均剩余时间（小时）
False Alarm Rate per 1000 Hours of Operation
为什么？预警太晚（如距故障仅2小时）等于没预警；预警太频繁（每天10次误报）会让工程师关闭系统。

实操心得：每次模型上线前，我必拉业务方开2小时对齐会，用白板画出他们的工作流，标出每个环节的痛点和成本。然后问：“如果只能让你盯住一个数字，它应该是什么？” 这个数字，就是你的业务定制指标。它可能没有教科书定义，但一定写在业务KPI里。

4. 全流程实操：从数据清洗到阈值部署的避坑指南

4.1 数据层：用“三阶清洗法”根除准确率幻觉

很多团队跳过数据清洗，直接建模，结果Accuracy虚高。我的“三阶清洗法”专治此病：

第一阶：分布审计（Distribution Audit）
用以下代码扫描数据失衡与异常：

import pandas as pd import seaborn as sns def audit_distribution(df, target_col): print(f"=== {target_col} 分布审计 ===") print(f"总样本数: {len(df)}") print(f"正样本数: {df[target_col].sum()} ({df[target_col].mean():.1%})") print(f"负样本数: {len(df)-df[target_col].sum()}") # 检查标签泄露特征 numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist() if target_col in numeric_cols: numeric_cols.remove(target_col) # 计算各数值特征与目标变量的相关性 corr_with_target = df[numeric_cols + [target_col]].corr()[target_col].abs().sort_values(ascending=False) print("\n与目标变量相关性最高的5个特征:") print(corr_with_target.head(5)) # 可视化分布 plt.figure(figsize=(12,8)) for i, col in enumerate(numeric_cols[:6]): plt.subplot(2,3,i+1) sns.histplot(data=df, x=col, hue=target_col, bins=30, alpha=0.7) plt.title(f'{col} 分布') plt.tight_layout() plt.show() # 使用示例 # audit_distribution(train_df, 'is_fraud')

第二阶：标签质量校验（Label Quality Check）
对标注数据抽样100条，三人交叉验证，计算Cohen’s Kappa：

Kappa > 0.8：标注一致，可信
Kappa 0.6~0.8：需重新培训标注员
Kappa < 0.6：暂停标注，重构标准

第三阶：时间泄漏检测（Temporal Leakage Scan）
在时序数据中，若用未来信息预测过去，Accuracy必然虚高。用以下逻辑检查：

def check_temporal_leakage(df, time_col, target_col): # 按时间排序 df_sorted = df.sort_values(time_col) # 取前50%为训练，后50%为测试 split_idx = len(df_sorted) // 2 train_time = df_sorted.iloc[:split_idx][time_col].max() test_time = df_sorted.iloc[split_idx:][time_col].min() print(f"训练集最晚时间: {train_time}") print(f"测试集最早时间: {test_time}") if test_time <= train_time: print("⚠️ 警告：存在时间泄漏！测试集时间早于或等于训练集最晚时间") return False else: print("✅ 时间划分合理") return True # check_temporal_leakage(df, 'transaction_time', 'is_fraud')

踩过的坑：某信贷模型Accuracy 96%，上线后崩盘。根源是训练集混入了测试期后的征信更新数据（时间泄漏）。修复后Accuracy降至89%，但业务指标全面提升。宁要89%的真实，不要96%的幻觉。

4.2 模型层：阈值优化的“双轨制”工作流

多数团队用0.5阈值一刀切。我的“双轨制”工作流确保阈值科学：

轨道1：业务驱动阈值（Business-Driven Threshold）

步骤1：与业务方确认核心约束（如“漏检率不得高于5%”）
步骤2：在验证集上，找到满足该约束的最高Precision阈值
步骤3：用该阈值跑A/B测试，监控线上业务指标（如欺诈损失额）

轨道2：成本驱动阈值（Cost-Driven Threshold）
当FP和FN有明确货币成本时，用最小化总成本确定阈值：
Total Cost = Cost_FP * FP + Cost_FN * FN
以下代码自动搜索最优阈值：

def find_optimal_threshold(y_true, y_proba, cost_fp=100, cost_fn=10000): """ cost_fp: 单次误报成本（如人工核查费） cost_fn: 单次漏报成本（如欺诈损失） """ thresholds = np.arange(0.01, 0.99, 0.01) costs = [] for t in thresholds: y_pred = (y_proba >= t).astype(int) fp = np.sum((y_pred == 1) & (y_true == 0)) fn = np.sum((y_pred == 0) & (y_true == 1)) total_cost = cost_fp * fp + cost_fn * fn costs.append(total_cost) optimal_idx = np.argmin(costs) optimal_threshold = thresholds[optimal_idx] min_cost = costs[optimal_idx] print(f"最优阈值: {optimal_threshold:.2f}") print(f"对应总成本: {min_cost:.0f}") print(f"此时Recall: {recall_score(y_true, (y_proba>=optimal_threshold).astype(int)):.3f}") print(f"此时Precision: {precision_score(y_true, (y_proba>=optimal_threshold).astype(int)):.3f}") return optimal_threshold # 使用示例（假设FP成本100元，FN成本10万元） # opt_thresh = find_optimal_threshold(y_val, y_proba_val, cost_fp=100, cost_fn=100000)

实操心得：在某保险理赔模型中，我们设定Cost_FP=200（人工复核费），Cost_FN=50000（骗保损失）。算法给出最优阈值0.32，Recall=88%，Precision=62%。业务方初看Precision偏低，但算账发现：原0.5阈值下月均损失127万，新阈值下月均损失83万——降本44万/月。用钱说话，比Accuracy数字有力得多。

4.3 部署层：上线即监控的“三色灯”机制

模型上线不是终点，而是监控起点。我推行“三色灯”实时监控：

指标	绿色（正常）	黄色（预警）	红色（熔断）
Recall	≥ 目标值-2%	< 目标值-2% 且 >-5%	< 目标值-5%
Precision	≥ 目标值-5%	< 目标值-5% 且 >-10%	< 目标值-10%
Prediction Drift	PSI < 0.1	PSI 0.1~0.25	PSI > 0.25
Latency 95th	< 200ms	200ms~500ms	> 500ms

其中PSI（Population Stability Index）检测数据分布漂移：
PSI = Σ[(Actual% - Expected%) * ln(Actual%/Expected%)]
当PSI>0.25，说明线上数据分布已显著偏离训练数据，模型可能失效。

def calculate_psi(expected, actual, n_bins=10): """计算PSI，expected和actual为概率数组""" expected_percents = np.histogram(expected, bins=n_bins)[0] / len(expected) actual_percents = np.histogram(actual, bins=n_bins)[0] / len(actual) psi_value = 0 for i in range(n_bins): if expected_percents[i] == 0: continue if actual_percents[i] == 0: psi_value += expected_percents[i] * np.log(0.001 / expected_percents[i]) else: psi_value += (actual_percents[i] - expected_percents[i]) * np.log( actual_percents[i] / expected_percents[i] ) return psi_value # 示例：监控线上预测概率分布漂移 # psi = calculate_psi(train_proba, online_proba)

注意：所有监控指标必须接入企业级告警系统（如Prometheus+AlertManager），黄色预警自动触发钉钉群消息，红色熔断自动回滚至前一版本模型。模型不是部署完就结束，而是进入7x24小时监护状态。

5. 血泪教训：那些让95% Accuracy瞬间破产的典型问题

5.1 问题1：测试集污染——最隐蔽的自杀式操作

现象：模型在测试集Accuracy 95%，上线后跌至70%。
根因：测试集被无意中用于特征工程。例如：

用整个数据集（含测试集）计算年龄分箱的边界值
用全部数据标准化（fit_transform整个df，而非仅train）
特征选择时用SelectKBest对全量数据打分

后果：模型在测试集上看到“未来信息”，性能虚高。修复后Accuracy必然下降，但这是健康的下降。

排查技巧：检查所有fit()操作是否只在训练集上调用。用以下代码自检：

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() # ✅ 正确：只在训练集fit scaler.fit(train_df[features]) train_scaled = scaler.transform(train_df[features]) test_scaled = scaler.transform(test_df[features]) # 仅transform，不fit # ❌ 错误：在全量数据fit # scaler.fit(df[features]) # 这会导致泄漏！

5.2 问题2：类别编码陷阱——字符串标签的隐形炸弹

现象：文本分类模型Accuracy 94%，但对新出现的类别（如新品牌名）完全失效。
根因：使用LabelEncoder对字符串标签编码，而未保存编码映射。上线时遇到训练集未见过的标签，直接报错或乱码。

解决方案：永远用sklearn.preprocessing.OrdinalEncoder或category_encoders库，并持久化编码器：

import joblib from sklearn.preprocessing import OrdinalEncoder encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1) train_encoded = encoder.fit_transform(train_df[['category']]) joblib.dump(encoder, 'category_encoder.pkl') # 必须保存！ # 上线时加载 encoder_loaded = joblib.load('category_encoder.pkl') online_encoded = encoder_loaded.transform(online_df[['category']])

5.3 问题3：采样悖论——SMOTE过采样的甜蜜毒药

现象：对少数类过采样后，Accuracy升至96%，但线上Recall暴跌。
根因：SMOTE生成的合成样本过于理想化，与真实少数类分布存在鸿沟。模型学到的是“人造规律”，而非真实模式。

实测对比：在某电信欠费预测项目中，
无采样：Recall=72%, Precision=68%
SMOTE过采样：Accuracy=95.3%, 但Recall=61%, Precision=52%
改用Class Weight（损失函数加权）：Recall=78%, Precision=71%
结论：优先用class_weight或focal loss，慎用SMOTE。

5.4 问题4：阈值幻觉——0.5不是宇宙真理

现象：模型输出概率[0.49, 0.51, 0.52]，业务方坚持“必须>0.5才算正样本”。
根因：0.5阈值仅在正负样本均衡且代价相等时成立。在不平衡数据中，最优阈值常为0.1~0.3。

破局方法：用业务语言沟通。不要说“阈值应设0.23”，而说：“设0.23时，每100个真实高风险客户，我们能抓到89个（Recall=89%），同时减少37%的无效人工核查（FP降37%）。您希望优先保哪边？” —— 把技术参数翻译成业务损益。

5.5 问题5：指标孤岛——Accuracy与其他指标的割裂

现象：模型迭代中Accuracy从92%升至95%，但业务方抱怨效果变差。
根因：只优化Accuracy，导致Precision/Recall失衡。例如：

Accuracy↑：因TN大幅增加（更多正常样本被正确识别）
但Recall↓：因FN增加（更多问题样本被漏掉）

解决方案：建立指标联动看板。以下SQL可实时监控：

SELECT DATE(event_time) as date, AVG(CASE WHEN pred=1 AND label=1 THEN 1 ELSE 0 END) / NULLIF(AVG(CASE WHEN label=1 THEN 1 ELSE 0 END),0) as recall, AVG(CASE WHEN pred=1 AND label=1 THEN 1 ELSE 0 END) / NULLIF(AVG(CASE WHEN pred=1 THEN 1 ELSE 0 END),0) as precision, AVG(CASE WHEN pred=label THEN 1 ELSE 0 END) as accuracy FROM model_predictions WHERE event_time >= CURRENT_DATE - INTERVAL '7 days' GROUP BY DATE(event_time) ORDER BY date;

最后分享一个小技巧：每次向业务方汇报，永远把Accuracy放在最后一页，且字号调小。首页大标题必须是：“本次迭代使漏检率降低X%，预计每月减少损失Y万元”。让业务语言成为你的第一张名片。毕竟，当你的模型在拯救生命、守护资产、保障生产时，那个漂亮的95% Accuracy，不过是它沉默的影子而已。