当前位置：首页 > news >正文

R语言箱线图深度解析：从统计原理到业务决策

news 2026/6/16 4:38:15

1. 项目概述：用R语言画箱线图，不是调个函数就完事

“Box Plot in R Tutorial”这个标题看起来平平无奇，像是教科书里一页翻过去就忘的入门小节。但我在带数据分析团队做客户交付的十年里，反复发现一个现象：83%的R新手能跑通boxplot()，却在真实项目中把箱线图用错、读错、甚至误判关键业务信号——比如把正常波动当异常值剔除，导致模型训练数据失真；又或者在汇报PPT里并排贴了5张箱线图，领导问“哪一组分布更集中”，全场哑然。箱线图从来不是“画出来就行”的装饰性图表，它是用五个数字（最小值、第一四分位数Q1、中位数、第三四分位数Q3、最大值）压缩整套分布信息的精密仪表盘。它背后藏着IQR（四分位距）、上下须界计算逻辑、异常值判定阈值这些硬核统计规则。你调boxplot(mtcars$mpg)那一行代码，R默认用的是Tukey法则：下须 = Q1 − 1.5×IQR，上须 = Q3 + 1.5×IQR，超出这个范围的点才标为异常值。但如果你分析的是医院ICU患者心率数据，1.5倍IQR可能太敏感，连续3次测量值稍高就被标红，而临床医生知道这是镇静剂代谢期的合理波动；反过来，分析金融高频交易延迟数据时，1.5倍IQR又可能太宽松，真正危害系统稳定性的毫秒级尖峰被淹没在“正常须内”。所以这篇教程不讲“怎么画”，而是带你亲手拆开R中箱线图的每个齿轮：从原始数据如何被分组、四分位数怎么算（注意R有9种算法！type=7是默认，但type=2在小样本时更稳健）、须界如何动态调整、异常值点如何被识别和着色，再到如何用ggplot2重写底层逻辑实现定制化。适合三类人：刚学R的数据分析新人（避开常见陷阱），正在写毕业论文需要规范作图的研究生（满足期刊对箱线图标注的硬性要求），以及每天要给业务方解释“为什么这组数据看起来离散但其实很健康”的数据工程师。你不需要背公式，但得知道R在你敲下回车键的0.3秒里，到底做了哪些不可见的判断。

2. 箱线图设计原理与R实现机制深度拆解

2.1 为什么非得用箱线图？它解决的不是“长什么样”，而是“稳不稳”

很多人把箱线图当成直方图或密度图的简化版，这是根本性误解。直方图告诉你“数据集中在哪几个区间”，密度图告诉你“概率分布的光滑形状”，而箱线图回答的是三个更锋利的问题：中心在哪？离散程度多大？有没有危险信号？这三个问题直接对应业务决策。比如电商做促销效果复盘，A组用户平均下单金额比B组高15%，但箱线图显示A组中位数只高5%，且上须极长——说明高增长全靠头部10%大客户拉动，长尾用户实际流失了；B组虽然均值低，但箱体窄、须短，说明转化质量更均衡。这种洞察，均值和标准差给不了，必须靠箱线图的五数概括（five-number summary）。R的boxplot()函数之所以成为统计绘图基石，正因为它把这套逻辑封装得既严谨又灵活。它不依赖正态分布假设（t检验需要），也不怕小样本（n=12也能画），还能天然处理分组比较——boxplot(mpg ~ cyl, data = mtcars)一行就完成按气缸数分组的对比，背后是R自动调用split()和quantile()的组合拳。我见过太多人用barplot(tapply(mtcars$mpg, mtcars$cyl, mean))画柱状图代替箱线图，结果把“B组数据整体右偏”误读成“B组性能更好”，因为柱状图只显示均值，掩盖了B组有大量低油耗异常值的事实。箱线图的箱体高度（IQR）就是鲁棒的离散度指标，它不受极端值影响，而标准差会被一个离群点拉高2倍以上。这就是为什么R默认用中位数而非均值作为箱体横线——中位数对异常值不敏感，是真正的“抗干扰中心”。

2.2 R中箱线图的四大核心计算模块与参数映射

R绘制箱线图不是黑箱，它由四个可编程模块组成，每个模块都对应明确的统计逻辑和可调参数：

分位数计算模块（Quantile Engine）
quantile(x, probs = c(0.25, 0.5, 0.75), type = 7)是箱线图的基石。R提供9种分位数算法（type=1到type=9），默认type=7（线性插值法），适用于大样本；但小样本（n<20）时type=2（取观测值）更稳定。例如c(1,2,3,4,5)的Q1，type=7算出2.5，type=2直接取第2个数2。你在boxplot()里看不到type参数，但它藏在底层——当你用stats::boxplot.stats()提取原始统计量时，coef参数会调用这个引擎。
须界计算模块（Whisker Engine）
coef参数（默认1.5）控制须的长度：lower_whisker = Q1 - coef * IQR，upper_whisker = Q3 + coef * IQR。这不是固定规则，而是Tukey提出的启发式阈值。coef=1.5意味着把距离箱体1.5倍IQR以外的点视为“可能异常”，coef=3则更严格（常用于工业质检）。R允许你传入range=0关闭须界计算，让须直接延伸到最小/最大值，这时箱线图退化为“五数概括图”，适合教学演示。
异常值识别模块（Outlier Detection）
所有落在须界外的点都被标记为异常值，存储在out向量中。关键点在于：异常值不参与须界计算。也就是说，先算Q1/Q3/IQR，再定须界，最后标出须外的点。这个顺序不能颠倒，否则会陷入“鸡生蛋”循环。R的boxplot.stats()返回out和group（分组索引），让你能反查这些点在原始数据中的位置，这对后续数据清洗至关重要。
图形渲染模块（Plotting Engine）
boxplot()本身是S3泛型函数，调用graphics:::boxplot.default()。它把前三个模块输出的stats矩阵（5行：下须、Q1、中位数、Q3、上须）和out向量，转换为polygon()和points()的底层绘图指令。这也是为什么boxplot()不能直接改颜色——它生成的是基础图形对象，要调色必须用col、border等参数，或转向ggplot2的图层化体系。

提示：不要迷信默认值。我处理过一个物流时效数据集（n=187），用默认coef=1.5标出23个“异常值”，但业务方确认其中17个是春节快递高峰的合理延迟。改用coef=2.2后，异常值降为6个，全部对应真实的分拣系统故障。计算coef的合理值有个经验公式：coef = 1.5 * exp(-0.01 * n)，样本越小，系数越接近1.5；样本越大，可适度放宽。

2.3 ggplot2 vs base R：两种哲学，三种使用场景

R中有两套主流箱线图实现：base R的boxplot()和ggplot2的geom_boxplot()。它们不是简单替代关系，而是代表两种设计哲学：

base R (boxplot)：面向统计学家的“计算优先”范式
它把统计计算和图形渲染绑在一起，优点是快（boxplot(mtcars$mpg)毫秒级）、内存省（不存中间对象），缺点是定制难。你想把中位数线加粗？得用par(lwd=2)全局设置；想给不同组用不同填充色？必须手动循环boxplot(..., col=c("red","blue"))。它适合快速探索、脚本化报告生成，或嵌入Shiny应用的实时响应场景。
ggplot2 (geom_boxplot)：面向可视化工程师的“图层优先”范式
它把数据、统计变换、几何对象、标度、主题完全解耦。geom_boxplot()只负责画箱，stat_summary()可替换中位数为均值，scale_fill_manual()自由配色，theme_minimal()一键换肤。更重要的是，它支持position_dodge()处理分组重叠，coord_flip()横置图表，这些在base R里要写几十行坐标转换代码。但代价是启动慢、内存占用高（构建完整图层对象）。

场景	推荐方案	原因
临时检查数据质量（如读入新CSV后看分布）	`boxplot(df$col)`	300ms内出图，不需加载额外包
学术论文投稿（需精确控制字体/尺寸/标注）	`ggplot(df, aes(x=group, y=value)) + geom_boxplot() + theme_classic()`	可导出300dpi EPS矢量图，满足Nature期刊要求
交互式仪表盘（用户可筛选分组、切换指标）	`plotly::ggplotly()`包装`ggplot2`图	保留ggplot2的定制性，叠加hover提示和缩放

我坚持一个原则：用base R做计算，用ggplot2做呈现。先用boxplot.stats()提取stats和out，验证异常值逻辑是否符合业务，再把结果喂给ggplot2画最终图。这样既保证统计严谨性，又不失视觉表现力。

3. 核心实操步骤与关键参数配置详解

3.1 从零开始：用mtcars数据集手把手走通全流程

我们以R内置的mtcars数据集为例，目标是清晰展示“不同气缸数（cyl）对油耗（mpg）的影响”。这不是为了画图而画图，而是模拟一次真实的数据审查任务：业务方质疑“4缸车省油是营销话术”，我们需要用箱线图给出客观证据。

第一步：数据准备与初步探查

# 加载数据并检查结构 data(mtcars) str(mtcars[, c("mpg", "cyl")]) # 'data.frame': 32 obs. of 2 variables: # $ mpg: num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... # $ cyl: num 6 6 4 6 8 6 8 4 4 6 ... # 关键检查：cyl只有3个水平（4,6,8），适合分组箱线图 table(mtcars$cyl) # 4:11, 6:7, 8:14 —— 样本量足够

注意：cyl是数值型，但作为分组变量必须是因子。R的boxplot()会自动转换，但ggplot2要求显式转换，否则报错。这是新手踩坑第一高发区。

第二步：base R基础箱线图与参数精调

# 最简版本（但已暴露问题） boxplot(mpg ~ cyl, data = mtcars) # 问题：x轴标签是数字"4,6,8"，业务方看不懂；中位数线太细；没有标题

现在逐个修复：

# 专业级base R箱线图 boxplot( mpg ~ factor(cyl), # 强制转因子，避免警告 data = mtcars, main = "Cylinder Count vs Fuel Efficiency (MPG)", # 主标题 xlab = "Engine Configuration", # x轴标签 ylab = "Miles Per Gallon (MPG)", # y轴标签 col = c("#E69F00", "#56B4E9", "#009E73"), # 按cyl顺序配色：4缸橙、6缸蓝、8缸绿 border = "black", # 箱体边框 notch = TRUE, # 添加凹槽（中位数置信区间） outline = TRUE, # 显示异常值（默认TRUE，显式写出更清晰） pars = list(boxwex = 0.5, # 箱体宽度（默认0.8，0.5更紧凑） staplewex = 0.2, # 须端横线宽度 outcex = 0.8) # 异常值点大小（默认1） ) # 添加自定义图例（base R没有自动图例） legend("topright", legend = c("4-Cylinder", "6-Cylinder", "8-Cylinder"), fill = c("#E69F00", "#56B4E9", "#009E73"), bty = "n") # 无边框图例

这段代码产出的图已具备专业报告水准：颜色区分直观，凹槽显示中位数95%置信区间（凹槽重叠表示中位数差异不显著），异常值点大小适中不抢眼。但还缺关键一步——验证异常值是否合理。

第三步：提取并分析异常值

# 获取箱线图底层统计量 bp_stats <- boxplot.stats(mtcars$mpg[mtcars$cyl == 4]) print(bp_stats) # $stats: [1] 21.4 22.8 26.0 30.4 33.9 # 下须、Q1、中位数、Q3、上须 # $n: 11 # 样本量 # $conf: [1] 23.5 28.5 # 中位数置信区间（凹槽边界） # $out: 21.0 # 异常值：21.0（Datsun 710车型） # 查原始数据确认 mtcars[mtcars$cyl == 4 & mtcars$mpg == 21.0, c("model", "mpg", "cyl")] # model: Datsun 710, mpg:21.0, cyl:4 # 业务解读：该车是轻量化设计，油耗略低于同组均值，但仍在工程公差内，不应剔除。

这个过程揭示了箱线图的核心价值：它不仅是图，更是数据审计工具。通过$out你能定位每个异常值，结合业务知识判断是真异常（需清洗）还是合理变异（需保留）。

3.2 ggplot2进阶定制：从合格到惊艳的七步法

当需要发表或汇报时，ggplot2的精细控制力无可替代。以下是制作期刊级箱线图的七步法，每步解决一个实际痛点：

步骤1：数据预处理与因子排序

library(ggplot2) # 创建有序因子，确保x轴按4→6→8排列（默认按字母序会变成4,6,8但R可能乱序） mtcars$cyl_f <- factor(mtcars$cyl, levels = c(4,6,8), labels = c("4-Cylinder", "6-Cylinder", "8-Cylinder"))

步骤2：基础箱线图+分组着色

p <- ggplot(mtcars, aes(x = cyl_f, y = mpg, fill = cyl_f)) + geom_boxplot(alpha = 0.7) + # 半透明避免重叠 scale_fill_manual(values = c("#E69F00", "#56B4E9", "#009E73")) + labs(title = "Engine Configuration vs Fuel Efficiency", x = "Engine Configuration", y = "Miles Per Gallon (MPG)")

步骤3：强化关键统计量

# 添加中位数点（红色三角形）和均值点（蓝色圆圈），凸显中心趋势差异 p <- p + stat_summary(fun = "median", geom = "point", shape = 17, size = 4, color = "red") + # 中位数 stat_summary(fun = "mean", geom = "point", shape = 16, size = 4, color = "blue") # 均值

步骤4：自定义须界与异常值

# 用coef=2.0放宽须界（业务方确认8缸车高油耗属合理工况） p <- p + geom_boxplot(coef = 2.0, alpha = 0.7) + # 重绘箱线图 geom_jitter(width = 0.1, alpha = 0.6, color = "gray50") # 叠加抖动散点，看数据密度

步骤5：添加统计标注

# 计算每组IQR和中位数，添加文本标注 stats_df <- mtcars %>% group_by(cyl_f) %>% summarise( median_mpg = median(mpg), iqr_mpg = IQR(mpg), n = n() ) %>% ungroup() p <- p + geom_text(data = stats_df, aes(x = cyl_f, y = median_mpg + 1, label = paste("Med:", round(median_mpg,1), "\nIQR:", round(iqr_mpg,1), "\nn:", n)), hjust = 0.5, vjust = -0.5, size = 3.5, fontface = "bold")

步骤6：主题精修与导出设置

p <- p + theme_minimal(base_size = 12, base_family = "Arial") + theme( plot.title = element_text(hjust = 0.5, size = 14, face = "bold"), axis.title = element_text(size = 12), legend.position = "none", # 图例已由fill隐含，移除冗余 panel.grid.minor = element_blank(), panel.grid.major.y = element_line(color = "gray90") ) + scale_y_continuous(expand = expansion(mult = c(0.05, 0.05))) # 上下留白5% # 导出300dpi PNG（网页用）和EPS（印刷用） ggsave("mpg_cyl_boxplot.png", p, width = 8, height = 6, dpi = 300) ggsave("mpg_cyl_boxplot.eps", p, width = 8, height = 6)

步骤7：添加业务解读箭头（关键！）

# 在图上直接标注业务洞察 p <- p + annotate("segment", x = 1, xend = 2, y = 26, yend = 26, arrow = arrow(length = unit(0.02, "npc")), color = "red") + annotate("text", x = 1.5, y = 26.5, label = "4缸车油耗最集中\nIQR仅4.6 MPG", color = "red", size = 3.5, fontface = "bold")

这七步产出的图，已超越单纯的数据展示，成为业务沟通媒介。红色箭头直指核心结论，让非技术人员一眼抓住重点。

3.3 高阶技巧：处理现实世界中的三大棘手场景

场景1：小样本（n<10）的箱线图可信度提升
当分析某款新车的10次路试油耗数据时，boxplot()默认的type=7分位数算法会因插值产生偏差。解决方案：

# 改用type=2（取观测值），并添加样本量标注 small_data <- c(28.1, 27.5, 29.3, 26.8, 28.7, 27.9, 29.1, 26.5, 28.3, 27.2) bp_small <- boxplot.stats(small_data, type = 2) # 手动标注n值 text(x = 1, y = bp_small$stats[3] + 0.5, labels = paste("n =", length(small_data)), pos = 3)

实操心得：小样本箱线图务必标注n值，并在报告中注明“分位数采用type=2算法，避免插值偏差”。

场景2：多维度分组（如cyl × am）的嵌套箱线图
mtcars中am（变速箱类型）与cyl交叉，需展示“4缸手动挡 vs 4缸自动挡”的对比：

# 用interaction()创建复合因子 mtcars$cyl_am <- interaction(mtcars$cyl, mtcars$am, sep = " / ", lex.order = TRUE) # 4 / 0, 4 / 1, 6 / 0, 6 / 1, 8 / 0, 8 / 1 p_nested <- ggplot(mtcars, aes(x = cyl_am, y = mpg, fill = cyl_am)) + geom_boxplot() + scale_x_discrete(labels = function(x) str_replace(x, " / 0", " (Manual)")) + theme(axis.text.x = element_text(angle = 45, hjust = 1))

注意：interaction()的lex.order=TRUE确保排序按cyl主序，避免“8 / 0”排在“4 / 1”前面。

场景3：时间序列箱线图（按月份分组）
分析一年12个月的服务器延迟数据，需保持x轴时间顺序：

# 创建有序月份因子 delay_data$month_f <- factor(delay_data$month, levels = month.abb, # Jan, Feb, ..., Dec labels = month.abb) ggplot(delay_data, aes(x = month_f, y = latency_ms)) + geom_boxplot() + scale_x_discrete(limits = month.abb) # 强制按月份顺序

提示：永远用factor()显式定义顺序，别依赖sort()或字符串自然序。

4. 常见问题排查与独家避坑指南

4.1 八大高频报错与根因诊断表

报错信息	根本原因	一招解决	我的血泪教训
`Error in boxplot.default(x, ...): invalid first argument`	传入`boxplot()`的不是向量或公式，而是数据框	`boxplot(df$col)`或`boxplot(col ~ group, data = df)`	曾把整个`mtcars`数据框传进去，R试图对所有列求分位数，报错后花了20分钟定位
`Warning: Removed 3 rows containing missing values (geom_boxplot)`	数据含NA，`geom_boxplot()`默认删除	`na.rm = TRUE`参数或`df <- na.omit(df)`	在客户数据中发现23%的NA，没处理直接画图，异常值分析全错，返工3天
`Error: Aesthetics must be either length 1 or the same as the data (12): x`	`aes()`中x或y映射了长度不匹配的向量	检查`aes(x = factor(col), y = value)`中col和value是否同长	用`dplyr::mutate()`新增列后忘了`ungroup()`，分组长度错乱，图歪斜
`Error in FUN(X[[i]], ...) : invalid 'type' (character) in 'switch'`	`type`参数传了字符串如`"7"`而非数字`7`	`type = 7`（不加引号）	R文档里写`type=7`，我抄成`type="7"`，调试1小时才发现是类型错误
`Warning: Computation failed in 'stat_boxplot()'`	分组后某组样本量为0（如`filter(cyl==12)`）	`drop = TRUE`in`scale_x_discrete()`or`fct_drop()`	业务方要求加“12缸”组，数据里根本没有，图直接崩溃，客户会议前10分钟救火
`Error: Discrete value supplied to continuous scale`	连续变量误当分类变量（如`aes(x = mpg)`）	`aes(x = cut(mpg, 3))`或`aes(x = factor(round(mpg)))`	把油耗当x轴分组，想看“油耗区间分布”，结果画出32个箱子，图密不透风
`Warning: position_dodge requires non-overlapping x intervals`	`position_dodge()`时x轴不是因子或水平重复	`aes(x = interaction(group1, group2))`或`x = factor(x)`	两个分组变量未交互，`dodge`失效，箱子堆叠成一条线，以为代码坏了
`Error: Cannot add ggproto objects together. Did you forget to add this object to a ggplot object?`	`+`号后跟了非ggplot对象（如`print(p)`）	检查每行末尾是否有`+`，最后一行不能有`+`	复制粘贴代码时多了一个`+`，R一直等下一行，终端卡死，强制重启

提示：遇到报错，第一反应不是谷歌，而是运行traceback()。它会显示错误发生的函数调用链，90%的问题能定位到具体参数。

4.2 业务场景中的五大认知误区与纠正方案

误区1：“箱线图能证明因果关系”
错误做法：画出“广告投入 vs 销售额”箱线图，指着8缸车组说“投得多卖得多”。
纠正：箱线图只显示关联，不证明因果。必须补充散点图+相关系数，或用回归分析控制混杂变量。我在电商项目中曾因此被业务方质疑，后来补了lm(sales ~ ad_spend + season_factor, data=df)才过关。

误区2：“异常值必须删除”
错误做法：看到$out里的点，直接df <- df[!df$value %in% bp$out, ]。
纠正：异常值是线索，不是垃圾。先用which()定位原始行号，再结合业务日志判断。物流数据中，一个“超长延迟”异常值，查日志发现是台风导致港口瘫痪，这恰恰是风险预警信号。

误区3：“箱体越窄越好”
错误做法：优化KPI时只盯着IQR缩小，忽略中位数漂移。
纠正：IQR和中位数要联合看。某App推送打开率，IQR从15%缩到8%，但中位数从22%降到18%——说明优化让多数人体验变差，只提升了头部用户的稳定性。正确KPI应是“中位数≥20% 且 IQR≤10%”。

误区4：“用均值线代替中位数线”
错误做法：geom_boxplot()后加stat_summary(fun="mean")，把均值当中心。
纠正：均值受异常值扭曲。mtcars中8缸车均值15.1，中位数15.2，看似接近；但若加入一辆油耗35MPG的改装车，均值跳到16.3，中位数仍是15.2。业务决策应基于鲁棒中心。

误区5：“多组箱线图必须同尺度”
错误做法：并排画10组箱线图，y轴强制统一范围，导致小范围组（如IQR=0.5）的箱体扁平不可见。
纠正：用facet_wrap(~group, scales = "free_y")为每组独立y轴。我在医疗设备报警阈值分析中，血压组IQR=15mmHg，心率组IQR=8bpm，强制同尺度会让心率变化淹没不见。

4.3 性能优化：万行数据下的秒级响应技巧

当处理百万行日志数据（如server_logs.csv）时，boxplot()可能卡顿。我的优化清单：

预聚合替代原始数据
不传原始数据，传分位数摘要：

# 原始（慢）：boxplot(latency ~ server_id, data = logs) # 优化（快10倍）： summary_df <- logs %>% group_by(server_id) %>% summarise( q1 = quantile(latency, 0.25, type = 2), med = median(latency), q3 = quantile(latency, 0.75, type = 2), iqr = IQR(latency), lower = q1 - 1.5 * iqr, upper = q3 + 1.5 * iqr ) # 用geom_rect()手动画箱

禁用图形元素

# 关闭耗时的图形效果 boxplot(latency ~ server_id, data = logs, outline = FALSE, # 不画异常值点 notch = FALSE, # 不画凹槽 border = NA) # 无边框

采样策略
对n>10000的数据，用dplyr::sample_n()随机采样：
```
set.seed(123) sampled_logs <- logs %>% sample_n(5000) boxplot(latency ~ server_id, data = sampled_logs)
```
经验：5000样本对IQR估计误差<0.5%，远小于业务容忍度。

并行计算
用parallel包加速分组计算：

library(parallel) cl <- makeCluster(detectCores() - 1) results <- parLapply(cl, split(logs, logs$server_id), function(x) boxplot.stats(x$latency)) stopCluster(cl)

5. 从箱线图到业务决策：一个完整项目复盘

去年帮一家新能源车企分析电池衰减数据，项目全程印证了箱线图作为“决策仪表盘”的价值。背景：客户发现冬季续航缩水投诉激增，但实验室测试数据未超标。我们拿到12万辆车的真实行驶数据（每车100条记录，含温度、SOC、续航里程等）。

第一阶段：用箱线图定位问题域

# 按温度分组（-20℃, -10℃, 0℃, 10℃, 20℃） temp_bins <- cut(df$temp, breaks = c(-30,-20,-10,0,10,20,30), labels = c("-20℃以下","-20~-10℃","-10~0℃","0~10℃","10~20℃","20℃以上")) df$temp_group <- temp_bins p_temp <- ggplot(df, aes(x = temp_group, y = range_loss_pct)) + geom_boxplot(outlier.shape = NA) + # 先隐藏异常值，聚焦箱体 geom_jitter(width = 0.15, alpha = 0.3)

图显示：-20℃以下组IQR达18%，而20℃以上组仅5%——低温下衰减离散度暴增，说明不是所有车都一样差，而是存在子群体。

第二阶段：分层钻取找根因

# 发现-20℃组中，使用快充的车IQR更大 df$fast_charge <- ifelse(df$charge_method == "DC_fast", "Yes", "No") p_drill <- ggplot(df[df$temp_group == "-20℃以下", ], aes(x = fast_charge, y = range_loss_pct, fill = fast_charge)) + geom_boxplot() + stat_summary(fun = "mean", geom = "point", color = "red", size = 4)

结果：快充组中位数衰减32%，非快充组22%，且快充组箱体更高——证实快充加剧低温衰减。

第三阶段：制定行动方案
基于箱线图洞察，我们建议：