当前位置：首页 > news >正文

JMeter压测过程中的四维监控与七步根因排查法

news 2026/5/26 11:06:32

1. 这不是“点几下就能出报告”的玩具，而是需要全程盯梢的精密仪器

很多人第一次用Jmeter做压测，是抱着“装好软件→写个脚本→点开始→等结果”的预期来的。我见过太多团队在正式压测前信心满满，结果一跑起来就卡在“线程数设多少才合理”“响应时间突增到底是接口慢还是网络抖动”“聚合报告里90%线程耗时飙升但错误率却是0%”这类问题上，最后只能把结果截图发到群里问：“这个图正常吗？”——其实不是图的问题，是压测过程本身被当成了黑箱操作。

Jmeter基础篇（18）压测过程中的注意事项，这个标题里的“注意事项”三个字，分量比你想象中重得多。它不指代某个配置项的勾选提示，也不是脚本语法的易错点汇总，而是贯穿整个压测生命周期的一套动态观察逻辑：从脚本启动那一刻起，你的眼睛、耳朵、经验直觉，必须和Jmeter进程、被测服务、监控系统、网络链路同步呼吸。比如，当你看到Active Threads曲线刚爬升到500就突然断崖式下跌，第一反应不该是“是不是脚本写错了”，而应立刻切到Linux终端敲top -p $(pgrep -f "jmeter.*.jmx")看JVM堆内存是否已触发Full GC；再比如，当响应时间P95从200ms跳到1200ms，但服务器CPU使用率只有35%，那大概率不是代码瓶颈，而是数据库连接池耗尽导致请求排队——这些判断，没有一行代码能自动告诉你，全靠你在压测过程中持续、结构化地采集和交叉验证数据。

这篇内容面向三类人：刚学完Jmeter元件用法、正准备第一次实战压测的测试新人；已经能跑通脚本但总被开发质疑“结果不准”的中级测试工程师；以及负责搭建压测平台、需要制定标准化压测流程的测试负责人。它不讲怎么添加HTTP请求，也不教BeanShell怎么写，只聚焦一件事：当Jmeter开始运行后，你该看什么、怎么看、看到异常后下一步该查什么、为什么这个动作比改一个线程组参数更重要。所有结论都来自我过去八年在电商大促、金融秒杀、政务平台等17次真实压测现场踩出的坑——有些坑，改一个JVM参数就能绕过；有些坑，得重写整个监控埋点方案才能根治。

2. 压测不是单点冲刺，而是四维协同的实时作战地图

真正的压测过程，从来不是Jmeter单机在战斗。它是一场涉及客户端（Jmeter自身）、网络链路、服务端（被测应用+中间件+DB）、监控体系四个维度的实时协同。任何一个维度的数据缺失或误读，都会让压测结果失去决策价值。我曾参与某银行核心交易系统的压测，前期所有指标看起来完美：TPS稳定在800，错误率0%，响应时间P95<300ms。直到上线前一周，运维同事调出APM工具里的线程栈快照，才发现Jmeter所在机器的TCP重传率高达12%——原来压测机网卡驱动版本太旧，高并发下丢包严重，导致大量请求超时重发，而Jmeter默认把重发请求也计入成功响应，这才造就了“虚假繁荣”。这件事让我彻底放弃“只看Jmeter报告”的惯性思维，转而建立一套四维联动的压测观测框架。

2.1 客户端维度：Jmeter不是透明管道，它自身就是最大变量

很多人忽略一个基本事实：Jmeter本身是个Java应用，它的性能表现直接受限于JVM配置、操作系统资源、硬件能力。当线程数超过一定阈值（通常单机>1000），Jmeter自身的CPU和内存开销会急剧上升，甚至出现“自己把自己压垮”的情况。这不是理论推演，而是实测数据：

线程数	Jmeter进程CPU占用率	JVM堆内存使用率	实际发出请求数/目标请求数	P95响应时间偏差
500	32%	45%	100%	+5%
1200	89%	92%	83%	+67%
2000	100%（频繁GC）	99%（OOM风险）	61%	+142%

这张表的数据来自我们用同一台8核16G的压测机对同一个登录接口的实测。关键发现是：当线程数从500升到1200，Jmeter自身CPU占用率从32%飙到89%，意味着近90%的CPU时间花在了调度线程、序列化请求、解析响应上，而非真正发送网络包。此时你看到的“TPS 1200”，其实是Jmeter在极限压榨自身资源后勉强维持的吞吐，根本不能反映被测服务的真实能力。

因此，压测前必须做Jmeter自身基线测试：用空循环（仅含Debug Sampler）跑满目标线程数，观察JVM GC频率、CPU占用、内存增长曲线。如果Full GC间隔小于5分钟，或Young GC每秒超过3次，就必须调整JVM参数。我们团队的标准配置是：

-Xms4g -Xmx4g -XX:+UseG1GC -XX:MaxGCPauseMillis=200 -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/opt/jmeter/logs/

特别注意-XX:MaxGCPauseMillis=200——这强制G1垃圾收集器将单次停顿控制在200ms内，避免GC导致线程阻塞，进而影响请求发送节奏。很多团队用默认的-Xms1g -Xmx1g，在高并发下GC停顿动辄1-2秒，结果就是Jmeter发送请求的节奏像醉汉走路，TPS曲线锯齿状波动，这种数据连参考价值都没有。

提示：永远不要相信单台Jmeter机器能模拟万级并发。我们内部规定，单机线程数上限为CPU核心数×200（如8核机器最多1600线程），超过此数必须分布式压测。曾有团队强行用单机跑5000线程，结果Jmeter进程直接被Linux OOM Killer干掉，日志里只留下一句Killed process 12345 (java) total-vm:12345678kB, anon-rss:8765432kB, file-rss:0kB——这是系统在替你做决定。

2.2 网络链路维度：看不见的丢包和延迟，才是压测结果的最大污染源

压测流量本质是网络数据包。当Jmeter向服务端发送请求时，每个包都要经过网卡驱动、TCP协议栈、物理网线、交换机、防火墙、负载均衡器……任何一环的微小异常，都会被高并发放大成灾难性后果。最典型的案例是TCP TIME_WAIT状态堆积。我们在某政务云平台压测时，Jmeter每秒发起2000个HTTPS请求，服务端返回后，Jmeter所在机器的netstat -an | grep TIME_WAIT | wc -l数值在3分钟内突破65535（Linux默认端口范围），导致新连接无法建立，Jmeter日志里全是java.net.BindException: Address already in use。表面看是Jmeter报错，根因却是操作系统未优化网络参数。

解决方案不是换机器，而是调整内核参数：

# 编辑 /etc/sysctl.conf net.ipv4.ip_local_port_range = 1024 65535 net.ipv4.tcp_tw_reuse = 1 net.ipv4.tcp_fin_timeout = 30 net.core.somaxconn = 65535 # 生效命令 sysctl -p

其中tcp_tw_reuse = 1最关键——它允许内核重用处于TIME_WAIT状态的socket，前提是对方发送了时间戳（TCP Timestamps）。这个参数不开，高并发短连接场景下，Jmeter很快就会被端口耗尽卡死。

另一个常被忽视的是MTU（最大传输单元）不匹配。当Jmeter所在网络MTU为1500，而中间某台交换机MTU为1400时，TCP分片会在交换机处发生，导致大量ICMP Fragmentation Needed包被丢弃。现象是：Jmeter显示请求成功，但服务端日志里根本没有对应请求记录。排查方法很简单：在Jmeter机器和被测服务机器上同时抓包，用Wireshark过滤icmp && icmp.type == 3 && icmp.code == 4，如果看到大量此类包，立刻检查全链路MTU一致性。

注意：压测前务必关闭Jmeter机器的IPv6。很多Linux发行版默认启用IPv6，而部分老旧中间件对IPv6支持不完善，会导致DNS解析缓慢或连接超时。执行echo "net.ipv6.conf.all.disable_ipv6 = 1" >> /etc/sysctl.conf && sysctl -p即可全局禁用。

2.3 服务端维度：别只盯着CPU，线程池和连接池才是真正的瓶颈开关

开发常说“我们接口逻辑很简单，不可能慢”，但压测时响应时间却一路飙升。这时候90%的概率，问题不在业务代码，而在基础设施层的资源池配置。以Java应用为例，Tomcat默认配置的maxThreads=200，意味着同一时刻最多处理200个请求。当Jmeter并发300时，多出的100个请求会在Tomcat的acceptCount队列里排队，默认值是100，所以前100个排队请求还能等，第101个开始就直接返回Connection Refused。但Jmeter默认把这类连接失败记为“错误”，如果你没开启“Keep Alive”，或者错误处理策略设为“继续”，这些失败请求可能被忽略，导致你误以为服务扛住了压力。

更隐蔽的是数据库连接池。HikariCP默认maximumPoolSize=10，Druid默认maxActive=8。当Jmeter并发500，每个请求平均需要2个DB连接（查用户+查订单），理论上需要1000个连接，但连接池只提供10个，结果就是所有请求都在等连接，响应时间P95从200ms暴涨到5000ms，而数据库CPU可能只有20%。这种情况下，看服务端CPU毫无意义，必须直奔连接池监控指标：HikariCP暴露的HikariPool-1.ActiveConnections和HikariPool-1.IdleConnections，Druid的DruidDataSource-1.ActiveCount和DruidDataSource-1.PoolingCount。

我们团队的硬性规定是：压测前必须拿到被测服务所有中间件的连接池、线程池、缓存池的实时监控图表，并设置告警阈值。例如，当ActiveConnections > maximumPoolSize × 0.8持续30秒，立即暂停压测。因为这意味着连接池已进入饥饿状态，后续所有性能数据都不可信。

2.4 监控体系维度：没有监控的压测，就像蒙眼开车

我见过最危险的压测现场，是运维只给了一台服务器的CPU和内存曲线，其他一概没有。当TPS骤降时，大家围着CPU曲线争论“是不是代码有死锁”，结果折腾两小时才发现，是Redis集群的某个节点磁盘IO等待时间（await）飙到了2000ms，而Redis监控面板被折叠在第三页标签里没人看。

完整的压测监控必须覆盖五层：

基础设施层：服务器CPU、内存、磁盘IO（await、%util）、网络IO（rx/tx bps、drop、errs）
中间件层：Tomcat线程池活跃数、Redis连接数/命中率/慢查询、MySQL QPS/TPS/Innodb_row_lock_time_avg
应用层：JVM GC次数/耗时、堆内存各区域使用率、线程状态（BLOCKED/WAITING数量）
业务层：核心接口成功率、平均响应时间、P95/P99、业务错误码分布（如库存不足、余额不足）
链路层：全链路Trace ID采样率、各Span耗时、DB/Cache/HTTP外部调用耗时

这五层数据必须时间对齐（建议统一用NTP校时），并能在同一时间轴上叠加展示。我们用Grafana+Prometheus+SkyWalking搭建的监控看板，左侧是Jmeter的TPS和错误率曲线，右侧是服务端各层指标，中间用垂直线标记压测阶段（预热期、加压期、稳压期、降压期）。当TPS下降时，一眼就能看出是哪一层指标先异动——如果是MySQL的Innodb_row_lock_time_avg先飙升，那就不用查代码，直接优化SQL加索引。

关键技巧：压测时务必开启Jmeter的Backend Listener，将实时指标（如activeThreads、startedThreads、endedThreads、responseTime）推送到InfluxDB。这样你就能在Grafana里把Jmeter的线程行为和服务端的资源消耗画在同一张图上，直观看到“当activeThreads冲到800时，MySQL的Threads_connected是否同步达到峰值”，这种因果关系图，比任何文字报告都有说服力。

3. 从“看到异常”到“定位根因”的七步排查链路

压测中最消耗时间的，不是设计脚本，而是当指标异常时，如何在海量数据中快速锁定根因。我总结了一套标准化的七步排查法，已在12个不同技术栈项目中验证有效。这套方法不依赖特定工具，核心是建立“现象→假设→验证→排除”的闭环思维。

3.1 第一步：确认异常是否真实存在，排除Jmeter自身干扰

所有排查必须从Jmeter自身状态开始。打开Jmeter的View Results Tree监听器（仅调试用，正式压测必须关闭！），随机抽样10个失败请求，重点看三件事：

响应码是否为非2xx/3xx：如果是429（Too Many Requests），说明被限流，不是服务问题；
响应体是否为空或包含明显错误信息：如{"code":500,"msg":"Connection refused"}，指向网络或服务宕机；
响应头中Date字段与本地时间差是否超过1秒：如果差3秒，说明Jmeter机器时钟严重漂移，所有时间相关指标（如响应时间）都不可信。

我们曾遇到一个诡异问题：Jmeter报告里错误率15%，但服务端日志完全没记录这些请求。最终发现是Jmeter机器NTP服务异常，时钟比服务端快了47秒，导致Jmeter发送的If-Modified-Since头时间戳远超服务端当前时间，Nginx直接返回304，而Jmeter把304当成错误（因脚本设置了“仅接受200”断言）。修复NTP后，错误率归零。

3.2 第二步：检查网络链路，用最小化复现验证

如果第一步没发现问题，立即进行网络诊断。不要直接看复杂监控，用最原始的方法：

在Jmeter机器上执行ping -c 10 <服务端IP>，看丢包率和延迟；
执行telnet <服务端IP> <端口>，测试TCP连接是否可达；
如果是HTTPS，执行openssl s_client -connect <服务端域名>:443 -servername <服务端域名>，看SSL握手是否成功。

这三步能在30秒内排除80%的网络问题。曾有个项目，Jmeter压测时大量超时，ping延迟正常，但telnet超时。最终发现是安全组规则只放行了HTTP端口，没放行HTTPS的443端口——因为测试环境用HTTP，生产环境切了HTTPS，而安全组没同步更新。

3.3 第三步：聚焦服务端资源，按“CPU→内存→磁盘→网络”顺序扫描

当网络通畅，问题必然在服务端。按资源消耗的“传染性”排序排查：

CPU异常高：用top -H -p <pid>看具体线程，再用jstack <pid> | grep 'java.lang.Thread.State'分析线程状态。如果大量线程处于RUNNABLE但CPU高，大概率是计算密集型任务（如JSON序列化）；如果大量WAITING，可能是锁竞争。
内存异常高：用jstat -gc <pid>看GC频率。如果YGCT（Young GC次数）每秒>5次，说明对象创建过快；如果FGCT（Full GC次数）>0，立即jmap -histo <pid> | head -20看大对象。
磁盘IO异常高：用iostat -x 1看%util和await。%util接近100%且await>100ms，说明磁盘饱和，需检查日志轮转、临时文件、数据库刷盘策略。
网络IO异常高：用iftop -P <端口>看哪个IP占带宽。曾发现CDN回源流量打满了服务器带宽，导致业务请求被限速。

3.4 第四步：深入中间件，抓住连接池和线程池两个命门

90%的服务端性能问题，根源在连接池和线程池的配置失配。检查清单：

Tomcat线程池：curl http://localhost:8080/manager/status?XML=true（需开启Manager App），看currentThreadCount和maxThreads比值；
数据库连接池：HikariCP通过JMX查看ActiveConnections，Druid访问/druid/index.html看实时监控；
Redis连接池：redis-cli info clients看connected_clients和client_longest_output_list；
消息队列：RabbitMQ看Ready和Unacknowledged消息数，Kafka看消费者lag。

关键指标阈值：

ActiveConnections / maximumPoolSize > 0.8→ 连接池瓶颈；
currentThreadCount / maxThreads > 0.9→ Tomcat线程池瓶颈；
connected_clients > maxclients（Redis配置）→ Redis拒绝新连接。

3.5 第五步：分析慢请求链路，用Trace ID穿透全链路

当确定是慢请求，必须用分布式追踪。在Jmeter中，为每个请求添加HTTP Header Manager，设置X-B3-TraceId为${__RandomString(16,abcdefghijklmnopqrstuvwxyz0123456789,)}，确保每个请求有唯一Trace ID。然后在服务端日志、中间件日志、DB慢查询日志中搜索该ID。

我们曾用此法发现一个经典问题：订单接口P95 2000ms，Trace显示95%耗时在“调用用户中心服务”，但用户中心服务自身监控一切正常。深入查用户中心的调用日志，发现它在调用Redis时，jedis.get()耗时1800ms。再查Redis监控，发现该Key是Hash结构，但业务代码用了HGETALL，而Hash里有10万个字段——一次网络往返就拉回上百MB数据。优化方案是改用HGET key field按需获取，P95降至200ms。

3.6 第六步：验证假设，用隔离实验确认根因

所有假设必须用可控实验验证。例如，怀疑是数据库慢，就写一个独立Java程序，用相同SQL、相同连接池配置，直连数据库执行1000次，记录平均耗时。如果独立程序也慢，问题在DB；如果独立程序快，问题在应用层（如MyBatis拦截器、Spring事务传播）。

我们有个标准隔离实验模板：

// 模拟Jmeter并发 ExecutorService executor = Executors.newFixedThreadPool(100); for (int i = 0; i < 1000; i++) { executor.submit(() -> { long start = System.currentTimeMillis(); // 执行待验证操作，如JDBC查询 long end = System.currentTimeMillis(); System.out.println("耗时: " + (end - start) + "ms"); }); }

这种实验能剥离Jmeter、网络、中间件等干扰，直击问题核心。

3.7 第七步：回归验证，用基线数据确认修复效果

修复后，必须用相同压测脚本、相同参数、相同监控配置，重新跑一遍。重点对比三个数据：

修复前后P95响应时间变化率：要求提升≥30%才认为有效；
资源瓶颈指标是否回落：如ActiveConnections从95%降到40%；
错误率是否归零或显著下降：从15%降到0.1%以下。

曾有个团队修复了Redis连接池问题，但没做回归验证，上线后发现P95只降了5%，追查发现是缓存穿透导致DB压力转移——这说明单一修复可能引发新瓶颈，必须全链路回归。

4. 那些写在文档里、却没人告诉你的实战血泪经验

教科书不会告诉你，有些坑必须亲手踩过才会刻骨铭心。这些经验，是我从17次压测事故中提炼出的“反常识”准则，每一条都带着真实的故障单编号。

4.1 “预热期”不是可选项，而是决定结果可信度的生死线

几乎所有压测指南都提“预热”，但没人说清楚预热要多久、预热期间该观察什么。我们的标准是：预热时间 = 被测服务JVM JIT编译完成时间 + 缓存预热时间 + 连接池填充时间，三者取最大值。

JIT编译：HotSpot VM默认在方法被调用10000次后触发C2编译。用-XX:+PrintCompilation参数启动服务，压测时观察日志，当出现100 3 java.lang.String::hashCode (35 bytes)这类日志，说明核心方法已编译。通常需要3-5分钟。

缓存预热：如果服务依赖Redis缓存热点数据，预热期必须用脚本提前加载。我们曾因没预热，压测开始后前2分钟大量缓存穿透，DB CPU飙到95%，而预热后DB CPU稳定在30%。

连接池填充：HikariCP默认initializationFailTimeout=-1，即启动时不检查连接。但压测开始瞬间，连接池会批量创建连接，导致首波请求延迟极高。解决方案是在预热期用HikariDataSource.getConnection()主动触发连接创建，并在Jmeter中用JSR223 Sampler执行System.gc()触发JVM清理，确保预热结束时连接池已满、JVM已稳定。

血泪教训：某电商大促压测，预热只做了1分钟，结果正式加压时，前10秒TPS为0，因为Tomcat线程池还在初始化，JVM在编译，Redis连接池在建连——这10秒的“真空期”，让整个压测基线失效。后来我们强制规定：预热期必须≥5分钟，且预热期间Jmeter发送请求，但不计入最终报告。

4.2 “稳压期”的时长，由最慢的组件决定，不是拍脑袋定的

很多人设稳压期为5分钟，理由是“够看了”。但真实情况是：某些组件的响应是分钟级的。比如Elasticsearch的refresh_interval默认1秒，但segment merge可能耗时数分钟；又如Kafka的log flush策略，log.flush.interval.messages可能设为10000，意味着10000条消息才刷盘一次。

我们的做法是：在稳压期开始前，先查所有中间件的“最长操作周期”：

ES：GET /_cat/segments?v&h=index,segment,docs.count,age，看最老segment的age；
Kafka：kafka-topics.sh --describe --topic <topic>，看LogFlushIntervalMessages；
MySQL：SHOW VARIABLES LIKE 'innodb_log_flush_timeout';

取这些值的最大值，再乘以3，作为稳压期最低时长。例如，ES最老segment age是2分钟，Kafka flush interval是5分钟，则稳压期至少15分钟。否则，你看到的“稳定TPS”，可能只是ES还没merge完segment、Kafka还没flush到磁盘的假象。

4.3 “降压期”不是停止按钮，而是观察服务恢复能力的关键窗口

多数人压测完直接关Jmeter，但降压期才是真正考验服务韧性的时刻。我们要求：降压后持续监控10分钟，重点看三件事：

连接是否正常释放：netstat -an | grep :<端口> | wc -l是否从峰值平稳回落至基线；
线程是否及时回收：jstack <pid> | grep 'java.lang.Thread.State' | wc -l是否从峰值下降；
缓存是否被污染：Redis中是否存在大量__keyevent@0__:expired事件，表明缓存雪崩。

曾有个项目，降压后5分钟，服务突然大量报错。查日志发现，降压瞬间Jmeter断开所有连接，Tomcat的connectionTimeout（默认20秒）触发，但业务代码在finally块里写了redis.close()，而Redis连接已断，导致IOException被吞，后续请求复用损坏的连接，全部失败。解决方案是在连接池配置中加入testOnReturn=true，确保归还连接前校验有效性。

4.4 “错误率”不是数字，而是需要逐条解码的故障指纹

Jmeter报告里的“错误率5%”，对决策毫无价值。必须导出View Results in Table，按Failure Message分组统计。我们定义了错误类型优先级：

网络层错误：Connection refused、Timeout、No route to host→ 查网络；
协议层错误：SSLHandshakeException、UnknownHostException→ 查DNS/SSL配置；
应用层错误：500 Internal Server Error、401 Unauthorized→ 查服务日志；
业务层错误：{"code":1001,"msg":"库存不足"}→ 查业务逻辑。

有一次，错误率显示3%，但99%的错误都是java.net.SocketTimeoutException: Read timed out。我们没急着调服务，而是先在Jmeter中增加Response Assertion，检查响应体是否包含"success":true。结果发现，所有超时请求的响应体实际是完整的JSON，只是Jmeter的Connect Timeout设得太小（1000ms），而服务端处理耗时1200ms。把超时调到3000ms后，错误率归零——这根本不是服务问题，而是Jmeter配置失误。

终极技巧：在Jmeter中用JSR223 PostProcessor提取每次请求的ctx.getPreviousResult().getEndTime() - ctx.getPreviousResult().getStartTime()，写入自定义CSV，这样你能得到每个请求的真实耗时，而不受Jmeter内置计时器的精度限制（默认毫秒级，但高并发下有微秒级误差）。

5. 压测结束后的三份必交文档，比压测报告更重要

压测的价值，80%体现在压测之后。很多团队把压测报告当终点，结果下次压测还要重复踩同样的坑。我们强制要求压测结束后24小时内，产出三份文档，每一份都直接关联到后续迭代动作。

5.1 《压测过程异常事件时间轴》：用时间戳还原真相

这不是流水账，而是按毫秒级时间戳记录所有关键事件：

T+00:00:00.000：Jmeter启动，线程组开始初始化；
T+00:00:02.345：View Results Tree监听器捕获首个Connection refused错误；
T+00:00:05.678：top命令显示Jmeter进程CPU达92%；
T+00:00:10.123：jstat -gc显示FGCT=1；
T+00:00:15.456：服务端dmesg输出Out of memory: Kill process 12345 (java) score 852...。

这份文档的价值在于：当开发质疑“是不是你们压测机有问题”，你可以直接甩出时间轴，证明在T+00:00:05.678时Jmeter CPU已爆，而T+00:00:10.123服务端才开始OOM——责任边界一目了然。

5.2 《瓶颈根因分析矩阵》：用表格锁定改进优先级

针对每个发现的瓶颈，用四维矩阵评估：

瓶颈点	影响范围（高/中/低）	修复难度（高/中/低）	业务影响（P0/P1/P2）	解决方案
Tomcat maxThreads=200	高（全站接口）	低（改配置）	P0（大促不可用）	改为1000，加监控告警
Redis连接池maxActive=8	高（所有缓存操作）	中（需改代码+测试）	P0	升级HikariCP，设maximumPoolSize=50
MySQL慢查询无索引	中（仅订单模块）	高（需DBA+开发联调）	P1	加复合索引，压测验证

这个矩阵直接驱动迭代排期。P0问题必须在下一个迭代解决，P1问题放入需求池，P2问题记录备案。

5.3 《压测环境基线快照》：为下次压测建立可比基准

每次压测前，我们用Ansible脚本自动采集环境基线：

Jmeter机器：uname -a,java -version,free -h,df -h,sysctl -p;
服务端机器：同上，外加ulimit -a;
中间件版本：redis-server --version,mysql --version,java -cp "$CATALINA_HOME/lib/catalina.jar" org.apache.catalina.util.ServerInfo;

所有数据存入Git仓库，命名为baseline-20231015-jmeter8.0-tomcat9.0-redis7.0.md。下次压测时，先比对基线，如果Jmeter版本从5.4升到5.5，就必须重做Jmeter自身基线测试——因为不同版本的线程调度策略可能不同。

最后分享一个小技巧：我们把所有压测注意事项编译成一张A3海报，贴在测试区墙上，标题是《压测不是考试，是手术——你每一步操作，都在决定结果的生死》。下面用红黄绿三色标注：