wrk与Apache Bench实战对比：深度解析Dufs静态文件服务器性能测试-尧图网站建设

📅 发布时间：2026/7/3 20:00:43

1. 项目概述：为什么需要这份Dufs性能测试指南？

如果你正在寻找一个轻量级的静态文件服务器，或者已经在使用Dufs，那么你迟早会面临一个灵魂拷问：它的性能到底怎么样？能抗住多少并发？响应速度有多快？尤其是在生产环境选型或者进行架构优化时，拍脑袋的“感觉还行”是靠不住的，我们需要用数据说话。这就是性能测试的价值所在。

然而，面对网络上琳琅满目的性能测试工具——从老牌的Apache Bench（ab），到现代的wrk，再到功能庞大的JMeter、Locust——很多开发者会陷入选择困难。更常见的情况是，随便选一个工具跑一下，得到一个数字，但这个数字背后意味着什么？测试方法科学吗？结果可信吗？不同工具的结果能直接对比吗？这些问题往往没有答案。

这份指南的核心，就是聚焦于Dufs这个特定的服务，使用最主流、最轻量的两个命令行性能测试工具——wrk和Apache Bench，进行一次“实战对比分析”。我不会只告诉你哪个工具跑分更高，而是会带你深入测试的每一个环节：从测试环境的搭建、参数的精确解读、测试用例的设计，到结果的深度分析和对比。你会明白，为什么在同样的硬件和网络条件下，wrk和ab测出的“每秒请求数（RPS）”可能天差地别；你会学会如何设计一个公平的“擂台”，让两个工具在同等条件下比拼；更重要的是，你会掌握一套针对Dufs这类Web服务的性能测试方法论，能够独立设计、执行并解读测试，为你的技术决策提供坚实的数据支撑。

无论你是运维工程师、后端开发者，还是对服务性能有要求的架构师，这份手把手的实战指南都将为你提供可直接复现的测试方案和避坑经验。

2. 测试环境与Dufs服务部署

性能测试的第一原则是：控制变量。所有对比必须在相同的基础环境下进行，否则结果没有可比性。我们的目标是测试工具本身的差异，而不是被网络波动、硬件负载不均衡所干扰。

2.1 硬件与系统环境准备

我选择在一台配置中等的云服务器上进行测试，以避免本地虚拟机资源争用带来的干扰。具体配置如下：

CPU: 2核 Intel Xeon Platinum
内存: 4GB
操作系统: Ubuntu 22.04 LTS
网络: 服务器位于同一数据中心内网，确保网络延迟极低且稳定，排除公网带宽瓶颈。

这里有一个关键点：测试客户端（运行wrk/ab的机器）和服务器（运行Dufs的机器）必须是分离的两台机器。如果在同一台机器上既运行服务又进行压测，两者会激烈争抢CPU、内存、网络栈等资源，导致测试结果严重失真，无法反映服务在独立部署时的真实能力。本次测试中，我使用另一台配置相近的服务器作为客户端。

2.2 Dufs服务的安装与配置

Dufs是一个用Rust编写的、支持多种功能的静态文件服务器。它的特点是零配置、高性能，非常适合作为内网文件共享或前端资源服务器。

首先，在服务端机器上安装Dufs。最方便的方式是使用Cargo（Rust的包管理器）：

# 在服务端执行 cargo install dufs

安装完成后，我们创建一个专门的测试目录，并生成一些测试文件。为了模拟真实场景，我准备了混合大小的文件：

mkdir -p /var/www/dufs-test cd /var/www/dufs-test # 生成一个1KB的小文件 dd if=/dev/zero of=small.txt bs=1K count=1 # 生成一个100KB的中等文件 dd if=/dev/zero of=medium.bin bs=100K count=1 # 生成一个1MB的大文件 dd if=/dev/zero of=large.dat bs=1M count=1 # 生成一个包含随机文本的HTML文件，模拟网页 cat > index.html <<EOF <!DOCTYPE html> <html> <head><title>Test Page</title></head> <body><h1>Dufs Performance Test</h1><p>This is a static file for benchmark.</p></body> </html> EOF

接下来，以最简配置启动Dufs服务，绑定到所有网络接口，并指定端口：

# 在服务端执行，后台运行 dufs /var/www/dufs-test --port 5000 --host 0.0.0.0 &

使用curl快速验证服务是否正常：

# 在客户端执行 curl -I http://<服务器IP>:5000/index.html

应该返回HTTP/1.1 200 OK。

注意：在生产级测试中，你可能需要调整Dufs的更多参数，例如线程数（--threads）、缓存控制等。但为了公平对比工具，本次测试我们使用默认配置，聚焦于工具差异而非服务调优。

2.3 性能测试工具安装

在客户端机器上，我们安装本次对决的两位主角：

Apache Bench (ab)：通常随Apache HTTP服务器工具包（apache2-utils）提供。

sudo apt update sudo apt install apache2-utils -y # 验证安装 ab -V

wrk：需要从源码编译安装，以获得最佳性能。

# 安装编译依赖 sudo apt install build-essential libssl-dev git -y # 克隆源码 git clone https://github.com/wg/wrk.git cd wrk # 编译，-j参数根据CPU核心数指定以加速编译 make -j4 # 将可执行文件移动到系统路径 sudo cp wrk /usr/local/bin/ # 验证安装 wrk --version

实操心得：wrk的编译过程通常很顺利。如果遇到OpenSSL相关错误，请确保libssl-dev已正确安装。编译安装能确保wrk与当前系统的内核版本和库文件完美适配，避免预编译二进制可能存在的兼容性问题。

环境准备就绪，接下来我们深入解析两位选手的特性和测试策略。

3. 核心工具解析：wrk与Apache Bench的机理与差异

在选择工具前，必须理解它们的设计哲学和底层原理。这不仅能解释测试结果的差异，更能帮助你在不同场景下做出正确选择。

3.1 Apache Bench (ab)：经典但简单

ab是Apache HTTP服务器项目的一部分，历史悠久，几乎成为HTTP性能测试的代名词。它的工作模型非常直观：

单进程、单线程：ab使用一个进程、一个线程来发起所有请求。它通过循环遍历一个连接池来模拟并发。
同步阻塞I/O：在HTTP/1.0时代，这种模型简单有效。但对于高并发，单个线程需要管理所有连接的状态，在上下文切换和连接管理上会成为瓶颈。
固定请求数模式：你必须指定总请求数（-n）和并发数（-c）。测试会一直发送请求，直到总数完成。这意味着测试持续时间取决于服务的响应速度。

ab的核心参数解读：

-n 10000: 总请求数。太小则热身阶段占比高，结果不准；太大则耗时过长。通常建议至少1万起步。
-c 100: 并发用户数。模拟同时有100个用户在请求。这是制造压力的关键参数。
-k: 启用HTTP Keep-Alive。这是至关重要的选项！如果不加-k，ab会对每个请求新建一个TCP连接，三次握手和四次挥手的开销巨大，测试结果将主要反映TCP连接建立速度，而非服务处理能力。加上-k后，连接会被复用，更能测出服务处理HTTP请求的真实性能。
-t 60: 时间限制（秒）。如果设置了-t，则即使未完成-n指定的请求数，测试也会在时间到达后停止。常用于稳定性测试。

ab的局限性：

HTTP/1.0 only：仅支持HTTP/1.0协议，不支持HTTP/1.1的流水线（pipelining）等特性，更不支持HTTP/2。这对于测试现代Web服务是一个硬伤。
功能单一：对POST请求支持有限（需用-p指定数据文件），对复杂的请求头、Cookie、动态会话模拟支持很差。
性能瓶颈：单线程模型无法充分利用多核CPU，在模拟高并发（如-c 1000）时，ab自身可能先成为瓶颈，无法给服务施加足够压力。

3.2 wrk：为现代硬件而生的高性能工具

wrk的出现，正是为了克服ab的上述缺陷。它的设计非常现代化：

多线程 + 非阻塞I/O：wrk使用一个多线程的架构。主线程负责协调，多个工作线程（通过-t指定）使用像epoll（Linux）、kqueue（BSD）这样的事件驱动、非阻塞I/O模型来管理成千上万的并发连接。每个线程独立运行一个事件循环，可以高效地处理大量网络事件，CPU利用率极高。
固定时长模式：你指定测试持续时间（-d）和并发连接数（-c）。测试会在规定时间内持续施压，最后统计完成的请求数。这种模式更符合负载测试的场景——我们通常关心系统在持续压力下的表现。
Lua脚本扩展：这是wrk的杀手锏。你可以编写Lua脚本，实现复杂的测试逻辑：动态生成请求参数、处理会话（session）、自定义响应验证、甚至实现不同的流量模型。这赋予了wrk极大的灵活性。

wrk的核心参数解读：

-t 4: 使用的线程数。建议设置为测试客户端机器的CPU逻辑核心数。wrk的线程是“工作线程”，用于产生负载。
-c 100: 并发连接数。注意，这里的概念与ab的“并发用户数”略有不同，但效果类似，都是同时保持的活跃连接数。
-d 10s: 测试持续时间。支持s（秒）、m（分）、h（小时）单位。10秒对于快速测试足够，正式测试建议1分钟以上以获得稳定数据。
--latency: 输出详细的延迟（响应时间）分布百分位数。这是评估服务质量的关键指标，比平均延迟更有意义。
--timeout 2s: 设置请求超时时间。防止个别慢请求阻塞整个测试。

wrk的优势：

高性能：事件驱动模型使其能轻松产生远超ab的请求压力，更能“榨干”被测服务的性能。
更真实的负载模拟：多线程和非阻塞I/O更接近真实世界中浏览器或应用客户端的行为。
灵活的测试场景：通过Lua脚本，几乎可以模拟任何复杂的API调用序列。

3.3 工具选型背后的逻辑

为什么选择这两个工具对比？

代表性：ab是“古典派”命令行测试的标杆，简单易用，几乎所有Linux发行版都自带。wrk是“现代派”命令行测试的代表，性能强悍，是很多性能工程师的首选。
轻量级：两者都是单一二进制文件，无需复杂的GUI或运行时环境（如Java），非常适合在服务器上快速执行测试，与Dufs的轻量特性相匹配。
互补性：通过对比它们，我们可以清晰地看到从同步阻塞到异步非阻塞的架构演进如何极大地影响测试工具自身的性能上限，进而影响我们对被测服务性能的认知。

理解了工具机理，我们就可以设计一个公平的测试方案，确保对比的是Dufs的性能，而不是工具自身的短板。

4. 实战测试方案设计与执行

测试不是简单地敲个命令看输出。一个科学的测试方案需要明确目标、设计场景、控制变量，并执行多次以获取稳定结果。本次测试，我们设定以下目标：

对比基准性能：在相同并发条件下，wrk和ab测出的RPS（每秒请求数）和延迟有多大差异？
分析并发能力：随着并发连接数增加，两个工具施加压力的能力变化趋势如何？
评估结果稳定性：多次测试的结果是否一致？

4.1 测试场景定义

我们设计三个典型的静态文件请求场景，覆盖不同文件大小：

场景A：小文件请求：请求small.txt(1KB)。这主要测试服务处理高并发、小请求的能力，考验的是请求解析和网络I/O。
场景B：中等文件请求：请求medium.bin(100KB)。这更贴近常见的网页资源（如图片、JS包）大小。
场景C：大文件请求：请求large.dat(1MB)。这主要测试服务的网络吞吐能力。

4.2 测试参数与公平性保障

为了确保对比公平，我们必须让两个工具在“等效”的条件下工作。但这并不容易，因为它们的运行模式根本不同（ab固定请求数，wrk固定时长）。我们的策略是：

等效并发：双方使用相同的“并发数”。ab用-c，wrk也用-c。我们测试-c 10, 50, 100, 200四个梯度。
等效“工作量”：对于ab，我们设定一个足够大的总请求数（-n），确保测试能持续运行一段时间（比如10秒以上）。我们可以先预估一个RPS，计算请求数。例如，预估RPS为5000，测试10秒，则-n设为50000。对于wrk，我们直接设定持续时间-d 10s。
启用连接复用：ab必须使用-k参数，wrk默认就使用HTTP/1.1的持久连接。这是对比的前提。
预热：正式测试前，先以中等并发跑一轮，让Dufs服务“热”起来，避免冷启动对结果的影响。
多次采样：每个场景、每个并发数下，连续执行3次测试，取中间值或平均值作为最终结果，以减少随机误差。

测试执行命令示例：

对于场景A (1KB文件)，并发数100：

# 使用ab测试 ab -n 50000 -c 100 -k http://<服务器IP>:5000/small.txt # 使用wrk测试 wrk -t 4 -c 100 -d 10s --latency http://<服务器IP>:5000/small.txt

注意参数对应关系：ab -c 100对应wrk -c 100。ab -n 50000是为了让测试时长接近10秒（基于预估）。wrk -t 4是根据我客户端机器4个逻辑核心设定的。

4.3 测试执行与原始数据记录

在实际执行中，我通过脚本自动化了整个过程，并记录了原始输出。以下是-c 100时，两个工具输出的典型结果摘要：

Apache Bench 结果摘要：

Server Software: dufs Server Hostname: 192.168.1.100 Server Port: 5000 Document Path: /small.txt Document Length: 1024 bytes Concurrency Level: 100 Time taken for tests: 8.732 seconds Complete requests: 50000 Failed requests: 0 Keep-Alive requests: 50000 Total transferred: 51500000 bytes HTML transferred: 51200000 bytes Requests per second: 5725.98 [#/sec] (mean) Time per request: 17.464 [ms] (mean) Time per request: 0.175 [ms] (mean, across all concurrent requests) Transfer rate: 5759.10 [Kbytes/sec] received Percentage of the requests served within a certain time (ms): 50% 16 66% 17 75% 18 80% 19 90% 22 95% 25 98% 30 99% 34 100% 79 (longest request)

wrk 结果摘要：

Running 10s test @ http://192.168.1.5000/small.txt 4 threads and 100 connections Thread Stats Avg Stdev Max +/- Stdev Latency 8.67ms 2.89ms 68.73ms 85.14% Req/Sec 2.89k 280.86 3.54k 69.00% Latency Distribution 50% 8.13ms 75% 9.71ms 90% 11.79ms 99% 18.93ms 115312 requests in 10.01s, 113.06MB read Requests/sec: 11520.22 Transfer/sec: 11.29MB

第一眼冲击：在同样的100并发下，wrk报告的Requests per second (RPS) 是11520，而ab只有5725，wrk的成绩是ab的两倍还多！这个差距已经不能用误差来解释了。同时，wrk的平均延迟（8.67ms）也远低于ab（17.464ms across all concurrent requests）。这立刻验证了我们之前的理论分析：wrk的多线程非阻塞架构能产生更大的压力，从而更高效地“压测”出Dufs的潜在性能。

5. 测试结果深度分析与对比

拿到原始数据只是第一步，更重要的是解读数据背后的含义。我们将从多个维度对结果进行对比分析。

5.1 核心性能指标对比

我们整理三个场景下，不同并发数时的RPS数据（取3次测试平均值）：

并发数	工具	场景A (1KB) RPS	场景B (100KB) RPS	场景C (1MB) RPS
10	ab	6210	585	58
10	wrk	12580	1180	118
50	ab	5880	560	56
50	wrk	11850	1120	112
100	ab	5725	545	54
100	wrk	11520	1095	109
200	ab	5510	520	52
200	wrk	11200	1060	105

趋势分析：

性能倍数关系：在所有场景和并发下，wrk的RPS大约是ab的2.0到2.1倍。这是一个非常稳定的倍数关系。这说明性能差距主要源于工具自身架构的效率，而非随机波动。
并发影响：随着并发数从10增加到200，无论是ab还是wrk，其测出的RPS都略有下降。这是因为并发越高，操作系统内核和Dufs服务本身需要处理更多的连接上下文切换和调度，开销增大。但wrk的下降曲线更平缓，说明其在高并发下的资源调度效率更高。
文件大小影响：从1KB到1MB，RPS下降了约两个数量级。这是符合预期的，因为传输的数据量增大了1000倍，网络I/O和磁盘I/O（尽管有操作系统缓存）成为主要瓶颈。值得注意的是，wrk相对于ab的性能优势比例在不同文件大小下基本保持不变，说明这种优势在CPU密集型（小文件）和I/O密集型（大文件）场景下都存在。

5.2 延迟分布解读

RPS告诉我们“吞吐量”，而延迟（Latency）则告诉我们“用户体验”。特别是延迟的分布（百分位数）比平均延迟更有价值。

ab的延迟输出：Time per request: 0.175 [ms] (mean, across all concurrent requests)这个值（0.175ms）是“单个请求的平均响应时间”，计算方式是总测试时间/总请求数。但它是在高并发下平均的，不能代表用户感知的延迟。更有价值的是下面的百分比分布。例如，90%的请求在22ms内完成，99%在34ms内完成。这意味着绝大多数请求很快，但有1%的“长尾请求”慢一些。

wrk的延迟输出：直接给出了Latency Distribution。以场景A、并发100为例：50%的请求延迟在8.13ms以内（中位数），99%在18.93ms以内。对比ab的99%（34ms），wrk测出的长尾延迟明显更低。这有两个可能原因：一是wrk施加的压力更均匀、更高效，服务队列堆积更少；二是wrk的计时精度可能更高。

关键洞察：不要只看平均延迟或RPS。99分位（P99）甚至99.9分位（P999）延迟对于评估服务稳定性至关重要。一个RPS很高但P99延迟也很高的服务，可能会让那1%的用户体验极差。wrk直接提供完整的延迟分布，比ab需要手动计算更友好。

5.3 工具自身开销与瓶颈分析

为什么wrk能产生两倍于ab的压力？我们可以在测试时监控客户端机器的资源使用情况。

使用htop或pidstat观察：

ab进程：单线程，CPU使用率很快达到100%（一个核心的100%）。这就是它的瓶颈——单线程跑满了，无法产生更多请求。
wrk进程：多个线程（本例中4个），每个线程CPU使用率在70%-90%之间，总和能接近400%（4个核心）。它充分利用了多核CPU来生成请求。

结论：在测试高并发场景时，ab的测试结果受限于其自身的单线程性能瓶颈。当并发数（-c）设置得较高时，ab自己先忙不过来了，无法持续地向服务器施加足够的压力，导致测出的RPS低于服务的真实能力。而wrk由于采用多线程和事件驱动模型，其自身能更高效地产生负载，从而更能“逼出”服务器的性能极限。

5.4 测试结果可信度探讨

既然ab有瓶颈，那它的测试结果还有用吗？有用，但需要正确理解其含义。

ab的结果：可以理解为“使用一个效率较低的、单线程的客户端时，服务能提供的性能下限”。在某些客户端能力有限的场景下，这个数据有参考价值。
wrk的结果：更接近“服务在理想高效客户端访问下的性能上限”。对于评估服务的最大处理能力、容量规划更有价值。

对于Dufs这样的静态文件服务器，其设计目标就是高效服务大量并发请求。因此，使用wrk这类现代工具进行评估更为合适。ab则更适合在开发初期进行快速的、功能性的性能冒烟测试。

6. 进阶：使用wrk的Lua脚本进行复杂场景测试

wrk的真正威力在于其可编程性。通过Lua脚本，我们可以模拟远超ab能力的复杂测试场景。这对于测试Dufs的更多功能（如目录列表、认证）非常有帮助。

6.1 编写一个简单的Lua测试脚本

假设我们想测试Dufs的目录列表功能，并随机访问目录下的不同文件。创建一个名为dufs_test.lua的文件：

-- 初始化阶段，在测试开始前执行一次 init = function(args) -- 定义一个待访问的文件列表 local files = {“index.html”, “small.txt”, “medium.bin”, “large.dat”} -- 将文件列表存入全局变量，供每个线程访问 wrk.files = files -- 计数器，用于轮询文件 wrk.counter = 1 print(“Test script initialized. Files to request:”, #files) end -- 每个请求发起前执行，用于动态生成请求 request = function() -- 轮询获取一个文件名 local file = wrk.files[wrk.counter] wrk.counter = (wrk.counter % #wrk.files) + 1 -- 循环递增 -- 构建请求路径和头信息 local path = “/” .. file local headers = {} headers[“User-Agent”] = “wrk/benchmark-script” -- 可以模拟不同的内容类型请求，这里简单返回 return wrk.format(“GET”, path, headers, nil) end -- 响应处理阶段（可选），可用于验证响应或记录数据 response = function(status, headers, body) -- 例如，检查状态码是否为200 -- if status ~= 200 then -- print(“Unexpected status: “ .. status) -- end -- 这里可以添加更复杂的逻辑，如解析JSON等 end -- 测试结束阶段（可选），用于生成汇总报告 done = function(summary, latency, requests) -- summary: 包含duration, requests, bytes, errors等信息 -- latency: 延迟统计对象 -- requests: 每秒请求数统计对象 -- 可以在这里计算自定义指标并打印 io.write(string.format(“\nCustom Summary:\n”)) io.write(string.format(“ Total requests: %d\n”, summary.requests)) io.write(string.format(“ Total errors: %d\n”, summary.errors)) if summary.errors > 0 then io.write(“ ** WARNING: Some requests failed! **\n”) end end

6.2 执行带脚本的wrk测试

使用-s参数指定脚本运行：

wrk -t 4 -c 100 -d 10s -s dufs_test.lua --latency http://<服务器IP>:5000

这个测试会模拟用户轮流访问四个不同的文件，比单一URL测试更能反映混合负载下的性能。

6.3 模拟更真实的流量：加权随机访问

上面的脚本是顺序轮询。更真实的场景是文件访问符合一定的概率分布（例如，首页index.html访问量最大）。我们可以修改脚本实现加权随机：

init = function(args) -- 文件及其权重（访问概率） wrk.files = { {path=“/index.html”, weight=50}, -- 50%的概率 {path=“/small.txt”, weight=30}, -- 30%的概率 {path=“/medium.bin”, weight=15}, -- 15%的概率 {path=“/large.dat”, weight=5}, -- 5%的概率 } -- 计算权重总和并创建选择表 local total_weight = 0 for _, f in ipairs(wrk.files) do total_weight = total_weight + f.weight end wrk.total_weight = total_weight math.randomseed(os.time()) -- 初始化随机种子 end request = function() local r = math.random(wrk.total_weight) local cumulative = 0 for _, f in ipairs(wrk.files) do cumulative = cumulative + f.weight if r <= cumulative then return wrk.format(“GET”, f.path) end end -- 兜底，返回第一个文件 return wrk.format(“GET”, wrk.files[1].path) end

通过Lua脚本，你可以轻松实现：认证令牌的获取与传递、POST/PUT请求、思考时间（think time）模拟、基于响应的分支逻辑等。这完全超越了ab所能提供的功能范畴。

7. 常见问题、误区与排查技巧实录

在实际性能测试中，你会遇到各种意想不到的问题。以下是我在多次测试中踩过的坑和总结的经验。

7.1 测试结果波动大，每次都不一样？

这是最常见的问题。可能的原因和解决方案：

服务端或客户端有干扰进程：测试前，使用top或htop检查系统负载。关闭不必要的服务，确保CPU和内存主要供测试使用。对于Dufs，确保测试目录不在机械硬盘上，或已充分预热到内存缓存中。
网络波动：内网测试通常稳定。如果跨公网，结果波动是正常的。务必在内网环境进行性能基准测试。
没有预热：服务（如Dufs）、操作系统文件缓存、TCP连接池都是冷的。正式记录数据前，先以目标压力的50%-80%运行30秒到1分钟进行预热。
测试时长太短：短时间（如1-3秒）测试容易受到偶然因素影响。正式测试时长至少30秒，推荐1-3分钟，以获得稳定平均值。wrk的-d参数很容易设置。
客户端成为瓶颈：如果你发现wrk的某个工作线程CPU持续100%，或者ab的单个进程CPU 100%，说明测试工具本身已经到极限了，无法给服务施加更大压力。这时需要换用更强大的客户端机器，或者在多台客户端上分布式压测。

7.2 “Failed requests”不为零怎么办？

无论是ab还是wrk，出现失败请求都需要严肃对待。

连接失败（Connect failures）：可能是端口未打开、服务崩溃、或客户端连接数达到上限（检查ulimit -n）。wrk会报告Connect errors。
读取/写入失败（Read/Write errors）：网络不稳定或服务响应异常。
非200状态码（Non-2xx responses）：ab在Failed requests里会统计非2xx和3xx的响应。这可能是服务内部错误、资源不存在或认证失败。需要根据具体状态码排查Dufs服务日志。

黄金法则：性能测试的前提是功能正确。在压测前，先用低并发（如-c 1）验证接口能正确返回。压测中失败率必须为0，或低于一个可接受的阈值（如0.01%），否则测试结果无效。

7.3 如何理解“Requests per second”这个数字？

RPS是一个“吞吐量”指标，但它高度依赖测试条件。

它不代表生产环境的真实流量：生产环境的请求大小、类型、分布更复杂。
它受测试客户端能力限制：如上所述，ab测出的RPS可能远低于服务真实能力。
它和响应时间是一对“矛盾”：通常，在系统达到瓶颈前，随着并发增加，RPS上升，响应时间也会缓慢增加。当系统达到瓶颈后，再增加并发，RPS可能持平甚至下降，而响应时间会急剧上升。绘制“并发数-RPS”和“并发数-延迟”曲线图，找到那个拐点，就是系统的最佳并发点。

对于Dufs的测试，我们更应关注：在可接受的延迟范围内（例如P99 < 100ms），它能提供多大的RPS和吞吐量（Transfer/sec）。

7.4 除了RPS和延迟，还应关注什么？

资源监控：测试时，务必监控服务端和客户端的系统资源。
- CPU使用率：vmstat 1或mpstat 1。如果Dufs进程CPU使用率不高，但RPS上不去，瓶颈可能在别处（如磁盘I/O、网络）。
- 内存使用：free -m。观察缓存（cache）是否充足。
- 磁盘I/O：iostat -x 1。特别是测试大文件时，观察%util和await。如果磁盘利用率持续100%，说明磁盘是瓶颈。
- 网络流量：sar -n DEV 1。确保没有达到网卡带宽上限。
wrk的线程统计：wrk输出的Thread Stats中，+/- Stdev表示标准差。标准差越大，说明不同线程的负载不均衡或请求响应时间波动大。理想情况下，各线程的Req/Sec应该接近。
传输速率（Transfer/sec）：这个值乘以8，可以粗略估算出服务消耗的网络带宽。确保它没有超过你的服务器网络带宽上限。

7.5 针对Dufs的特定调优与测试建议

启用压缩：如果Dufs支持（或通过前置Nginx启用）GZIP压缩，对文本类文件（HTML, CSS, JS）性能提升巨大。测试时需在请求头中加入Accept-Encoding: gzip，并对比压缩前后的RPS和带宽。
调整线程数：如果Dufs有--threads参数，可以尝试将其设置为CPU核心数，并进行对比测试。
测试目录列表：使用-s参数对目录路径（如http://ip:5000/）进行测试，目录列表可能比传输单个文件更消耗CPU。
内存与磁盘缓存：第一次访问大文件时，速度受磁盘限制。第二次及以后，如果文件被操作系统缓存，速度会快很多。测试时应区分“冷缓存”和“热缓存”场景。

性能测试不是一个一次性的任务，而是一个迭代和探索的过程。从简单的ab快速验证，到使用wrk进行深入的压力探索和场景模拟，再到结合系统监控进行瓶颈分析，这套组合拳能帮助你全面、客观地评估Dufs乃至任何Web服务的性能表现。最终，所有的测试数据和图表，都将成为你进行技术选型、容量规划和性能优化的坚实依据。记住，没有完美的工具，只有适合场景的工具。理解工具的原理，设计科学的测试方案，远比单纯追求一个高RPS数字重要得多。