当前位置：首页 > news >正文

CTF流量分析实战：从pcap文件还原被混淆的文件

news 2026/5/25 12:06:42

1. 这不是“看一眼就懂”的流量分析而是把字节当积木拼出来的文件还原现场很多人第一次打开Wireshark看到满屏的TCP流、HTTP请求和十六进制窗口下意识觉得“不就是抓个包点开Follow TCP Stream复制粘贴一下不就完事了”——我三年前也这么想。直到在一次CTF线下赛里一道Web题给了一个pcapng文件要求还原出被分片传输的PNG图片。我照例Follow TCP Stream发现内容全是乱码切到Export Objects导出HTTP对象返回空用tshark过滤http.request结果连GET请求都找不到。最后倒计时5分钟队友突然喊“试试UDP看下端口3784”——原来服务端用了自定义UDP协议多层混淆HTTP只是障眼法。我们手撸Wireshark显示过滤器逐帧定位数据载荷起始位置再用WinHex按偏移量手动拼接二进制块最终在比赛结束前17秒成功打开PNG看到flag藏在二维码里。这件事让我彻底明白CTF里的流量分析从来不是“工具用得熟”而是“字节看得懂”。它考验的是你能否把网络协议拆解成原始字节流再像考古队员拼陶片一样从碎片中复原出完整文件。Wireshark是显微镜WinHex是手术刀而你才是那个决定哪一块该放在哪里的人。这篇指南不讲“如何安装Wireshark”也不教“怎么点菜单”它只聚焦一件事当你面对一个陌生pcap文件没有任何文档、没有服务端源码、甚至不知道用的是什么协议时如何从零开始靠眼睛、逻辑和一点点耐心把散落在几百个数据包里的文件头、数据段、校验尾一帧一帧地找出来、对上号、拼回去。适合刚打完几场线上赛但总卡在流量题的选手也适合想补全逆向与取证交叉能力的安全工程师——因为真实红队任务里你永远拿不到“标准HTTP响应头”。2. Wireshark不是播放器是协议解剖台理解捕获数据的本质结构2.1 pcap文件不是“录像”而是带时间戳的字节快照集合很多初学者误以为pcap文件是网络通信的“视频回放”点开就能看到“网页加载过程”。这是根本性误解。pcap本质是一个结构化字节容器其内部由三部分严格组成全局文件头24字节、每个数据包的包头16字节含时间戳、捕获长度、实际长度和原始链路层帧数据即Ethernet帧。关键点在于Wireshark展示的“应用层内容”全部来自解析器的二次翻译而非原始数据本身。比如你看到的HTTP GET请求是Wireshark根据TCP流状态、端口号80/443、以及RFC 7230定义的CRLF分隔规则从原始TCP payload里“猜”出来的。一旦协议偏离标准如自定义端口、非标准分隔符、加密载荷这个“猜”就会失效——此时你看到的可能是“TCP segment of a reassembled PDU”或者干脆一片灰色不可读区域。我曾处理过一个IoT设备固件升级流量pcap设备使用50001端口发送二进制升级包但Wireshark默认不识别该端口为任何协议。打开后所有数据包都显示为“TCP”点开Packet Details面板Transport层以下全是“Data”节点没有HTTP、没有TLS、没有DNS。这时候如果只依赖“Follow TCP Stream”得到的是一串无法解释的十六进制序列。正确做法是右键任意数据包 → “Decode As…” → 在Transport栏手动指定端口50001为“Raw”强制Wireshark放弃协议猜测直接显示原始字节。这一步看似简单却是整个分析链的起点——它让你从“被工具喂饭”切换到“自己动手扒饭”。2.2 协议栈视角为什么必须从链路层开始逆向推导CTF流量题最常设的陷阱就是让协议“不走寻常路”。比如HTTP over UDP绕过TCP重传机制规避常规HTTP过滤TLS握手后立即发送自定义二进制协议伪装成HTTPS实则载荷无TLS记录层结构ICMP数据载荷嵌套ping包里塞文件片段Wireshark默认折叠ICMP Data要识破这些必须建立“协议栈穿透思维”不预设应用层协议而是从链路层Ethernet→ 网络层IP→ 传输层TCP/UDP/ICMP→ 应用层未知逐层验证。具体操作如下先看Ethernet帧头目标MAC是否为广播ff:ff:ff:ff:ff:ff或组播源MAC是否属于常见厂商如00:11:22开头多为测试设备异常MAC可能暗示伪造流量。再查IP头TTL值是否极低如TTL1说明是本地环回或Docker容器内通信DFDon’t Fragment位是否置1暗示路径MTU探测或防分片干扰源IP是否为127.0.0.1或192.168.x.x本地调试痕迹重点盯传输层若为TCP检查FlagsSYN/FIN/RST是否规律。正常HTTP应有三次握手四次挥手若只有大量SYN包无ACK可能是SYN Flood攻击流量与文件提取无关。若为UDP记录源/目的端口立即查IANA端口分配表https://www.iana.org/assignments/service-names-port-numbers/service-names-port-numbers.xhtml。若端口未注册如9999基本可判定为自定义协议。若为ICMP展开ICMP Header看Type8Echo Request还是Type0Echo ReplyPayload长度是否远超常规正常ping payload≤64字节若达1000字节大概率藏数据。提示Wireshark的“IO Graphs”功能Statistics → IO Graphs是快速识别异常协议的利器。将Y轴设为“Packets”X轴为时间添加Filter如udp.port50001若出现密集尖峰且持续时间短说明是批量UDP发包——这正是固件升级、密钥分发等场景的典型特征。2.3 过滤器不是魔法咒语是逻辑表达式从“看到全部”到“锁定关键”新手常犯的错误是滥用http或tcp这种宽泛过滤器结果淹没在数千个无关包中。CTF流量分析的过滤策略核心是**“先收缩再扩张”**第一阶段用元信息粗筛frame.time 2023-05-20 14:30:00 frame.time 2023-05-20 14:35:00利用题目描述中的时间线索如“攻击发生在下午2:30至2:35之间”ip.addr 192.168.1.100 ip.addr 10.0.0.5双向通信用而非||避免引入第三方流量第二阶段用协议特征精确定位tcp.len 0 tcp.flags.syn 0 tcp.flags.fin 0排除握手/挥手包只看纯数据传输udp.length 100过滤小UDP包聚焦大载荷icmp.type 8 icmp.code 0 frame.len 1500筛选大尺寸ICMP Echo Request第三阶段用内容特征锚定文件边界tcp.payload matches PK\x03\x04ZIP/PNG文件头注意Wireshark中十六进制需转为ASCII字符串匹配data.data contains 0x89504e47PNG魔数用contains比matches更可靠因可能含偏移frame contains flag{直接搜索flag明文CTF中常见于调试日志或未加密配置我处理过一道题流量中混杂了SSH登录、DNS查询和真正的文件传输。用ssh过滤器会漏掉关键包——因为服务端用的是非标准端口2222且SSH协议被混淆将SSH-2.0-OpenSSH_8.2p1替换为SSH-2.0-Custom_1.0。最终解法是先用tcp.port 2222锁定范围再用tshark -r traffic.pcap -Y tcp.port2222 -T fields -e data.data | xxd -r -p | strings | grep flag从原始载荷中暴力提取字符串。这印证了一个原则当协议解析失败时原始字节永远是最可靠的真相来源。3. WinHex不是十六进制编辑器是字节级考古工作站3.1 为什么不能只用Wireshark导出——协议解析与原始载荷的鸿沟Wireshark的“Export Packet Bytes”功能看似便捷但它导出的是整个数据包的原始字节包含Ethernet头14字节、IP头通常20字节、TCP头通常20字节——而真正有用的文件数据只占TCP payload部分。例如一个HTTP响应包Wireshark导出的文件开头是00 00 00 00 00 00 00 00 00 00 00 00 08 00...Ethernet帧而非48 54 54 50 2f 31 2e 31 20 32 30 30...HTTP响应行。直接用此文件尝试file命令或xxd查看会得到“data”类型无法识别。更致命的是TCP重组问题。Wireshark的“Follow TCP Stream”虽能自动重组TCP流但它按会话src_ip:port → dst_ip:port聚合所有包若一个文件被分片在多个TCP连接中如HTTP/2多路复用或自定义协议分块上传Follow Stream会把不同逻辑块混在一起。我曾遇到一个pcap其中PNG文件被切成3段第1段在连接A端口10001第2段在连接B端口10002第3段在连接C端口10003。Follow Stream分别导出三个“残缺”文件各自都无法打开。正确做法是用tshark按tcp.stream eq 0、tcp.stream eq 1、tcp.stream eq 2分别导出各流再用WinHex手动拼接——因为只有你知道第1段是文件头含IHDR第2段是IDAT数据第3段是IEND结尾。注意Wireshark的“Export Objects → HTTP”功能仅对标准HTTP有效。若服务器返回Content-Type: application/octet-stream但实际是PNGWireshark不会将其识别为HTTP对象导致Export为空。此时必须回归原始TCP payload提取。3.2 WinHex工作流从“选中数据包”到“生成可执行文件”的七步闭环WinHex的核心价值在于它把“字节选择”变成了可视化操作。以下是我在CTF中验证过100%有效的标准流程以还原一个被TCP分片的ELF可执行文件为例定位关键包在Wireshark中用过滤器tcp.port 4444 tcp.len 100找到疑似载荷包。右键 → “Copy → Bytes → Hex Stream”复制十六进制字符串如7f454c4602010100...。创建新文件打开WinHex → File → New → 选择“Empty file”大小填0动态增长。按CtrlH切换到十六进制视图。粘贴并校验魔数按CtrlV粘贴十六进制字符串。光标停在首字节按F3Search → Find Hex输入7f454c46ELF魔数。若匹配成功说明开头正确若失败检查是否粘贴了空格或换行符WinHex粘贴时需确保格式为纯十六进制无分隔符。提取完整TCP payload回到Wireshark右键目标包 → “Show and save packet bytes” → 保存为raw_packet.bin。用WinHex打开此文件跳转到偏移0x2e典型TCP头长度因IP头20字节TCP头20字节40字节0x28但若有IP选项则更长需实际计算。选中从该偏移开始的所有字节CtrlA复制CtrlC。追加到目标文件切换到步骤2创建的空白文件按End键跳至末尾CtrlV粘贴。此时文件开头是ELF魔数后续是payload数据。处理多包拼接对下一个分片包重复步骤4但注意第二个包的payload可能包含文件中间段需在WinHex中按CtrlG跳转到目标偏移如0x1000再粘贴。关键技巧用WinHex的“Template”功能Tools → Templates预设常见文件结构。例如为PNG创建模板89504e470d0a1a0a文件头49484452IHDR块49454e44IEND块插入后自动高亮匹配位置避免手动搜索遗漏。验证与修复保存为recovered.elf终端执行file recovered.elf # 应输出 ELF 64-bit LSB pie executable... chmod x recovered.elf ./recovered.elf # 若报错cannot execute binary file: Exec format error说明头部损坏用WinHex对比标准ELF头参考https://refspecs.linuxfoundation.org/elf/elf.pdf修复。这套流程的底层逻辑是Wireshark负责“发现”WinHex负责“构建”。前者告诉你“哪里有料”后者让你“把料垒成墙”。3.3 文件头/尾的逆向工程当魔数失效时如何用统计学找规律并非所有文件都有标准魔数。CTF中常见混淆手法XOR加密文件头如PNG头89504e47被异或0x55变成de051b12插入随机填充字节每16字节后加2字节垃圾魔数移位将PK\x03\x04拆成PK在包1\x03\x04在包100此时需启动“字节统计模式”。在WinHex中按F9打开“Analysis → Frequency Analysis”选中可疑数据段如连续1000字节查看字节分布直方图正常文本文件中20空格、0a换行频次极高二进制文件中00频次常占30%以上加密数据则接近均匀分布各字节频次≈0.39%我处理过一道题流量中所有TCP payload都显示为00 00 00 00 ...看似全是空字节。但Frequency Analysis显示00频次仅65%另有aa频次25%、55频次10%——这不符合真随机应≈0.39%而是典型的XOR密钥0xaa或0x55特征。尝试用Python脚本对整个payload异或0xaawith open(raw.bin, rb) as f: data f.read() decrypted bytes([b ^ 0xaa for b in data]) with open(decrypted.bin, wb) as f: f.write(decrypted)再用WinHex打开decrypted.binfile命令立刻识别出“JPEG image data...”IHDR魔数清晰可见。经验当看到“大量相同字节”时第一反应不是“数据损坏”而是“可能被简单加密”。XOR是最常见手段密钥往往取自协议中明文字段如User-Agent、Cookie值用Wireshark搜索明文提取其ASCII码转十六进制逐一尝试异或。4. 完整实战从零还原一个被三重混淆的ZIP文件4.1 题目背景与初始观察一场精心设计的“迷雾”题目提供obfuscated_traffic.pcapng描述“服务器返回一个ZIP压缩包但经过三次混淆处理。请提取原始文件并找到flag。”第一步用Wireshark打开执行Statistics → Protocol HierarchyTCP占比82%HTTP占比12%但全是404 Not FoundDNS占比5%查询api.example.com响应正常其余1%为Unknown直觉告诉我HTTP是烟雾弹。过滤http !http.response.code 404结果为空。再试tcp !(http || dns)得到127个包全部集中在端口31337。这就是主战场。4.2 第一层混淆自定义TCP协议头隐藏文件长度与偏移选中第一个31337端口包展开Packet DetailsEthernet II → Destination:00:00:00:00:00:00无效MAC确认为本地捕获IPv4 → Source:127.0.0.1, TTL:64Linux默认TCP → Source Port:31337, Len:1024Data → 1024字节原始载荷关键发现TCP payload开头是00 00 04 00 00 00 00 00 00 00 00 00 00 00 00 0016字节。这不是标准协议头。我怀疑这是自定义头其中前4字节00 00 04 00可能是文件总长度小端序→ 转十进制0x00040000 262144 字节 256KB符合ZIP文件大小预期。接下来12字节呢用Wireshark的“Expert Info”AltX查看提示“TCP segment of a reassembled PDU”说明此包是分片的一部分。为验证导出所有tcp.port 31337的包tshark -r obfuscated_traffic.pcapng -Y tcp.port 31337 -T fields -e data.data -E separator/n payloads.txt得到127行十六进制字符串。用Python脚本提取每行前16字节自定义头发现包1头00 00 04 00 00 00 00 00 00 00 00 00 00 00 00 00包2头00 00 04 00 00 00 04 00 00 00 00 00 00 00 00 00包3头00 00 04 00 00 00 08 00 00 00 00 00 00 00 00 00规律浮现第5-8字节是当前分片在文件中的起始偏移小端序。包1偏移0x000000000包2偏移0x000004001024包3偏移0x000008002048——完美对应TCP payload长度1024字节。因此自定义头结构为偏移长度含义0x004字节文件总长度小端0x044字节当前分片起始偏移小端0x088字节预留字段全0暂忽略4.3 第二层混淆XOR加密载荷密钥藏在HTTP 404响应头现在知道如何提取有效载荷对每个包跳过16字节头取剩余部分。但直接拼接后file命令显示“data”而非“Zip archive”。用WinHex打开拼接文件Frequency Analysis显示字节分布高度不均00频次12%、ff频次8%、55频次5%——指向XOR加密。密钥在哪回顾之前被忽略的HTTP 404流量。过滤http.response.code 404共23个包。查看最后一个响应的HeadersHTTP/1.1 404 Not Found Server: nginx/1.18.0 (Ubuntu) Date: Mon, 20 May 2023 06:30:45 GMT Content-Type: text/html; charsetutf-8 X-Obfuscation-Key: 0x9eX-Obfuscation-Key: 0x9e尝试用0x9e异或整个拼接文件key 0x9e with open(concatenated.bin, rb) as f: data f.read() decrypted bytes([b ^ key for b in data]) with open(decrypted.zip, wb) as f: f.write(decrypted)file decrypted.zip输出 “Zip archive data...”成功4.4 第三层混淆ZIP内文件名加密Base64编码ROT13解压decrypted.zip得到flag.txt但内容是乱码Uryyb Jbeyq!。这是经典的ROT13字母表位移13位。解密后为Hello World!但显然不是flag。再检查ZIP结构binwalk decrypted.zip # 输出DECIMAL HEXADECIMAL DESCRIPTION # 0 0x0 Zip archive data, at least v2.0 to extract, compressed size: 12, uncompressed size: 12, name: Zvpebfbsg文件名Zvpebfbsg也是ROT13解密得Microsoft。但flag.txt在哪用7z l decrypted.zip列出所有文件发现Date Time Attr Size Compressed Name ------------------- ----- ------------ ------------ ------------------------ 2023-05-20 06:30:45 ..... 1024 1024 Zvpebfbsg 2023-05-20 06:30:45 ..... 512 512 Fynirq 2023-05-20 06:30:45 ..... 12 12 Uryyb_JbeyqROT13后Microsoft、Secret、Hello_World。Secret文件才是关键。解压它7z e decrypted.zip Fynirq -o./secret/ cat ./secret/Fynirq # 输出RkxBR3t0aGlzX2lzX2FfemlwX3dpdGhfbm8tZW5jcnlwdGlvbn0Base64解码FLAG{this_is_a_zip_with_no-encryption}。Flag到手。4.5 复盘与关键决策点为什么每一步都不能跳过这场还原的成败取决于三个不可跳过的决策放弃HTTP转向TCP端口分析因为题目明确说“服务器返回ZIP”而HTTP流量全是404逻辑矛盾。安全分析师的第一直觉应是“协议被伪装”而非“题目出错了”。自定义头的逆向必须手工计算Wireshark无法自动识别31337端口协议必须人工观察字节规律。这里的关键洞察是“偏移递增量包长度”这是TCP分片的铁律。XOR密钥必须从HTTP头提取若盲目爆破0x00-0xff需127次尝试而题目故意在404响应中埋线索考验的是“关联不同协议层信息”的能力。实战心得CTF流量题的“混淆”本质是增加信息熵但熵的源头必有迹可循。你的任务不是破解密码学而是做一名侦探——把分散在Ethernet头、IP选项、TCP标志位、HTTP头、DNS响应中的碎片用逻辑链条串起来。Wireshark和WinHex只是你的放大镜和镊子真正的解题钥匙永远在你自己的脑子里。5. 避坑指南那些让我重装系统三次的致命错误5.1 时间戳陷阱UTC vs 本地时区导致的过滤器失效某次比赛中题目提示“攻击发生在2023-05-20 14:30:00至14:35:00北京时间”。我自信地在Wireshark中输入过滤器frame.time 2023-05-20 14:30:00 frame.time 2023-05-20 14:35:00结果0个包匹配。排查两小时后才发现Wireshark的frame.time字段存储的是UTC时间而我的系统时区是CSTUTC8。实际pcap中时间戳是2023-05-20 06:30:00 UTC。正确写法应为frame.time 2023-05-20 06:30:00 frame.time 2023-05-20 06:35:00或更稳妥地用相对时间frame.time_relative 180 frame.time_relative 210假设攻击从第180秒开始。教训永远先用Statistics → Capture File Properties查看“Time reference”确认时区。若不确定直接用frame.number范围过滤如frame.number 1000 frame.number 1500再人工确认。5.2 TCP流重组陷阱Wireshark的“自动重组”可能破坏原始顺序Wireshark默认启用“Allow subdissector to reassemble TCP streams”这在HTTP分析中很友好但在自定义协议中是灾难。我曾处理一个pcap其中文件被分成100个TCP包但Wireshark的Follow TCP Stream导出的文件第50-55包的内容被错误地插到了开头。原因服务端使用了TCP Fast OpenTFO部分包携带SYNDataWireshark将其视为独立流。解决方案关闭自动重组Edit → Preferences → Protocols → TCP → 取消勾选“Allow subdissector to reassemble TCP streams”手动按tcp.stream eq X过滤用tshark逐个导出for i in {0..99}; do tshark -r traffic.pcap -Y tcp.stream eq $i -T fields -e data.data | xxd -r -p part_$i.bin; done再用WinHex按part_0.bin、part_1.bin...顺序追加。5.3 WinHex粘贴格式陷阱空格、换行、前缀导致的字节错位最痛的教训一次导出HTTP响应body时我复制了Wireshark的“Packet Bytes”窗格内容其中每行16字节含地址前缀如00000000 7f 45 4c 46 02 01 01 00 00 00 00 00 00 00 00 00 |.ELF............|。直接粘贴到WinHex结果前16字节变成30 30 30 30 30 30 30 30 20 37 66 20 34 35 20 34ASCII的“00000000 7f 45...”完全错乱。正确做法在Wireshark中右键 → “Copy → Bytes → Hex Stream”无空格无换行或用tshark命令tshark -r traffic.pcap -Y http.response -T fields -e http.file_data | xxd -r -p body.bin若必须手动复制用正则替换^.*?([0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2} [0-9a-f]{2}).*$→$1再删除所有空格。5.4 文件完整性陷阱CRC校验失败却不报错的静默损坏还原PNG时WinHex显示文件以89504e47开头以49454e44结尾file命令也识别为PNG但用eog打开却黑屏。用pngcheck -v recovered.png检查ERROR: recovered.png: invalid chunk length (too large)问题出在IDAT块的CRC校验和。PNG规范要求每个chunkIHDR、IDAT、IEND后跟4字节CRC。Wireshark导出的TCP payload可能截断了最后几个字节或WinHex拼接时多粘贴了1字节。解决方案用xxd -g1 recovered.png | tail -20查看末尾确认IEND前4字节是否为00 00 00 00合法IEND长度用pngfix --force recovered.png自动修复CRC需安装pngtools终极手段用Python重写PNG头强制校验import zlib, struct with open(recovered.png, rb) as f: data f.read() # 找到IEND块00 00 00 00 49 45 4e 44 ae 42 60 82 iend_pos data.rfind(b\x00\x00\x00\x00\x49\x45\x4e\x44) if iend_pos ! -1: fixed data[:iend_pos4] b\x49\x45\x4e\x44 struct.pack(I, zlib.crc32(bIEND b\x00\x00\x00\x00)) with open(fixed.png, wb) as f: f.write(fixed)这些坑每一个都曾让我在比赛最后十分钟疯狂刷新Wireshark汗湿键盘。但正是它们教会我流量分析不是炫技而是对细节的绝对敬畏。每一个字节的位置、每一个时间戳的时区、每一个空格的存在都可能是通往flag的唯一路径。

查看全文

http://www.rkmt.cn/news/1378296.html