当前位置：首页 > news >正文

STM32 IAP升级太慢？试试用DMA自定义大容量FIFO来加速串口固件传输

news 2026/5/31 4:02:55

STM32 IAP升级太慢？用DMA+环形缓冲区实现高速固件传输

1. 为什么传统IAP升级效率低下

在嵌入式产品迭代过程中，固件空中升级（IAP）功能已成为刚需。但许多工程师都遇到过这样的困扰：通过串口传输固件时，速度慢如蜗牛，一个几百KB的bin文件需要等待数分钟。以常见的115200波特率为例，理论传输速度仅为11.52KB/s，实际有效数据速率往往更低。

传统串口IAP方案通常采用以下两种方式：

中断接收：每收到一个字节触发一次中断，频繁中断导致CPU效率低下
查询接收：需要轮询串口状态寄存器，占用大量CPU资源

更糟糕的是，这两种方式通常需要逐字节写入Flash，而STM32的Flash编程需要等待时间（典型值约40μs/半字）。这就形成了"串口等Flash，Flash等串口"的死循环。

// 典型中断接收代码示例 void HAL_UART_RxCpltCallback(UART_HandleTypeDef *huart) { static uint32_t writeAddr = APP_ADDRESS; if(huart->Instance == USART1) { STMFLASH_Write(writeAddr, &rxByte, 1); // 逐字节写入Flash writeAddr++; HAL_UART_Receive_IT(huart, &rxByte, 1); // 重新开启中断 } }

2. DMA+环形缓冲区的加速方案

2.1 核心架构设计

我们提出的高速IAP方案采用三级缓冲结构：

DMA直接接收层：利用STM32的DMA控制器自动将串口数据搬运到内存
大容量环形缓冲区：作为软件FIFO缓存数据（推荐4096字节）
Flash编程缓冲区：批量写入Flash的中间缓存（2048字节）

这种架构的优势在于：

DMA自动搬运数据，零CPU干预
大容量缓冲区平滑数据传输波动
批量写入Flash减少等待时间

2.2 关键参数计算

参数	计算值	说明
串口理论速率	115200/10 = 11.52KB/s	按1起始位+8数据位+1停止位计算
Flash写入速度	2048B/(2048/2*40μs) ≈ 25KB/s	半字(16bit)编程模式
缓冲区大小	≥2048B	需匹配Flash编程块大小
安全裕度	20%	应对数据突发情况

提示：选择缓冲区大小时应确保：环形缓冲区容量 ≥ 2×Flash编程块大小

3. 具体实现步骤

3.1 硬件与工程配置

首先在CubeMX中进行必要配置：

启用USART1及其DMA接收通道
配置DMA为循环模式（Circular）
设置内存地址自增，外设地址不增
启用DMA传输完成中断

// DMA初始化关键代码 hdma_usart1_rx.Instance = DMA1_Channel5; hdma_usart1_rx.Init.Direction = DMA_PERIPH_TO_MEMORY; hdma_usart1_rx.Init.PeriphInc = DMA_PINC_DISABLE; hdma_usart1_rx.Init.MemInc = DMA_MINC_ENABLE; hdma_usart1_rx.Init.Mode = DMA_CIRCULAR; // 循环模式 HAL_DMA_Init(&hdma_usart1_rx);

3.2 环形缓冲区实现

我们设计一个高效环形缓冲区结构体：

typedef struct { uint8_t buffer[RING_BUFF_SIZE]; // 数据存储区 uint32_t head; // 读取位置指针 uint32_t tail; // 写入位置指针 uint32_t capacity; // 缓冲区总容量 } ring_buffer; // 初始化函数 void ring_buffer_init(ring_buffer *rb) { rb->head = 0; rb->tail = 0; rb->capacity = RING_BUFF_SIZE; } // 数据可用量计算 uint32_t ring_buffer_available(ring_buffer *rb) { return (rb->tail >= rb->head) ? (rb->tail - rb->head) : (rb->capacity - rb->head + rb->tail); }

3.3 DMA与缓冲区的协同工作

DMA接收完成中断中处理缓冲区指针：

void HAL_UART_RxCpltCallback(UART_HandleTypeDef *huart) { if(huart->Instance == USART1) { uint32_t dma_remaining = hdma_usart1_rx.Instance->CNDTR; uint32_t received = RX_BUFFER_SIZE - dma_remaining; // 更新环形缓冲区尾指针 g_rx_buffer.tail = (g_rx_buffer.tail + received) % RING_BUFF_SIZE; // 检查缓冲区溢出 if(ring_buffer_available(&g_rx_buffer) > RING_BUFF_SIZE - RX_BUFFER_SIZE) { // 处理缓冲区溢出错误 } } }

4. 完整IAP流程实现

4.1 Bootloader程序设计

Bootloader的主要任务包括：

初始化硬件（时钟、串口、Flash等）
检测升级指令（如特定串口命令）
接收固件数据并写入Flash
验证固件完整性
跳转到应用程序

// Bootloader主循环示例 while(1) { uint32_t available = ring_buffer_available(&g_rx_buffer); if(available >= FLASH_BLOCK_SIZE) { // 从环形缓冲区读取一个块 read_block_from_ring_buffer(flash_buffer, FLASH_BLOCK_SIZE); // 写入Flash HAL_FLASH_Program(FLASH_TYPEPROGRAM_HALFWORD, current_address, (uint32_t)flash_buffer); current_address += FLASH_BLOCK_SIZE; } // 超时检测 if(HAL_GetTick() - last_rx_time > TIMEOUT_MS) { // 跳转或重试逻辑 } }

4.2 应用程序工程配置

为确保应用程序能与Bootloader协同工作，需要：

修改工程链接脚本，设置正确偏移量（如0x08010000）
调整中断向量表位置
生成.bin文件用于传输

// APP起始处的中断向量表重映射 SCB->VTOR = FLASH_BASE | 0x10000; // 假设Bootloader占用64KB

4.3 性能优化技巧

双缓冲技术：准备两个Flash写入缓冲区，当一个在写入时另一个填充数据
提前擦除：在数据传输期间并行执行Flash扇区擦除
压缩传输：在PC端压缩固件，设备端解压（需权衡CPU开销）

// 双缓冲示例 uint8_t flash_buf[2][FLASH_BLOCK_SIZE]; uint8_t active_buf = 0; while(receiving) { if(ring_buffer_available() >= FLASH_BLOCK_SIZE) { // 填充非活动缓冲区 read_block_from_ring_buffer(flash_buf[!active_buf], FLASH_BLOCK_SIZE); // 等待前一次写入完成 while(flash_busy); // 交换缓冲区 active_buf = !active_buf; flash_busy = 1; start_flash_write(flash_buf[active_buf]); } }

5. 常见问题与解决方案

5.1 数据传输不稳定

症状：数据丢失或校验错误
解决方案：

增加硬件流控（RTS/CTS）
降低波特率测试
添加重传机制

5.2 Flash写入失败

症状：程序跳转后无法运行
检查清单：

确认Flash解锁成功
检查写入地址对齐（半字对齐）
验证供电电压稳定
检查选项字节配置

5.3 缓冲区溢出处理

当数据接收速度持续高于处理速度时，需要：

增大环形缓冲区容量
提高处理优先级（如使用RTOS任务）
实现流控暂停传输

// 流控实现示例 void flow_control(bool enable) { if(enable) { HAL_GPIO_WritePin(FLOW_CTRL_GPIO, FLOW_CTRL_PIN, GPIO_PIN_SET); } else { HAL_GPIO_WritePin(FLOW_CTRL_GPIO, FLOW_CTRL_PIN, GPIO_PIN_RESET); } }