【IF-SAFE-02】功能安全入门:基础设施安全 - 电源/时钟/SCU的守护
IF-SAFE-02_基础设施安全
【IF-SAFE-02】基础设施安全 - 电源/时钟/SCU的守护
本文深入解析AURIX™ TC3xx芯片的基础设施安全机制,涵盖PMS电源监控、时钟冗余备份、SCU看门狗及温度传感器的安全设计原理,揭示芯片如何通过多层防护机制应对共因失效(CCF)风险。
系列导航
| 序号 | 文章 | 状态 |
|---|---|---|
| IF-SAFE-02 | 基础设施安全 - 电源/时钟/SCU的守护 | 本文 |
| IF-SAFE-01 | 功能安全入门:ISO 26262与TC3xx安全架构 | 已发布 |
| IF-SAFE-03 | 安全机制详解:从Lockstep到ECC | 规划中 |
一、安全概念:为什么基础设施安全如此重要?
1.1 共因失效(CCF)的本质威胁
在功能安全系统中,冗余设计是提高可靠性的经典手段。但冗余通道如果共享某些公共资源,单点故障可能导致所有通道同时失效——这便是共因失效(Common-Cause Failure, CCF)。
基础设施模块正是CCF的起点:
- 电源系统(PMS):所有外设和内核共享供电网络,一旦电源异常,整个芯片陷入不可预测状态
- 时钟系统:时钟是数字电路的心脏,时钟异常会导致所有逻辑运算紊乱
- 复位/控制单元(SCU):负责管理芯片状态转换,复位异常可能导致芯片无法进入安全状态
ISO 26262对CCF有严格要求:冗余通道之间的CCF必须通过特殊设计(如物理隔离、多样化实现)来降低其发生概率。
MCU基础设施安全全景
图1:TC3xx基础设施安全模块全景(来源:AN1002 Ch2)。图中标注了电源监控系统(EVR/ADC)、时钟系统(PLL/OSC)和系统控制单元(SCU)三大核心模块
1.2 TC3xx基础设施安全架构
TC3xx将基础设施安全机制分为三个层次:
| 层次 | 模块 | 安全目标 | 设计原则 |
|---|---|---|---|
| 供电层 | PMS + EVR | 电源完整性 | 主/副双通道监控 |
| 时钟层 | OSC + PLL + CCU | 时钟正确性 | 冗余备份 + 频率合理性校验 |
| 控制层 | SCU + SMU | 状态可控性 | 多重看门狗 + 独立监控 |
本篇文章将逐一解析这三个层次的安全机制设计。
二、电源管理安全:PMS与ADC双通道监控
2.1 电源系统架构
AURIX™ TC3xx的电源系统(PMS)包含多个电源域,每个电源域都配备独立的安全监控:
电源轨分类:
| 电源轨 | 用途 | 电压等级 | 监控要求 |
|---|---|---|---|
| VDD | 内核逻辑供电 | 1.3V/1.5V | 主ADC + 副ADC双监控 |
| VDDP3 | 外设供电 | 3.3V | 主ADC + 副ADC双监控 |
| VEXT | 外部接口供电 | 3.3V/5V | 主ADC + 副ADC双监控 |
| VEVRSB | 待机电源 | 3.3V | 独立备用域监控 |
| VDDM | ADC专用供电 | 3.3V | 模拟域隔离监控 |
| VDDPD | PLL/振荡器供电 | 3.3V | 低噪声模拟供电 |
2.2 主ADC与副ADC双通道监控
TC3xx对每个关键电源轨实施主/副双通道监控,这是应对共因失效的核心设计:
电源监控架构
图2:电源轨主/副ADC监控架构(来源:AN1002 Ch2 Figure 3)。Primary ADC负责常规过压/欠压检测,Secondary ADC提供独立备份监控,两路结果同时上报SMU
主ADC监控通道:
- 内置电压调节器(EVR)集成了过载和短路检测
- 主ADC对VDD、VDDP3、VEXT等电源轨进行连续采样
- 通过比较器实现过压/欠压阈值判定
- 检测结果直接上报SMU_core
副ADC监控通道:
- 独立于主ADC的完整测量链路
- 使用独立的参考电压源(VREF)
- 物理上与主ADC隔离,避免单点失效
- 同时上报SMU_core和SMU_stdby
双通道协同机制:
主ADC检测结果 ──┬──> SMU_core │ └──> 比较器 ───> 不一致告警 │ (主副通道交叉验证) 副ADC检测结果 ──┴──> SMU_stdby当主副通道检测结果不一致时,触发更高优先级的SMU告警,确保即使单通道失效也不影响整体安全检测能力。
2.3 Power BIST与SHPBG
Power BIST(Built-In Self-Test)是TC3xx上电阶段的安全自检机制:
- 启动时BIST:芯片上电后自动执行电源自检,验证内部电压基准和监控逻辑
- 运行时SHPBG检查:待机期间,Secondary Monitor定期检查主电源基准(PLPBG),确保基准漂移不导致误判
这种设计实现了: - 上电阶段故障检测(不依赖软件) - 运行阶段基准自检(防止漂移累积) - 待机阶段备份验证(覆盖全生命周期)
2.4 Flash电源监控
Flash存储器对电源稳定性要求极高,TC3xx对Flash供电实施专项监控:
| 监控类型 | 检测目标 | SMU响应 |
|---|---|---|
| Flash供电监控 | VDDPD电源质量 | 欠压→Flash操作挂起 |
| 过压/欠压尖峰检测 | 电源瞬态扰动 | 告警→软件处理 |
| 冷复位触发 | VDD低于最低要求 | 强制复位 |
三、时钟系统安全:冗余与合理性校验
3.1 时钟系统架构
TC3xx的时钟系统包含多个层级,从时钟源到最终分频输出:
时钟监控框图
图3:时钟源与时钟分频内置安全机制(来源:AN1002 Ch2 Figure 4)。PLL输出通过fBACK参考时钟进行合理性校验,时钟分频器通过Safety Flip-Flop防单比特翻转
时钟源层级:
| 时钟源 | 频率 | 用途 | 备份能力 |
|---|---|---|---|
| OSC | 4-20MHz | 外部晶振输入 | 主时钟源 |
| PLL0 (SYSPLL) | 200-500MHz | 系统时钟 | 可切换至fBACK |
| PLL1 (PERPLL) | 200-500MHz | 外设时钟 | 可切换至fBACK |
| PLL2 | 200-500MHz | 专用外设 | 可切换至fBACK |
| fBACK | 100kHz-10MHz | 备份时钟 | 独立RC振荡器 |
3.2 时钟冗余备份机制
备份时钟(fBACK)是TC3xx的最后一道时钟防线。即使所有PLL失锁,备份时钟仍能维持芯片基本运转:
备份时钟特性: - 基于内部RC振荡器,无需外部晶振 - 精度较低(±10%),但足以维持安全监控 - 当检测到PLL失锁时,自动切换至备份时钟
PLL失锁检测: - PLL内置Lock Detection电路,持续监测输出频率稳定性 - 失锁原因:晶振断裂、陶瓷谐振器失效、外部时钟线断路 - 检测到失锁后,立即触发SMU告警
3.3 时钟合理性校验(Clock Alive Monitor)
TC3xx的CCU(Clock Control Unit)实现了严格的时钟合理性校验机制:
时钟分配网络
图4:时钟分配网络受合理性检查保护(来源:AN1002 Ch2 Figure 5)。CCU对每个时钟域实施Toggle Detect和Plausibility Check
Toggle Detect(翻转检测):
每个时钟域输出端部署计数器,检测时钟信号是否正常翻转:
| 监控对象 | 检测逻辑 | 超时响应 |
|---|---|---|
| SPB时钟 | 定时检测翻转次数 | fSPB停止→告警 |
| PLL0时钟 | 与fBACK对比频率 | PLL0失锁→切换备份 |
| PLL1/PLL2 | 与fBACK对比频率 | 失锁→切换备份 |
| fBACK时钟 | 自检RC振荡器 | 异常→告警 |
Plausibility Check(合理性校验):
将各时钟域输出与参考时钟对比,检测分频比是否被篡改:
fPLL0 / fBACK ──┬──> 比值合理性判断 └──> 异常→告警+切换备份时钟3.4 Safety Flip-Flop(SFF)保护
时钟配置寄存器(与安全相关的SFR)通过Safety Flip-Flop机制保护:
SFF工作原理: 1. 每个受保护寄存器的每个比特位都配对一个镜像比特 2. 触发器周期性比对原比特与镜像比特的值 3. 任何单比特翻转都会被立即检测 4. 检测到翻转时,生成SMU告警
覆盖范围: - 时钟分频比配置寄存器 - PLL参数配置寄存器 - 时钟源选择寄存器
这确保了即使发生瞬态故障(如宇宙射线导致的单粒子翻转),时钟配置也不会被意外修改。
四、SCU系统控制单元:看门狗与安全控制
4.1 SCU架构概述
系统控制单元(SCU)是TC3xx的基础设施控制核心,集成了多个安全相关子模块:
| 子模块 | 功能 | 安全等级 |
|---|---|---|
| 复位控制单元 | 系统复位管理 | ASIL-D |
| 紧急停止(ES) | 快速故障响应 | ASIL-D |
| 看门狗定时器 | 程序执行时序监控 | ASIL-B/D |
| 陷阱生成器 | 异常条件捕获 | ASIL-B |
SCU内部实现了多重保护机制(SFF、信号冗余等),以检测可能引发严重故障的瞬态或永久性故障。
4.2 多层级看门狗体系
TC3xx提供完整的看门狗体系,从单核到系统级逐层防护:
看门狗分类:
| 看门狗类型 | 数量 | 监控对象 | 独立密码 | ASIL等级 |
|---|---|---|---|---|
| CPU WDT | 每个CPU一个 | 单核软件执行流 | 是 | ASIL-B |
| Safety WDT | 1个 | 多核任务调度 | 是 | ASIL-D |
| Window WDT | 与Safety WDT共用 | 喂狗时序 | 是 | ASIL-D |
CPU看门狗: - 每个CPU核心独立配备看门狗 - 监控该核的软件执行是否超时 - 超时后触发该CPU的SMU告警
Safety看门狗: - 系统级看门狗,监控多核协同执行 - 防止单个核“失控”导致系统级故障 - 超时后触发系统级响应(可配置为复位)
Window看门狗: - 要求喂狗操作必须在指定时间窗口内完成 - 窗口太早(过早喂狗)或窗口太晚(超时)都是异常 - 有效防止虚假喂狗行为
4.3 紧急停止(Emergency Stop)功能
紧急停止是SCU提供的快速故障响应机制:
工作原理: 1. 当检测到严重故障(如Lockstep比较器报异常) 2. Emergency Stop立即置位安全输出引脚 3. 该信号直接通知外部PMIC执行安全关断 4. 不依赖软件干预,确保最快响应
典型应用场景: - 自动紧急制动(AEB)失效时,立即切断动力 - 安全气囊展开后,触发下电保护 - 电池管理系统异常时,执行快速放电保护
4.4 Endinit保护机制
SCU实现了严格的寄存器写保护机制——Endinit和Safety Endinit:
Endinit: - 普通保护级别,防止意外修改 - 解锁后有时间窗口限制,超时自动锁定
Safety Endinit: - 最高保护级别,用于安全关键寄存器 - 解锁需要特定密码序列 - 配置完成后立即锁定
安全相关寄存器(受Endinit保护): - 看门狗配置寄存器 - SMU告警配置寄存器 - 时钟分频配置寄存器 - 复位控制寄存器
五、温度监控:热失控防护
5.1 双温度传感器布局
温度是影响芯片可靠性的关键因素。TC3xx配备两个温度传感器,布局在芯片最热区域:
| 传感器 | 位置 | 监控目标 | SMU路由 |
|---|---|---|---|
| PMS_DTS | 靠近PMS模块 | 电源域热状况 | SMU_stdby |
| DTS_Core | 靠近CPU集群 | 内核热状况 | SMU_stdby |
5.2 温度告警机制
每个温度传感器提供两级告警:
| 告警类型 | 触发条件 | 建议响应 |
|---|---|---|
| 温度预警 | 接近工作温度上限 | 降低负载/增强散热 |
| 温度超限 | 超出工作温度范围 | 强制降频或复位 |
温度传感器直接上报SMU_stdby,确保即使主系统失效也能检测到热异常。
六、故障响应:SMU的汇聚与分发
6.1 基础设施告警汇总
TC3xx的基础设施模块产生的告警统一汇聚到SMU:
| 告警来源 | 告警类型 | SMU目标 |
|---|---|---|
| PMS主ADC | 电源过压/欠压 | SMU_core |
| PMS副ADC | 电源监控异常 | SMU_stdby |
| CCU | 时钟失锁/停止 | SMU_stdby |
| SCU | 看门狗超时 | SMU_core |
| SCU | 紧急停止触发 | SMU_core |
| DTS | 温度超限 | SMU_stdby |
6.2 SMU_core与SMU_stdby协同
SMU的两个子系统(SMU_core和SMU_stdby)相互监督:
SMU_core ──> smu_core_alive ──> SMU_stdby监控 │ SMU_stdby ──> smu_stdby_alive ──> SMU_core监控任一方失效都会触发对方的告警,避免单点故障导致整个安全监控体系失效。
6.3 故障响应动作配置
根据告警类型,SMU可配置不同的响应动作:
| 响应级别 | 动作 | 典型应用 |
|---|---|---|
| L1 | 记录日志 | 次要异常 |
| L2 | 中断通知 | 可恢复故障 |
| L3 | NMI不可屏蔽中断 | 严重异常 |
| L4 | CPU复位 | 安全相关故障 |
| L5 | 系统复位 | 灾难性故障 |
| L6 | FSP外部协议 | 需PMIC协同 |
七、与硬件模块的联动
7.1 FSP外部故障协议
FSP(Fail Silent Protocol)是TC3xx与外部PMIC通信的安全协议:
工作流程: 1. MCU检测到内部故障 2. MCU通过FSP引脚向PMIC发送错误信号 3. PMIC独立执行预定义的安全动作 4. 不依赖MCU软件,确保外部安全路径
典型配置:
MCU故障 → FSP0/FSP1 → PMIC ERR引脚 → 电源关断/安全状态7.2 PMIC协同方案
TC3xx常配合英飞凌TLF35584/TLF38584等PMIC使用,实现完整的安全系统:
| 功能 | MCU侧 | PMIC侧 |
|---|---|---|
| 电压监控 | 主/副ADC | 独立电压检测 |
| 看门狗 | Safety WDT | ERR引脚心跳 |
| 故障响应 | SMU+FSP | 独立安全关断 |
| 复位管理 | SCU | 看门狗+欠压复位 |
本篇总结
核心要点
- 基础设施模块是共因失效(CCF)的潜在起点,电源、时钟、复位等公共资源需要特殊设计来降低CCF风险
- PMS采用主/副双ADC监控机制,主通道负责常规检测,副通道提供物理隔离的备份监控
- 时钟系统实现三级冗余:主PLL + 备份时钟fBACK + CCU合理性校验,任一层失效都能切换到安全状态
- SCU集成多层级看门狗,CPU WDT监控单核执行,Safety WDT监控系统级协同
- 温度传感器覆盖PMS和CPU两个最热区域,提供热失控的早期预警
- SMU_core与SMU_stdby相互监督,避免单点失效导致安全监控失效
下篇预告
IF-SAFE-03将深入解析TC3xx的处理单元安全机制:
- Lockstep双核冗余的硬件实现原理
- ECC/EDC在SRAM和PFlash中的具体实现
- LBIST/MBIST自检机制与故障注入测试
- 端口安全与外设保护机制
参考资料
- Infineon,AN1002 - FuSa in a nutshell: Introduction to AURIX™ TC3xx functional safety, V1.1 2025-07-14
- Infineon,TC3xx User Manual Part1- System Control Unit (SCU) Chapter
- Infineon,TC3xx User Manual Part1- Clock Control Unit (CCU) Chapter
- Infineon,TLF35584 Datasheet- OPTIREG™ PMIC for Automotive Safety Systems
- ISO 26262:2018, Part 5 - Hardware-level product development (CCF analysis guidance)
英飞凌TC3XX/硬件功能安全专栏:https://blog.csdn.net/weixin_43391096/category_13168776.html
🔍 搜“叶修”找到我 | CSDN:叶修_A | 知乎/小红书/抖音:叶修
