当前位置：首页 > news >正文

RRAM神经加速器端到端设计：从算法到电路的电路级验证流程

news 2026/5/27 13:15:22

1. 项目概述：为什么我们需要一个端到端的RRAM神经加速器设计流程？

在边缘AI和物联网设备爆发的今天，我们这些做芯片设计的工程师，每天都在和功耗、面积、算力这几个“老朋友”较劲。传统的冯·诺依曼架构，计算和存储分离，数据在处理器和内存之间来回搬运产生的“内存墙”问题，已经成为提升能效比的最大瓶颈。存内计算（In-Memory Computing, IMC）的概念，就像是在内存里直接开个“小灶”，让数据在原地完成计算，理论上能大幅减少数据搬运的能耗。而电阻式随机存取存储器（RRAM），凭借其非易失性、多态存储和与CMOS工艺兼容的特性，成为了实现模拟存内计算的明星器件。

但理想很丰满，现实很骨感。当你兴冲冲地把在PyTorch里训练好、精度高达99%的神经网络模型，映射到由成千上万个1T1R（一个晶体管+一个RRAM）单元构成的物理阵列上时，往往会发现识别准确率掉得让人心疼。这不是模型的问题，而是从“数字理想国”到“模拟现实世界”的映射过程中，丢失了太多细节：RRAM器件的电导值不是理想、均匀分布的；每个器件之间存在着工艺偏差（Device-to-Device Variability）；读写电路的非线性；还有布局布线引入的寄生电阻电容（RC Parasitics）……这些在算法仿真中被忽略的非理想效应，在电路层面会累积成致命的误差。

因此，仅仅在系统层面用行为模型做仿真是远远不够的。我们必须建立一个能够贯通从算法到物理实现的“端到端”设计流程。这个流程的核心价值在于，它允许我们在流片（Tape-out）之前，就以电路级的精度去评估和预测神经网络在真实硬件上的表现。这就像在建造大桥之前，不仅看了设计图纸，还用高保真的风洞和材料应力模型做了全面测试，能极大降低流片失败的风险。本文要探讨的，正是这样一个基于RRAM的神经加速器设计流程，以及如何通过电路级仿真，为我们的设计信心加上一道关键的保险。

2. 核心设计思路与流程拆解：如何搭建算法与电路之间的桥梁？

传统的芯片设计流程和AI算法开发流程，几乎是两条平行线。算法工程师在PyTorch、TensorFlow里关心的是loss曲线和准确率；电路工程师在Cadence、SPICE里折腾的是时序、功耗和信号完整性。把训练好的神经网络权重“丢”给电路工程师去实现，常常因为中间缺乏统一的、可量化的评估接口而导致反复迭代，效率低下。

我们提出的端到端设计流程，核心目标就是在这两者之间架设一座双向通行的桥梁。这座桥梁不是简单的文件格式转换，而是一个包含模型、接口和验证方法的完整体系。

2.1 流程全景图与核心组件

整个流程可以概括为“自上而下设计，自下而上验证”的闭环。

算法训练与量化：首先，在PyTorch框架内（结合Brevitas等量化工具）完成神经网络的训练和量化感知训练（QAT）。这里的关键是将高精度的浮点权重，量化到有限的离散电平（例如3-bit有符号整数），以匹配RRAM硬件有限的电导状态。
权重到电导的映射：量化后的权重值需要被映射到RRAM器件的电导值上。对于差分对结构（用两个RRAM单元表示一个正负权重），映射关系需要精心设计。一个常见的挑战是，RRAM的实际可编程电导值并非理想均匀分布，这种非均匀性会直接引入计算误差。
Python封装接口（Wrapper）：这是流程中的“翻译官”和“调度员”。它的核心职责有两个：
- 生成电路仿真激励：将算法推理过程中，特定层（如全连接层）的输入激活值，转换为Cadence Spectre等电路仿真器能够识别的电压波形文件（如SPICE格式的.ic或.vec文件）。
- 提取并回传仿真结果：驱动电路仿真器完成模拟计算后，从输出节点（如源线SL上的电流）读取结果，将其转换回数字域（如ADC后的数字码），并插回PyTorch的数据流中，继续后续层的计算或最终分类判断。
电路仿真与建模：在Cadence Spectre环境中，使用包含1T1R单元、外围电路（如字线/位线驱动器、读出放大器）以及布局寄生参数提取（PEX）后网表的电路进行仿真。这里的主角是我们为1T1R单元开发的基于查找表的Verilog-A模型。
性能评估与迭代：比较纯PyTorch仿真结果与经过电路仿真后的端到端识别准确率。如果精度损失在可接受范围内，流程通过；如果损失过大，则需要反馈到前端，重新调整网络结构、训练策略或量化方案，甚至优化电路设计，开始新一轮迭代。

2.2 为什么是Verilog-A和查找表模型？

在电路仿真中，对RRAM这类新兴器件建模有多种选择：物理方程模型、宏模型、行为级Verilog-A模型等。我们选择基于查找表的Verilog-A模型，主要基于以下几点工程考量：

仿真速度与精度的平衡：物理方程模型（如Stanford、Knowm模型）虽然物理意义清晰，但包含复杂的微分方程和非线性函数，在包含成千上万个器件的大规模阵列仿真中，仿真速度极慢，难以进行蒙特卡洛等统计性分析。查找表模型通过预存实测或精细仿真的I-V数据，在仿真时直接插值查询，速度上有数量级的提升。
与工业级EDA工具的无缝集成：Verilog-A是行业标准的模拟行为建模语言，被Cadence Spectre、Synopsys HSPICE等主流工具原生支持。我们的模型可以像调用一个标准MOS管模型一样，被直接例化到电路网表中，与现有的标准单元库、IO库协同仿真，这对于进行包含数字控制逻辑、模拟前端、电源管理的全芯片混合信号仿真至关重要。
灵活封装非理想效应：查找表的数据源直接来自于对实际流片器件的准静态测试数据。这意味着，器件的所有非理想特性，如电导值的分布、循环耐久性（Endurance）引起的漂移、器件间的差异性等，都被“冻结”并编码在了查找表中。我们可以通过更换或处理查找表数据，轻松构建不同保真度的模型版本，用于研究特定非理想效应的单独影响。
支持统计性分析：通过Verilog-A语言内的$random函数或与仿真器的统计引擎交互，我们可以方便地在模型内部实现参数扰动，从而进行蒙特卡洛仿真，评估工艺波动对系统性能的影响。这是行为模型相比固定网表的一个巨大优势。

实操心得：模型抽象级别的选择在项目初期，我们曾尝试使用更简单的电阻-晶体管串联模型作为替代。虽然仿真速度最快，但它完全无法反映RRAM的非线性I-V特性和电导状态离散化的影响，评估结果过于乐观。而基于查找表的Verilog-A模型，在保证了必要精度的前提下，将仿真时间控制在了可接受的范围内（通常是纯SPICE晶体管级仿真的1/10到1/5），是进行架构探索和早期验证的绝佳工具。

3. 核心环节实现：从算法到电路的映射与仿真

3.1 1T1R Verilog-A查找表模型的构建

模型的准确性直接决定了整个设计流程的可信度。我们的模型构建基于对IHP 130nm SiGe BiCMOS工艺平台上制造的1T1R器件进行的准静态测试。

第一步：数据采集与处理我们使用Keithley 4200A参数分析仪，对多个1T1R单元进行了多次SET（从高阻态HRS到低阻态LRS）和RESET（从LRS到HRS）循环测试。测试中，通过精细控制栅极电压(Vgate)��顶电极电压，可以将RRAM编程到多个中间电阻状态（MLC）。关键的一步是，从海量的测试数据中，提取出用于构建查找表的“特征曲线”。我们选择在Vgate=0.9V下读取的HRS状态作为基准，因为该点下器件变异较小，且能保证在映射权重时获得近似等间距的电导值。

第二步：Verilog-A模型实现模型的核心是一个多维查找表。以栅压Vg、漏源电压Vds和编程状态State作为输入索引，输出漏极电流Ids。在Verilog-A中，这可以通过lookup函数或table_model来实现。

// 简化的Verilog-A模型结构示例 `include "constants.vams" `include "disciplines.vams" module rram_1t1r_lut (g, d, s); inout g, d, s; electrical g, d, s; parameter integer state = 0; // 编程状态，0=HRS, 1,2,3...=不同的LRS real Vg, Vds, Ids; real lut_Ids[0:7][0:31][0:31]; // 假设有8个状态，每个状态32x32的Vg-Vds查找表 analog begin Vg = V(g, s); Vds = V(d, s); // 边界检查与插值（实际代码会更复杂，包含线性或样条插值） Ids = interpolate_2d_table(lut_Ids[state], Vg, Vds); // 贡献支路电流 I(d, s) <+ Ids; // 栅极电流模型（通常很小，可简化） I(g, s) <+ 0.0; end endmodule

我们构建了三个不同保真度的模型版本，用于渐进式分析：

模型 (a)：理想均匀间距模型。电导值完全按照理论映射等间距设置，用于评估理想硬件下的性能上限，并作为基准。
模型 (b)：基于实测中值的模型。电导值采用所有测试器件在各个状态下的中位数值。这引入了RRAM电导值非均匀分布的现实因素。
模型 (c)：包含器件间变异的统计模型。电导值不再是一个固定值，而是从一个基于实测数据拟合出的统计分布（如对数正态分布）中随机抽取。这是最接近现实情况的模型，必须配合蒙特卡洛仿真使用。

3.2 蒙特卡洛仿真中的随机种子管理

当使用模型(c)进行包含成百上千个1T1R实例的蒙特卡洛仿真时，一个容易被忽视但至关重要的问题是：如何确保每个实例在每次蒙特卡洛运行中，都能获得独立且可重复的随机电导值？

Cadence Spectre在运行蒙特卡洛时，会为整个仿真提供一个顶层种子（Seed S1）。但如果我们在Verilog-A模型内部直接使用这个种子来生成随机数，那么在同一轮蒙特卡洛仿真中，所有实例的随机数序列将是完全相关的，这完全错误地模拟了工艺波动（工艺波动是器件间独立的）。

我们的解决方案是引入一个实例特异性种子。具体流程如下：

仿真器为每次蒙特卡洛运行生成全局种子S1。
在网表中，为每个1T1R实例传递一个唯一的标识符（如其在阵列中的行号i和列号j）。
在Verilog-A模型内部，将全局种子S1与实例标识符（经过一个哈希函数处理，作为种子S2）进行组合（例如，通过异或操作），生成一个该实例独有的新种子S_unique = f(S1, S2)。
使用S_unique来驱动模型内部的$random函数，为这个实例抽取电导值。

这样，既保证了不同实例之间的随机独立性（模拟真实的器件间变异），又保证了同一设计在不同蒙特卡洛运行之间的结果可重复性（对于调试和对比至关重要）。

3.3 Python封装接口的设计细节

这个接口是连接PyTorch和Cadence的“粘合剂”，其稳定性和易用性决定了整个流程的效率。我们将其设计为一个Python类，主要包含以下方法：

generate_stimuli(netlist_template, input_vectors, weight_matrix): 这是核心函数。它接收PyTorch中某一层（如全连接层）的输入张量（input_vectors，一批图像数据）和训练好的权重矩阵（weight_matrix）。
- 权重映射：根据预设的映射规则（如表1所示），将量化的权重值转换为目标电导状态。
- 生成编程脉冲：根据目标状态，生成用于对1T1R阵列进行编程的电压波形文件。这包括对字线（WL）施加特定的栅压Vg，以及对位线（BL）施加编程电压Vprog。
- 生成推理输入：将输入张量（经过归一化）转换为模拟电压值，生成施加在位线（BL）上的输入电压波形。
- 网表实例化：将一个包含占位符的网表模板文件中的参数（如阵列大小、实例化名称）替换为实际值，并插入生成的电压源描述，最终生成可供Spectre直接运行的.scs网表文件。
run_simulation(simulator_path, netlist_path): 调用子进程，在后台启动Cadence Spectre（或APS）仿真器，执行上一步生成的网表。可以设置仿真精度、线程数等参数。
parse_output(raw_output_file): 仿真结束后，解析Spectre输出的结果文件（通常是.raw或.tran文件）。关键是从指定的输出节点（源线SL，通常连接到一个虚拟的电流表或跨阻放大器的输入端）读取电流波形。
convert_current_to_digital(output_currents, adc_resolution): 将读取到的模拟电流值，通过一个简化的ADC模型（如线性量化）转换回数字域。这个数字结果就代表了该层在模拟硬件上的计算结果。
integrate_back_to_pytorch(digital_output): 将转换后的数字张量，重新包装成PyTorch的Tensor，并替换掉原计算图中该层的输出。这样，PyTorch可以继续用这个“经过硬件洗礼”的结果进行后续层的计算或计算最终损失。

注意事项：信号同步与时间尺度电路仿真是在连续时间域进行的，而神经网络推理在数字域是离散的。在生成输入电压波形时，需要为每个输入样本分配足够长的仿真时间窗口，以确保电路达到稳态。同时，要留出编程阶段和推理阶段之间的间隔，并确保仿真器的初始条件设置正确（如.ic语句）。一个常见的错误是时间步长设置不当，导致仿真速度过慢或结果不收敛。

4. 案例研究：MNIST与CIFAR-10任务的电路级验证

为了验证流程的有效性，我们选择了两个经典但复杂度不同的任务：MNIST手写数字识别和CIFAR-10图像识别。

4.1 神经网络架构与量化

MNIST网络：一个轻量级CNN，包含两个卷积层和两个全连接层，参数量约2.2万。输入为28x28的灰度图。
CIFAR-10网络：基于ResNet架构，包含两个残差块，参数量约658万。输入为32x32的RGB三通道图。

两者均在Brevitas框架下进行3-bit有符号权重量化感知训练（QAT）。对于差分对映射的1T1R阵列，3-bit权重（-4到+3）恰好可以映射到2-bit电导状态（4个电平）的差分组合上。训练后，MNIST和CIFAR-10在纯PyTorch测试集上的准确率分别达到97%和86%。

4.2 硬件映射与电路设计

我们重点对两个网络的最后一个全连接层进行硬件映射和电路仿真。该层被映射到一个10x50的1T1R交叉杆阵列上。为什么是这个尺寸？对于MNIST，最后一个FC层是10x50；对于CIFAR-10，经过前面的卷积和池化后，最后一个FC层也是10x50。这为我们提供了统一的测试平台。

电路测试平台如图5所示，主要包括：

编程电路：通过字线（WL）和位线（BL）驱动器，向选中的1T1R单元施加特定的电压脉冲对（Vg,Vbl），将其设置到目标电阻状态。
推理电路：在推理阶段，将输入向量（对应一张图片的特征）转换为电压信号V_in，并行施加到所有位线（BL）上。根据基尔霍夫定律和欧姆定律，每条源线（SL）上流出的电流，就是该行所有1T1R单元电流的和，即完成了向量-矩阵乘法（VMM）中的点积操作。I_out = Σ (G_ij * V_in_j)。
读出电路：源线（SL）上的电流被送到跨阻放大器（TIA）转换为电压，再经过ADC量化为数字信号。在我们的仿真中，为了简化，我们直接读取理想的电流值进行后续转换。

4.3 物理版图与寄生参数提取

为了评估布局寄生效应的影响，我们在IHP的130nm工艺下绘制了50x10 1T1R阵列的物理版图（图6）。版图设计中的关键点包括：

金属层规划：字线（WL，连接晶体管栅极）使用Metal 1，源线（SL，输出电流）使用Metal 2，位线（BL，输入电压/编程）使用Metal 3。清晰的层间规划有助于减少串扰。
天线效应防护：在每条字线的输入端插入二极管，防止在制造过程中因等离子体刻蚀导致栅氧积累电荷而击穿。
衬底接触环：在阵列周围布置密集的衬底接触，为NMOS晶体管的体端提供稳定的地电位，抑制体效应（Body Effect）对晶体管阈值电压的影响，确保单元行为一致。

使用Calibre xRC或Quantus等工具对完成后的版图进行寄生参数提取（PEX），生成一个包含所有寄生电阻和电容的.spef或DSPF网表。将这个网表反标回原理图，我们就得到了一个包含寄生效应的“后仿”网表。

4.4 仿真结果分析与洞见

我们对最后一个FC层进行了六种场景的仿真对比：

PyTorch基线：纯软件推理结果。
电路仿真（原理图级）：使用三种不同的1T1R模型 (a), (b), (c)。
电路仿真（版图寄生后仿）：同样使用三种模型，但网表中包含了从版图提取的寄生RC。

结果（如图7所示）揭示了几个关键洞见：

MNIST表现出惊人的鲁棒性：即使在最坏情况的模型(c)加寄生参数下，其准确率相比PyTorch基线也几乎没有下降（仍在97%左右）。这表明对于MNIST这种相对简单的任务，我们选择的网络架构和QAT训练方法，已经产生了足够强的冗余来抵抗我们引入的硬件非理想效应。
CIFAR-10对硬件非理想性敏感：随着模型保真度的提高和寄生效应的加入，CIFAR-10的准确率呈现明显的下降趋势。从PyTorch的86%，下降到模型(c)加寄生后的约83%，损失了3个百分点。这清晰地表明，对于更复杂的任务，电路级验证是不可或缺的。如果只映射最后一层就损失3%，将整个网络映射到硬件后，累积误差可能导致系统失效。
中值模型与统计模型的差异：一个有趣的发现是，在包含寄生效应后，使用固定中值（模型b）的瞬态仿真结果，与使用统计分布（模型c）的蒙特卡洛分析平均结果，出现了偏差。这是因为神经网络中的非线性激活函数（如ReLU）对输入的分布非常敏感。用中值这个“典型值”仿真，无法代表统计分布下的平均性能。这强烈建议，对于评估硬件上的最终性能，蒙特卡洛分析比单次确定性仿真更为可靠。
仿真时间开销可控：如图8所示，即使使用最复杂的模型(c)进行蒙特卡洛仿真（单次运行），其CPU时间也仅比使用理想电阻-晶体管模型多出一个不大的开销。而加入版图寄生电容后，仿真时间会显著增加（因为需要更小的时间步长来解析瞬态效应）。这提示我们，在早期设计探索阶段，可以使用不带寄生或仅带寄生电阻的模型来快速迭代；只有在最终签核（Sign-off）时，才需要启用完整的寄生电容模型进行最精确的验证。

5. 设计流程的工程价值与未来展望

通过这个完整的项目实践，我们深刻体会到，将电路级验证深度整合到神经加速器设计流程中，不是“锦上添花”，而是“必不可少”的一环。它从根本上改变了我们设计AI芯片的方式：

从“黑盒”到“白盒”：传统流程中，硬件对算法团队而言是个黑盒，性能损失只能事后测量。现在，我们可以在设计早期就定量地评估各种非理想效应的影响，实现“设计即正确”。
指导算法-硬件协同优化：当电路仿真显示某种非理想性（如电导值非线性）导致严重精度损失时，这个信息可以立刻反馈给算法团队。他们可以有针对性地调整训练策略，例如采用更强的噪声注入训练（Noise-aware Training）或设计对硬件更友好的量化方案。
降低流片风险与成本：一次流片失败的成本是巨大的。通过这种高精度的前期验证，我们能够极大程度地确保芯片第一次流片就能实现预期的功能性能，节省了大量的时间和金钱成本。

未来，这个流程还有巨大的扩展和优化空间：

模型增强：当前的模型主要关注直流（DC）和准静态特性。可以进一步集成RRAM的动态特性，如SET/RESET电压的随机性、弛豫（Relaxation）效应、循环耐久性导致的退化等，使模型更接近器件的真实瞬态行为。
流程自动化：目前Python封装器和仿真流程的调用还有不少手动步骤。未来可以将其集成到更大的自动化框架中，例如与LIMCA等架构探索工具结合，实现从高层次架构描述到GDSII版图的“一键式”评估。
支持更复杂的系统：目前我们主要仿真了核心的1T1R计算阵列。一个完整的神经加速器SoC还包括模拟前端（ADC/DAC）、数字控制器、片上存储（SRAM）、电源管理单元（PMU）等。未来的工作是将这些模块都纳入联合仿真，评估系统级的功耗、面积和性能。
探索新兴架构：除了全连接层，该流程也可以扩展到卷积层、注意力机制等更复杂算子的存内计算映射，以及探索更先进的阵列架构，如用于二值/三元网络的1T1R阵列，或用于多值计算的多个1T1R单元组合。

最后，我想分享一点个人体会：做存内计算芯片设计，就像在走钢丝，一边是算法对精度的苛刻要求，另一边是物理世界固有的不完美和噪声。这个端到端的设计流程，就是我们手中的那根平衡杆。它不能消除所有的风险，但能让我们清晰地看到脚下的深渊和前方的目标，从而更有信心地迈出每一步。从PyTorch里的一个浮点数，到硅片上流过的一个微安培电流，这条路很长，但每一步的验证，都让我们离真正高效、可靠的AI芯片更近一点。

查看全文

http://www.rkmt.cn/news/1403081.html