当前位置: 首页 > news >正文

梯度检查

梯度检查(Gradient Checking)中使用的双边逼近(Two-sided Approximation)方法,也称为中心差分法(Central Difference Method)。
梯度检查的目的
在深度学习中,我们使用反向传播算法(Backpropagation)来计算损失函数关于模型参数的梯度。然而,反向传播的实现复杂,容易出错。
梯度检查是一种数值方法,用于验证反向传播计算出的解析梯度(Analytical Gradient)是否正确。它通过使用函数值的微小变化来数值逼近梯度。
 

image

 

为什么双边逼近更好? 
双边逼近的主要优势在于其更高的准确性 
  • 误差更小:双边逼近的误差项是
    O(ϵ2)cap O open paren epsilon squared close paren
    𝑂(𝜖2)
    级别的(与
    ϵepsilon
    𝜖
    的平方成正比)。这意味着,如果
    ϵepsilon
    𝜖
    很小,双边逼近的误差比单边逼近小得多。
    • 例如,如果
      ϵ=0.01epsilon equals 0.01
      𝜖=0.01
      ,单边误差约为
      0.010.01
      0.01
      ,而双边误差约为
      0.00010.0001
      0.0001
  • 对称性:它在
    θtheta
    𝜃
    点周围对称地采样,更好地捕捉了该点的局部斜率。 
梯度检查的实现步骤 
在实际应用中,梯度检查涉及将解析梯度与数值梯度进行比较: 
  1. 计算解析梯度:使用反向传播算法计算模型的梯度
    ganalyticg sub analytic end-sub
    𝑔analytic
  2. 计算数值梯度:对模型的每个参数
    θitheta sub i
    𝜃𝑖
    ,使用双边逼近公式计算其数值梯度
    gnumeric,ig sub numeric comma i end-sub
    𝑔numeric,𝑖
  3. 比较:计算解析梯度和数值梯度之间的相对差(Relative Difference) 
Relative Difference=|ganalytic−gnumeric||ganalytic|+|gnumeric|Relative Difference equals the fraction with numerator the absolute value of g sub analytic end-sub minus g sub numeric end-sub end-absolute-value and denominator the absolute value of g sub analytic end-sub end-absolute-value plus the absolute value of g sub numeric end-sub end-absolute-value end-fraction
RelativeDifference=|𝑔analytic−𝑔numeric||𝑔analytic|+|𝑔numeric|
  1. 判断
    • 如果相对差小于
      10-710 to the negative 7 power
      10−7
      10-810 to the negative 8 power
      10−8
      ,说明反向传播的实现很可能是正确的。
    • 如果相对差大于
      10-510 to the negative 5 power
      10−5
      ,通常意味着你的反向传播实现可能存在错误(Bug)。
 
 
http://www.rkmt.cn/news/47578.html

相关文章:

  • 荆门定制西林瓶灌装机费用解析,比标准款贵多少?
  • 基于Ubuntu2504部署OpenStack E版
  • 如何实现大模型和本企业内部知识相结合形成一个适合本企业的小模型
  • Maven 继承的“隐形杀手”:被你忽略的 relativePath
  • 血月奇观科学解码:当“红月亮”邂逅古今文明,一场跨越千年的宇宙浪漫
  • 使用产品密钥升级Windows 11专业版及Windows 11专业工作站版
  • 2025年衣柜顶线定做厂家权威推荐榜单:石膏顶线/欧式顶线/脚线源头厂家精选
  • 全景式数据库风险监测的理论与实践:加密防御与低误差识别的安全革新
  • 智能识别与持续合规:构建运行平稳的API风险监测体系
  • 习题解析之:计算圆周率——无穷级数法
  • AE扩展-After Ease v1.1.4 关键帧动画曲线缓入缓出调节
  • matplotlib 保存pdf图时,TrueType font is missing table.
  • 1JDBC简介
  • 出入门禁管理应用:智能高效的出入口管控解决方案
  • 对象转字典列表字典转对象
  • vmware+centos7虚拟机连接不到网络的问题
  • TCP和UDP区别
  • 设计QQ,网络协议如何设计
  • 代码随想录Day8_字符串
  • 软件工程团队作业2
  • Chromium扩展策略绕过漏洞CVE-2025-12436安全分析
  • 让AI替你写用例!Dify+RAG工作流,一键生成覆盖率达90%的测试方案
  • 图库函数集
  • 国产水质检测仪厂家推荐:采购COD检测仪/总氮/总磷/余氯检测仪的注意事项
  • V4L2的pad连接
  • 2025年11月全自动红外测油仪采购推荐:国产全自动红外测油仪品牌推荐,哪家好?
  • aws的iam
  • 副本分片重建
  • PK6500无源探头在5G基站射频模块测试中的应用方案
  • 2025高压加速老化/HAST/PCT/热流仪厂家推荐伟煌试验设备,专业可靠!