耀世产品

耀世资讯

咨询热线

18888889999

手机：18888889999
电话：0898-66889888
地址：海南省海口市玉沙路58号

Adam优化器（通俗理解）_1

你的位置：首页 > 耀世资讯

2024-04-07 23:35:10

网上关于Adam优化器的讲解有很多，但总是卡在某些部分，在此，我将部分难点解释进行了汇总。理解有误的地方还请指出。

Adam，名字来自： Adaptive Moment Estimation，自适应矩估计。是2014年提出的一种万金油式的优化器，使用起来非常方便，梯度下降速度快，但是容易在最优值附近震荡。竞赛中性能会略逊于SGD，毕竟最简单的才是最有效的。但是超强的易用性使得Adam被广泛使用。

Adam的推导公式：

解释：

第一项梯度

$Adam优化器（通俗理解）$ 就是损失函数 $Adam优化器（通俗理解）$ 对 $Adam优化器（通俗理解）$ 求偏导。

第二项

$Adam优化器（通俗理解）$ 为t时刻，梯度在动量形式下的一阶矩估计。

第三项

$Adam优化器（通俗理解）$ 为梯度在动量形式下的二阶矩估计。

第四项

$Adam优化器（通俗理解）$ 为偏差纠正后的一阶矩估计。其中： $Adam优化器（通俗理解）$ 是贝塔1的t次方，下面同理。

第五项

$Adam优化器（通俗理解）$ 为偏差纠正后的二阶矩估计。

最后一项是更新公式，可以参考RMSProp以及之前的算法。

问题：

这里只是讲讲我的理解。拿二阶矩估计

$Adam优化器（通俗理解）$ 来举例，各个 $Adam优化器（通俗理解）$ 的公式如下：

$Adam优化器（通俗理解）$

而我们实际上需要的是梯度的二阶矩估计，也就是

$Adam优化器（通俗理解）$ 。因此使用动量求出来的二阶矩估计是有偏的，需要纠正。我们对动量二阶矩估计 $Adam优化器（通俗理解）$ 求期望 $Adam优化器（通俗理解）$ ，可以通过等比数列公式得到 $Adam优化器（通俗理解）$ 与 $Adam优化器（通俗理解）$ 的关系：

$Adam优化器（通俗理解）$

因此，要得到

$Adam优化器（通俗理解）$ ，就需要除掉前面的系数（ $Adam优化器（通俗理解）$ 是一个常数， $Adam优化器（通俗理解）$ 是贝塔2的t次方，t：t时刻）。

主要问题就是这些，其他的可以多看Adam之前一些优化器的资料，很多是一脉相承的。

Original: https://blog.csdn.net/BeiErGeLaiDe/article/details/126059488
Author: Longer2048
Title: Adam优化器（通俗理解）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/795078/

转载文章受原作者版权保护。转载请注明原作者出处！

返回列表