 

布兰姥爷

文章：47 阅读：177340 评论：120 赞：1465

 好友  私信个人主页

文章 47
原创 42
阅读 177340
评论 120
赞 1465

原创【零基础】神经网络优化之Adam

 2019-10-29 23:16  2045 38 2 分类: 机器人/ AI 文集: AI

一、序言

　　Adam是神经网络优化的另一种方法，有点类似上一篇中的“动量梯度下降”，实际上是先提出了RMSprop（类似动量梯度下降的优化算法），而后结合RMSprop和动量梯度下降整出了Adam，所以这里我们先由动量梯度下降引申出RMSprop，最后再介绍Adam。不过，由于RMSprop、Adam什么的，真的太难理解了，我就只说实现不说原理了。

二、RMSprop

　　先回顾一下动量梯度下降中的“指数加权平均”公式：

　　vDW1 = beta*vDW0 + (1-beta)*dw1

　　vDb1 = beta*vDb0 + (1-beta)*db1

　　动量梯度下降：

　　W = W - learning_rate*vDW

　　b = b - learning_rate*vDb

　　简而言之就是在更新W和b时不使用dw和db，而是使用其“指数加权平均”的值。

　　RMSprop只是做了一点微小的改变，为了便于区分将v改成s：

　　sDW1= beta*sDW0 + (1-beta)*dw1^2

　　sDb1 = beta*sDb0 + (1-beta)*db1^2

　　RMSprop梯度下降，其中sqrt是开平方根的意思:

　　W = W - learning_rate*(dw/sqrt(sDW))

　　b = b - learning_rate*(db/sqrt(sDb))

　　需要注意的是，无论是dw^2还是sqrt(sDW)都是矩阵内部元素的平方或开根。

三、Adam

　　Adam是结合动量梯度下降和RMSprop的混合体，先按动量梯度下降算出vDW、vDb

　　vDW1 = betaV*vDW0 + (1-beta)*dw1

　　vDb1 = betaV*vDb0 + (1-beta)*db1

　　然后按RMSprop算出sDW、sDb：

　　sDW1= betaS*sDW0 + (1-beta)*dw1^2

　　sDb1 = betaS*sDb0 + (1-beta)*db1^2

　　最后Adam的梯度下降是结合了v和s：

　　W = W - learning_rate*( vDW/sqrt(sDW) )

　　b = b - learning_rate*( vDb/sqrt(sDb) )

　　我们来看下最终实现后的效果：

　　是的，你没有看错。。。只需要100次训练，就比以前2000次训练的效果还要好！看到这个结果其实我也很震惊，反复查了几遍。

　　不过使用Adam优化后的神经网络一定要注意learning_rate的设置，我这里改成了0.01（之前一直是0.1，多次试错后才发现是这个问题）否则会发生梯度消失（表现为dw等于0）。

四、回顾

　　本篇是在mini_batch的基础上，结合动量梯度下降、RMSprop做的Adam梯度下降，其目的与mini_batch、动量梯度下降一样，都是使神经网络可以更快找到最优解，不得不说Adam实在太给力了。完整的实现代码请关注公众号“零基础爱学习”回复“AI13”获取。

神经网络深度学习 Adam

作者：布兰姥爷，来源：面包板社区

链接： https://mbb.eet-china.com/blog/uid-me-3887969.html

写原创有奖励！2025面包板原创奖励正在进行中

上一篇：【零基础】神经网络优化之动量梯度下降
下一篇：【零基础】使用Tensorflow实现神经网络

PARTNER CONTENT

换一换> 更多>

文章评论（1条评论）

登录后参与讨论

curton 2019-10-31 19:10

学习了

回复

查看更多评论

相关推荐阅读

布兰姥爷 2023-04-21 23:07: 跟姥爷深度学习4 从数学计算看神经网络; 一、前言我们前面简单的做了一个气温预测，经过反复调试，效果还不错。实际上在这个方向上我们还可以更进一步优化，但因为我们是学习嘛，主要还是看广度而不是深度。考虑到后面要开始学习卷积网络，我们必须把更基础...

布兰姥爷 2023-04-21 23:04: 跟姥爷深度学习3 神经网络的调试实操; 一、前言前面我们做了一次天气预测的模型，训练的结果都还好，网络好歹是“拟合”了，但预测数据不合预期让我一直耿耿于怀。所以我又花了很长时间来研究为什么，我的理论依据明明没有问题（今日平均温度与近一周平均...

布兰姥爷 2023-04-21 23:02: 跟姥爷深度学习2 TensorFlow的基本用法; 一、前言前面我们浅用TensorFlow做了个天气预测，虽然效果不咋样，但算是将整个流程跑通了。这一篇我们在之前基础上对TensorFlow的一些参数进行简单介绍，在接口文件的基础上了解各参数的简单含...

布兰姥爷 2023-04-11 22:22: 跟姥爷深度学习1，浅用tensorflow做个天气预测; 一、前言最近人工智能、深度学习又火了，我感觉还是有必要研究一下。三年前浅学了一下原理没深入研究框架，三年后感觉各种框架都成熟了，现成的教程也丰富了，所以我继续边学边写。原教程链接：https://ww...

布兰姥爷 2023-03-29 12:41: AI为啥要用显卡; 一、前言GPT的发布让AI再次热了起来，与上次阿尔法狗不同的是，现在人人都可以跟聊上几句，给它出出难题，还能调戏下。同期英伟达发布了针对AI领域的全新GPU H100，有的童鞋会疑惑，这个英伟达不是做...

布兰姥爷 2019-11-04 21:09: 【零基础】使用Tensorflow实现神经网络; 一、序言　　前面已经逐步从单神经元慢慢“爬”到了神经网络并把常见的优化都逐个解析了，再往前走就是一些实际应用问题，所以在开始实际应用之前还得把“框架”翻出来，因为后面要做的工作需要我们将精力集中在业务...

我要评论

 1

 38

关闭站长推荐

原创 【零基础】神经网络优化之Adam

文章评论（1条评论）

curton 2019-10-31 19:10

原创【零基础】神经网络优化之Adam