深度学习——优化器算法Optimizer详解_机器人技术与AI-面包板社区

楼主

深度学习——优化器算法Optimizer详解

用户1873541

2653 主题
2799 帖子
9696 积分

身份：LV6 初级工程师

E币：329

发消息

 75274

 0

发表于 2018-3-21 10:11:51

显示全部楼层

在机器学习、深度学习中使用的优化算法除了常见的梯度下降，还有 Adadelta，Adagrad，RMSProp 等几种优化器，都是什么呢，又该怎么选择呢？

在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较，今天来学习一下：

1609.04747.pdf (643.58 KB, 下载次数: 40)

2018-3-21 09:45 上传

点击文件名下载附件

本文将梳理：

每个算法的梯度更新规则和缺点
为了应对这个不足而提出的下一个算法
超参数的一般设定值
几种算法的效果比较
选择哪种算法

0.梯度下降法深入理解

以下为个人总结，如有错误之处，各位前辈请指出。

对于优化算法，优化的目标是网络模型中的参数θ（是一个集合，θ1、θ2、θ3 ......）目标函数为损失函数L = 1/N ∑ Li（每个样本损失函数的叠加求均值）。这个损失函数L变量就是θ，其中L中的参数是整个训练集，换句话说，目标函数（损失函数）是通过整个训练集来确定的，训练集全集不同，则损失函数的图像也不同。那么为何在mini-batch中如果遇到鞍点/局部最小值点就无法进行优化了呢？因为在这些点上，L对于θ的梯度为零，换句话说，对θ每个分量求偏导数，带入训练集全集，导数为零。对于SGD/MBGD而言，每次使用的损失函数只是通过这一个小批量的数据确定的，其函数图像与真实全集损失函数有所不同，所以其求解的梯度也含有一定的随机性，在鞍点或者局部最小值点的时候，震荡跳动，因为在此点处，如果是训练集全集带入即BGD，则优化会停止不动，如果是mini-batch或者SGD，每次找到的梯度都是不同的，就会发生震荡，来回跳动。

一.优化器算法简述

首先来看一下梯度下降最常见的三种变形 BGD，SGD，MBGD，这三种形式的区别就是取决于我们用多少数据来计算目标函数的梯度，这样的话自然就涉及到一个 trade－off，即参数更新的准确率和运行时间。

1.Batch Gradient Descent （BGD）

梯度更新规则:

BGD 采用整个训练集的数据来计算 cost function 对参数的梯度：

缺点：

由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型。

我们会事先定义一个迭代次数 epoch，首先计算梯度向量 params_grad，然后沿着梯度的方向更新参数 params，learning rate 决定了我们每一步迈多大。

Batch gradient descent 对于凸函数可以收敛到全局极小值，对于非凸函数可以收敛到局部极小值。

2.Stochastic Gradient Descent (SGD)

梯度更新规则:

和 BGD 的一次用所有数据计算梯度相比，SGD 每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。

看代码，可以看到区别，就是整体数据集是个循环，其中对每个样本进行一次参数更新。

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情况，那么可能只用其中部分的样本，就已经将theta迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。缺点是SGD的噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快，但是准确度下降，并不是全局最优。虽然包含一定的随机性，但是从期望上来看，它是等于正确的导数的。

缺点：

SGD 因为更新比较频繁，会造成 cost function 有严重的震荡。

BGD 可以收敛到局部极小值，当然 SGD 的震荡可能会跳到更好的局部极小值处。

当我们稍微减小 learning rate，SGD 和 BGD 的收敛性是一样的。

3.Mini-Batch Gradient Descent （MBGD）

梯度更新规则：

MBGD 每一次利用一小批样本，即 n 个样本进行计算，这样它可以降低参数更新时的方差，收敛更稳定，另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。

和 SGD 的区别是每一次循环不是作用于每个样本，而是具有 n 个样本的批次。

超参数设定值: n 一般取值在 50～256

缺点：（两大缺点）

不过 Mini-batch gradient descent 不能保证很好的收敛性，learning rate 如果选择的太小，收敛速度会很慢，如果太大，loss function 就会在极小值处不停地震荡甚至偏离。（有一种措施是先设定大一点的学习率，当两次迭代之间的变化低于某个阈值后，就减小 learning rate，不过这个阈值的设定需要提前写好，这样的话就不能够适应数据集的特点。）对于非凸函数，还要避免陷于局部极小值处，或者鞍点处，因为鞍点周围的error是一样的，所有维度的梯度都接近于0，SGD 很容易被困在这里。（会在鞍点或者局部最小点震荡跳动，因为在此点处，如果是训练集全集带入即BGD，则优化会停止不动，如果是mini-batch或者SGD，每次找到的梯度都是不同的，就会发生震荡，来回跳动。）
SGD对所有参数更新时应用同样的 learning rate，如果我们的数据是稀疏的，我们更希望对出现频率低的特征进行大一点的更新。LR会随着更新的此书逐渐变小。

鞍点就是：一个光滑函数的鞍点邻域的曲线，曲面，或超曲面，都位于这点的切线的不同边。例如这个二维图形，像个马鞍：在x-轴方向往上曲，在y-轴方向往下曲，鞍点就是（0，0）。

为了应对上面的两点挑战就有了下面这些算法。

［应对挑战 1］4.Momentum

SGD 在 ravines 的情况下容易被困住， ravines 就是曲面的一个方向比另一个方向更陡，这时 SGD 会发生震荡而迟迟不能接近极小值：

梯度更新规则:

Momentum 通过加入 γv_t−1 ，可以加速 SGD，并且抑制震荡

当我们将一个小球从山上滚下来时，没有阻力的话，它的动量会越来越大，但是如果遇到了阻力，速度就会变小。
加入的这一项，可以使得梯度方向不变的维度上速度变快，梯度方向有所改变的维度上的更新速度变慢，这样就可以加快收敛并减小震荡。

超参数设定值: 一般 γ 取值 0.9 左右。

缺点：

这种情况相当于小球从山上滚下来时是在盲目地沿着坡滚，如果它能具备一些先知，例如快要上坡时，就知道需要减速了的话，适应性会更好。

5.Nesterov Accelerated Gradient

梯度更新规则:

用 θ−γv_t−1 来近似当做参数下一步会变成的值，则在计算梯度时，不是在当前位置，而是未来的位置上

超参数设定值: 一般 γ 仍取值 0.9 左右。

效果比较：

蓝色是 Momentum 的过程，会先计算当前的梯度，然后在更新后的累积梯度后会有一个大的跳跃。
而 NAG 会先在前一步的累积梯度上(brown vector)有一个大的跳跃，然后衡量一下梯度做一下修正(red vector)，这种预期的更新可以避免我们走的太快。

NAG 可以使 RNN 在很多任务上有更好的表现。

目前为止，我们可以做到，在更新梯度时顺应 loss function 的梯度来调整速度，并且对 SGD 进行加速。

我们还希望可以根据参数的重要性而对不同的参数进行不同程度的更新。

［应对挑战 2］ 6.Adagrad （Adaptive gradient algorithm）

这个算法就可以对低频的参数做较大的更新，对高频的做较小的更新，也因此，对于稀疏的数据它的表现很好，很好地提高了 SGD 的鲁棒性，例如识别 Youtube 视频里面的猫，训练 GloVe word embeddings，因为它们都是需要在低频的特征上有更大的更新。

梯度更新规则:

其中 g 为：t 时刻参数 θ_i 的梯度

如果是普通的 SGD，那么 θ_i 在每一时刻的梯度更新公式为：

但这里的 learning rate η 也随 t 和 i 而变：

其中 G_t 是个对角矩阵， (i,i) 元素就是 t 时刻参数 θ_i 的梯度平方和。

Adagrad 的优点是减少了学习率的手动调节

超参数设定值：一般η选取0.01

缺点：

它的缺点是分母会不断积累，这样学习率就会收缩并最终会变得非常小。

7.Adadelta

这个算法是对 Adagrad 的改进，

和 Adagrad 相比，就是分母的 G 换成了过去的梯度平方的衰减平均值，指数衰减平均值

这个分母相当于梯度的均方根 root mean squared (RMS)，在数据统计分析中，将所有值平方求和，求其均值，再开平方，就得到均方根值，所以可以用 RMS 简写：

其中 E 的计算公式如下，t 时刻的依赖于前一时刻的平均和当前的梯度：

梯度更新规则:

此外，还将学习率 η 换成了 RMS[Δθ]，这样的话，我们甚至都不需要提前设定学习率了：

超参数设定值: γ 一般设定为 0.9

7.RMSprop

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法。

RMSprop 和 Adadelta 都是为了解决 Adagrad 学习率急剧下降问题的，

梯度更新规则:

RMSprop 与 Adadelta 的第一种形式相同：（使用的是指数加权平均，旨在消除梯度下降中的摆动，与Momentum的效果一样，某一维度的导数比较大，则指数加权平均就大，某一维度的导数比较小，则其指数加权平均就小，这样就保证了各维度导数都在一个量级，进而减少了摆动。允许使用一个更大的学习率η）

超参数设定值:

Hinton 建议设定 γ 为 0.9, 学习率 η 为 0.001。

8.Adam：Adaptive Moment Estimation

这个算法是另一种计算每个参数的自适应学习率的方法。相当于 RMSprop + Momentum

除了像 Adadelta 和 RMSprop 一样存储了过去梯度的平方 vt 的指数衰减平均值，也像 momentum 一样保持了过去梯度 mt 的指数衰减平均值：

如果 mt 和 vt 被初始化为 0 向量，那它们就会向 0 偏置，所以做了偏差校正，通过计算偏差校正后的 mt 和 vt 来抵消这些偏差：

梯度更新规则:

超参数设定值:
建议 β1 ＝ 0.9，β2 ＝ 0.999，ϵ ＝ 10e−8

实践表明，Adam 比其他适应性学习方法效果要好。

二.效果比较

下面看一下几种算法在鞍点和等高线上的表现：

SGD optimization on saddle point

SGD optimization on loss surface contours

上面两种情况都可以看出，Adagrad, Adadelta, RMSprop 几乎很快就找到了正确的方向并前进，收敛速度也相当快，而其它方法要么很慢，要么走了很多弯路才找到。

由图可知自适应学习率方法即 Adagrad, Adadelta, RMSprop, Adam 在这种情景下会更合适而且收敛性更好。

三.如何选择优化算法

如果数据是稀疏的，就用自适用方法，即 Adagrad, Adadelta, RMSprop, Adam。

RMSprop, Adadelta, Adam 在很多情况下的效果是相似的。

Adam 就是在 RMSprop 的基础上加了 bias-correction 和 momentum，

随着梯度变的稀疏，Adam 比 RMSprop 效果会好。

整体来讲，Adam 是最好的选择。

很多论文里都会用 SGD，没有 momentum 等。SGD 虽然能达到极小值，但是比其它算法用的时间长，而且可能会被困在鞍点。

如果需要更快的收敛，或者是训练更深更复杂的神经网络，需要用一种自适应的算法。

资料：

http://sebastianruder.com/optimizing-gradient-descent/index.html#fn:24

http://www.redcedartech.com/pdfs/Select_Optimization_Method.pdf

https://stats.stackexchange.com/questions/55247/how-to-choose-the-right-optimization-algorithm

作者：郭耀华

来源：博客园

出处：http://www.guoyaohua.com

写原创有奖励！2025面包板原创奖励正在进行中

 举报



 

  1

您需要登录后才可以评论登录立即注册

热门资料

电子电路分析考试题目+学习思维导图 ...
电动车无刷控制器成熟量产方案(含原理图 ...
初级无刷电机设计学习资料
无刷电机资料大全（基本原理+接线方法+ ...
无刷电机原理图大全

【技术公开课】四大精密仪器方案，破解电子研发“速度与成本”难题

免费门票：WAIC世界人工智能大会-Arm专场

【技术前沿】Microchip最新嵌入式技术大揭秘！

学高精度测量技术，抢华为/小米/雷柏等好礼

技术文库

一个N-MOS管和P-MOS管驱动应用实例 ...
手残党必看！变频器IGBT模块拆解全攻略 ...
【收藏】EMC设计考虑
【PCB_118】治愈PCB布局时的纠结 ...
这个电压波形算是触发了OVP功能吗？ ...

全部回复 0

暂无评论，快来抢沙发吧

开启智能 “芯” 未来：2025 MCU及嵌入式技术论坛火热来袭
ADI四大精密测量方案解析：从阻抗分析到高压SMU实战应用

机器人技术与AI

版主: 用户3882052

讨论机器人设计与技术实现，包括电子、机械和电气自动化技术以及软件技术

展开更多

帖子 1370
回复 4941

置顶 2025世界人工智能大会(WAIC）| Arm携阿里云/小鹏/联想揭秘AI落地密码

置顶 AIoT 从业者必参的年度盛会免费报名已开启！涵盖前沿技术/人脉资源/市场洞见…

置顶精华1 错过等一年！零距离技术盛宴 MATLAB EXPO 中国用户大会报名...

置顶【2025面包板社区内容狂欢节】发文、回帖赢25万E币！

精华2 ESP32搭建TFT_LCD中文字库，附常用字库

精华2 【STM32F103C8T6教程】（九）DHT11温湿度计【应用】

评测文章

【六岳微LY-F335开发板】+初识篇

《电感应用分析精粹：从磁能管理到开关电源设计》读书笔记

【凌鸥创芯LKS32MC034DOF6Q8】+调试中的困惑

【芯旺32位MCU KF32A156 开发板】介绍、环境搭建、工程测试

【富芮坤FR3068x-C】+经典蓝牙音乐A2DP 音乐播放测试

【Milk-V Duo 开发板】温湿度计，小白入门项目

【凌鸥创芯LKS32MC453RCT8】+ 移植RT-Thread + 串口日志与点灯

【凌鸥创芯LKS32MC034DOF6Q8】+ 电机运行测试

免费申请

热帖

【E币话题】电子工程师深圳月薪15K，够吗？

C语言中如何将long数据转换成char型数据输

【变废为宝】高端音箱控制器拆解

大家都在看的技术资料

基于蓝牙技术的汽车驾驶盘控制系统

滤波器有哪些分类?这些滤波器使用注意事项你都知道吗?

一看就懂！动画讲解LC振荡器的工作原理

基于ARM的智能家居控制通信控制站的设计与实现

光耦使用经验贴，大佬传授光耦实用技巧

为何要发展电源管理芯片?如何选择电源管理芯片?

干式变压器有何优缺点?干式变压器的应用+保护方式介绍

硬件工程师VS软件工程师

芯视频

更多>

02:13

从触屏版静电发生器按键操作教学

品致黄晓芬19924302354

 243

纳祥科技客户案例展示，基于单片机的LED电子沙漏计时器方案
ICMAN金属门把手触摸
客户霸王条款杀伤力排行版，赚几百元芯片要签一百万的赔偿条款？
SC09B触摸感应-弹簧结构demo
2025慕尼黑上海电子展华秋电子展位回顾

内容系网友发布，其中涉及到安全隐患的内容系网友个人行为，不代表面包板社区观点

请点击举报理由

电子工程专辑
电子技术设计
国际电子商情
在线研讨会
直播
白皮书
研华嵌入式论坛
2025 MCU峰会
2025 AI+IoT生态大会
领WAIC2025免费门票-Arm专场



杂志免费订阅
汽车电子专题
Studio
CEO专栏
行业及技术活动
微信入群
全球联播
汽车电子专题
Datasheets查询
电子计算工具
小测验
会员活动中心
原厂技术站

首页
论坛 
热门板块

技术问答电子技术基础电路图模拟技术电源技术与新能源 EDA工具与IC设计测试测量技术可编程器件嵌入式系统与MCU 技术创意与DIY 通信与网络消费电子与智能设备机器人技术与设计采购与销售分销与供应链工程师职场
热门主题

「你的愿望清单，社区来买单！」E币兑换—
晶体管光耦的工作原理
笔记本外接显示器，咋没声音呢？
深入解析：灯具球压测试
【资料下载-第三季】电路考试冲刺、300动图
免费报名开启智能 “芯” 未来：2025 MCU及
AIoT 从业者必参的年度盛会免费报名已开启
SLMi350 40V, 4A 兼容光耦的单通道隔离驱动
精华主题

【资料汇总】最全实用电路合集，电路学习从
社区内容发布、审核与管理！严厉打击刷流量
【转载】LIN总线入门
ESP32搭建TFT_LCD中文字库，附常用字库
十天学会单片机实例100+C51应用实战集锦
【2025下载活动第1季】献宝“硬货”瓜分100
ESP32WIFI测试工具（WIFI杀手）
错过等一年！零距离技术盛宴 MATLAB EXPO
下载 
热门类别

基础知识电源/功率 PCB 单片机/嵌入式 FPGA 模拟/数字处理器/DSP 测试测量通信/RF/网络软件/EDA/IP AI/机器人/无人机制造与封装书籍源码原理图电路图
热门资料

电子电路分析考试题目+学习思维导图

电动车无刷控制器成熟量产方案(含原理图 PCB 源代码）

初级无刷电机设计学习资料

无刷电机资料大全（基本原理+接线方法+解决方案）

无刷电机原理图大全

开关电源设计(第3版) (普利斯曼，比利斯，莫瑞著；王志强、肖文勋、虞龙译)
最新技术白皮书

【国际电子商情2025年7月杂志】低空经济加速起飞：千米空域，万亿蓝海

【2025年7月电子工程专辑杂志】从“三共计算”到生态重塑，舱驾融合开启智驾新范式

电池仿真白皮书

ST在大功率热管理系统中的电机控制系统方案

工程师必看！全面剖析轻型电动车辆 (LEV)

多圈传感器 ADMT4000 的设计指南

剖析 MAXQ™ Power架构核心技术（含案例分析）

MOSFET和GaN FET应用手册：电源设计工程师指南（共542页）

【2025年6月电子工程专辑杂志】边缘智能：数字化浪潮下的变革新引擎

【国际电子商情2025年6月杂志】2024年度全球电子元器件分销商营收排名TOP50
博客 
热门板块

FPGA/CPLD MCU/嵌入式模拟电源/新能源测试测量通信 PCB 汽车电子软件与OS 采购与分销供应链管理工程师职场 EDA/IP/设计与制造无人机机器人/AI
推荐博文

为什么LoRaWAN产品入不了网?
RL电路电流波形分析
修了一个大风扇
1440万台，数字隔离器如何让充电桩告别“电
智能手机存量战：vivo完全不够华为手机打？
器件寄生电容对高速输出电路占空比的影响
定制 Linux Kernel Driver 编译示例
7月电视面板行情：需求走弱，LCD TV面板价
最新博文

为什么LoRaWAN产品入不了网?
普科科技PRBTEK电流互感器PK系列使用方法及
RL电路电流波形分析
修了一个大风扇
Golang基础笔记十之goroutine和channel
1440万台，数字隔离器如何让充电桩告别“电
技术干货 | DAC频率响应特性解析：从sinc函
PK-CWT 系列柔性电流探头使用指南：操作方
评测 

W800 Arduino 开发板

查看详情

信号的调制与解调技术

查看详情

芯旺32位MCU KF32A156 开发板

查看详情

硬核

查看详情

六岳微LY-F335开发板

查看详情

凌鸥创芯LKS32MC034DOF6Q8

查看详情
芯语 
热门板块

半导体通信网络消费电子/手机汽车电子物联网工控硬件设计嵌入式/FPGA 电源/能源测试测量人工智能/机器人科技前沿供应链工程师职场
最新芯语

极海G32R501高压通用伺服控制器参考方案演示

APM32芯得 EP.61 | 基于APM32F411移植U8g2驱动OLED完整教程

观众报名 | 通信定位展，聚焦端侧AI、AI潮玩、北斗、通感一体、多模态定位技术融合等！

实锤！国内手机eSIM真的要来了

又一国产手机芯片厂商申请破产！

Galaxy Unpacked发布会亮点速览：Z Fold7与Flip7重新定义三星折叠屏愿景

【行业活动】2025 IPC CEMAC电子制造年会观众报名正式启动

惠科IPO进入问询阶段

国显科技研究院院长傅耀生确认出席上海智能座舱及车载显示技术论坛

TCL华星供屏！三星115寸RGB Micro LED电视9月发布

沃格光电玻璃基精准光源MiniLED技术突破获行业权威认可

减亏超六成！京东方华灿上半年预亏收窄至1.5亿内
文库 
热门类别

模拟设计电源技术 PCB设计元器件知识硬件开发经验封装/工艺 EDA/IC设计单片机/嵌入式 C语言/编程开发可编程/FPGA 处理器/DSP RF/通信人工智能/机器人开源设计/DIY
最新文库

无线通讯在智能家居有何体现?瞅瞅这些无线通讯技术

51单片机数码管显示跑马灯程序源代码讲解

3AT89C51单片机引脚说明及引脚图

基于51单片机的DAC0832波形发生器设计

51单片机对LCD1602液晶的驱动设计

51单片机LCD液晶屏按键电子时钟的设计

物联网连接在发展中将会遇到哪些挑战？

单片机的I2C和SPI通信的含义

如何用kiCad制作电路原理图

单片机串口如何接收不定长数据的？

基于ARM的智能家居控制通信控制站的设计与实现

ARM中打印函数print 的几种实现方法
活动 
技术论坛

更多>

2022电机驱动与控制论坛

 深圳市南山区  2022年6月17日

2022全球MCU生态发展大会

 深圳市南山区  2022年6月17日

射频与微波技术及应用研讨会

 西安天朗森柏大酒店  2022年06月23日

热点活动

更多>

2025 第六届中国国际汽车电子高峰论坛

 上海  2025年09月17日

2025 全球 MCU 生态发展大会

 深圳  2025年07月24日

2025 第六届国际 AIoT 生态发展大会

 深圳  2025年07月24日

社群活动

更多>

资料下载：高级驾驶辅助系统 (ADAS) 技术指南

 2024.09.19-2024.10.30

《电信基站应用指南》中文版发布！免费下载

 2024.09.01-2024.09.30

Debug一秒看穿故障! Fluke 红外热像仪免费申领

 2024.08.01-2024.09.20

投票中：2024全球电子元器件分销商卓越表现奖

 2024.08.10-2024.09.11
商城 

绿林游标卡尺高精度0.02mm机械式内外径深度测量开式游标卡尺0-150mm

E币： 1599

立即兑换

德力西R2897电笔智能测电压多功能测断线数显电工专用感应试电笔

E币： 1699

立即兑换

得力（deli）多功能零件盒收纳盒乐高黑色透明小格24格分类盒元件盒工具储物盒

E币： 1399

立即兑换

得力不锈钢镊子3件套

E币： 699

立即兑换

宝工（Pro'skit) 8S005 无酸焊油(50g) 助焊剂焊锡膏

E币： 599

立即兑换

德力西电气 DELIXI ELECTRIC 手持贴膜烤枪吹风枪

E币： 2399

立即兑换
芯视频
兑奖中心
E聘NEW