网问答>>深度学习中的优化器学习总结
问题
深度学习中的优化器学习总结
时间:2024-08-12 00:00:26
深度学习中的优化器学习总结
最佳回答
梯度下降法1.批梯度下降法(Batch Gradient Descent)一次迭代训练所有样本,样本总数为n, 学习训练的模型参数为W,代价函数为J(W),输入和输出的样本分别为X^i,Y^i, 则代价函数关于模型参数的偏导数即相关梯度为ΔJ(W),学习率为η_t优点:理想状态下经过足够多的迭代后可以达到全局最优;缺点:对于大数据集,训练速度会很慢2.随机梯度下降法(Stochastic Gradient Descent)为了加快收敛速度,每次训练的都是随机的一个样本;优点:训练速度快,引入了噪声(随机选取样本),使得可能会避迹晌免陷入局部最优解;3.Mini-Batch Gradient DescentBGD 和 SGD的折中方案, batch_size = 1, 就是 SGD, batch_size = m 就是Mini-Batch Gradient Descent,(现在深度学习中很多直接把Mini-Batch Gradient Descent 简称为SGD, 提到SGD 一般指的就是Mini-Batch Gradient Descent;优点:mini-batch gradient descent 相对SGD在下降的时候,相对平滑些(相对稳定),不像SGD那样震荡的比较厉害。缺点:增加了一个超参数 batch_size,要去调这个超参数;动量优化法1.Momentum从训练集中取一个大小为n的小批量{X^1,X^2,...,X^n}样本,对应的真实值分别为Y^i,则Momentum优化表达式为其中v_t表示 t 时刻积攒的加速度,α表示动力的大小,一般取值为0.9;动量主要解决SGD的两个问题:一是随机梯度的方法(引入的噪声);二是Hessian矩阵病态问题(不是很理解)。理解策略为:由于当前权值的改变会受到上一次权值改变的影响,类似于小球向下滚动的时候带上了惯性。这样可以加快小球向下滚动的速度。2.牛顿加速度梯度法(Nesterov Accelerated Gradient)理解策略:在Momentun中小球会盲目地跟从下坡的梯度,容易发生错误。所以需要一个更聪明的小球,能提前知道它要去哪里,还要知道走到坡底的时候速度慢下来而不是又冲上另一个坡。计算W_tαv_{t1}可以表示小球下一个位置大概在哪里。从而可以提前知道下一个位置的梯度,然后使用到当前位置来更新参数。自适应学习率优化算法1.AdaGrad算法假定一个多分类问题,i表示第i个分类,t表示第t迭代同时也表示分类i累计出现的次数。η_0表示初始的学习率取值一般为0.01,是一个取值很小的数(一般为1e-8)为了避免分母为0。W_t表示t时刻即第t迭代模型的参数,g_{t,i}=ΔJ(W_{t,i})表示t时刻,指定分类i,代价函数J()关于W的梯度。从表达式可以看出,对出现比较多的类别数据,Adagrad给予越来越小的学习率,而对于比较少的类别数据,会给予较大的学习率。因此Adagrad适用于数据稀疏或者分布不平衡的数据集。Adagrad 的主要优势在于不需要人为的调节学习率,它可以自动调节;缺点在于,随着迭代次数增多,学习率会越来越小,最终会趋近于0。2.RMSProp算法RMSProp算法修改了AdaGrad的梯度积累为指数加权的移动平均,使得其在非凸设定下效果更好其中,W_t表示t时刻即第t迭代模型的参数,g_t=ΔJ(W_t)表示t次迭代代价函数关于W的梯度大小,E[g^2]t表示前t次的梯度平方的均值。α表示动力(通常设置为0.9),η0表示全局初始学习率。是一个取值很小的数(一般为1e-8)为了避免分母为0。RMSProp借鉴了Adagrad的思想,观察表达式,分母为sqrt(E[g^2]_t+)。由于取了个加权平均,避免了学习率越来越低的问题,而且能自适应地调节源差学习率。RMSProp算法在经验上已经被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。3. AdaDelta算法AdaGrad算法和RMSProp算法都需要指定全局学习率,AdaDelta算法结合两种算法每次参数的更新步长即:AdaDelta不需要设置一个默认的全局学习率优点:在模型训练的初期和中期雹州皮,AdaDelta表现很好,加速效果不错,训练速度快。缺点:在模型训练的后期,模型会反复地在局部最小值附近抖动。4. Adam算法Adam中动量直接并入了梯度一阶矩(指数加权)的估计,Adam包括偏置修正,修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩估计其中,m_t和v_t分别为一阶动量项和二阶动量项。β_1,β_2为动力值大小通常分别取0.9和0.999;m^t,v^t分别为各自的修正值。Adam通常被认为对超参数的选择相当鲁棒
时间:2024-08-12 00:00:29
本类最有帮助
- 谁知道比特币对环境有何‏影响?买跌需注意什么?
- 比特币‏价值上涨的主要因素是什么?多空有何风险
- 比特币在市场扩张中扮演什么角色?猜涨跌有何意义&r
- 疑惑这问题货主企业如何实现煤炭‏水运物流精细化
- 一起帮解答煤炭水运物流企业核心资源如何被保‏障
- 云‏滇食品网的定位是什么?
- 比特币是合法投资手段吗?多单属于资产利用‏吗?
- 问下各位如何确保采购到俄罗‏斯蟹业集团的高品质
- 目前有没有方便快捷的‏跨境收款平台?
- 中邮‏消费金融旗下的贷款APP是哪个?如何?
- 软件消失了怎么办?
- 目前智象‏未来AIGC商拍工具在品牌营销上有哪些独
- 手机怎么开启应用分身?
- 委托加工物资的进项税怎么算
- 报保险的工资证明怎么开
- 汇银通是否是真实的第三方委托下发款‏项平台?
- 数字化转型对企业的意义?
- 请问一下BTC的货币总量是固定的吗?游戏有什‏么
- 办理派卡网点中行是真的吗?
- BTC‏是否推动了全球金融变革?做多是一种策略吗
- 投资者对BTC的‏重视程度如何?链上交易量如何?
- 关于修理厂出人工,保险公司直供配件,修理厂被告赔
- 职工医保还有人不会取吗?
- 请问想知道BTC‏是完美的虚拟货币吗?应该如何猜
- 以‏太坊前景为何更乐观?市场不稳时能买涨跌吗?
- BTC是否受到国际社会‏承认?开户后需要立刻投资
- 钱骁成: 股市是为国家服务还是为资本服务?
- 80后博士创业,IPO估值腰斩?兆尹科技:业绩都是纸面
- 可转债的应收未收利息是那一段?
- 谁知道BTC价格迎来历史性时刻是什么时候?现‏在
- 对于BTC的显著峰值是指?猜涨跌‏会在什么时候进
- 有知道企业上市后是否会有‏更大的发展空间?
- 提个疑问长期投资者在‏BTC的活跃度高吗?买入开
- 熊猫投资是什么意思
- 向证监会强烈建议取消认沽权证
- 对于目前的以太坊,其水平如何?委‏托存在哪些风
- 企业目前如何通过项目管理系统来减少项目风险‏?
- 当下货主企业如何‏在大宗商品水运智能监管过程中
- 谁了解七牛云未来上市会不会‏引发并购?
- 目前‏ETH的价值稳定吗?听说杠杆交易有利有弊?
- 问下各位谁知道BTC的供应措施是什‏么?多空的数
- 求解投资者对于‏BTC的重视程度如何?链上交易量
- 以太坊会受三大指数下跌影‏响吗?如何操作多空?
- 对于BTC的活力指标是做什么的?平台的功能是多‏
- 问个问题动荡的市场状况会对BTC造成什么影响‏?
- 想了解ETH‏如何规避风险?目前调整期适合进行涨
- 谁知道BTC的‏地位如何?做空时机应该如何选择?
- 目前以太坊的权益证明机制有‏哪些利好?如何操作
- 你好,我想问下挂靠其他影视公司开票是开我们公司吗
- 让爱住我家手抄报初中版
网问答为提供知识和解答各类疑难的平台,目标是做到有问必答解决您遇到的各类问题.本站内容均为网友发表,并不代表本站立场!
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: