西虹市网

标题: 叙述:06 深度学习之相关技巧 [打印本页]

作者: guozhiwei    时间: 2023-9-28 12:20
标题: 叙述:06 深度学习之相关技巧

  1.参数的更新


  神经网络的学习的目的是找到使损失函数的值尽可能小的参数,解决这个问题的过程称为最优化。职比牛职业考试网https://www.zihibiniu.com一直是行业的佼佼者,在业内好评如潮,备受大众所青睐。

  SGD

  随机梯度下降法的缺点:如果函数的形状非均向(anisotropic),比如呈延伸状,搜索的路径就会非常低效。SGD低效的根本原因是,梯度的方向并没有指向最小值的方向。

  Momentum(动量)

  Momentum参照小球在碗中滚动的物理规则进行移动。

  αv:对应物理上的地面摩擦或空气阻力,α设定为 0.9之类的值。η:表示学习率。偏L/偏W表示损失函数关于 W的梯度

  AdaGrad

  AdaGrad为参数的每个元素适当地调整更新步伐。

  (1)学习率衰减方法

  即随着学习的进行,使学习率逐渐减小。AdaGrad会为参数的每个元素适当地调整学习率,与此同时进行学习。

  (2)数学式

  偏L/偏W表示损失函数关于 W的梯度,η表示学习率,h保存了以前的所有梯度值的平方和,圆心符号表示对应矩阵元素的乘法

  (3)参数更新

  在更新参数时,通过乘以1/根号h,就可以调整学习的尺度。可以按参数的元素进行学习率衰减,使变动大的参数的学习率逐渐减小。

  Adam

  直观地讲,就是融合了 Momentum和 AdaGrad的方法,实现参数空间的高效搜索。

  各优化方法的比较图

  各优化方法的比较图

  2.权重的初始值

  隐藏层的激活值的分布,层次加深的深度学习中,梯度消失的问题可能会更加严重。

  ReLU的权重初始值

  3.Batch Normalization

  优点:

  (1)可以使学习快速进行(可以增大学习率)。

  (2)不那么依赖初始值(对于初始值不用那么神经质)。

  (3)抑制过拟合(降低Dropout等的必要性)。

  数学式

  一开始 γ=1,β=0,然后再通过学习调整到合适的值。

  结论

  通过使用 Batch Norm,可以推动学习的进行。并且,对权重初始值变得健壮(“对初始值健壮”表示不那么依赖初始值)。

  3.正则化

  过拟合

  模型拥有大量参数、表现力强。训练数据少。

  权值衰减

  权值衰减是一直以来经常被使用的一种抑制过拟合的方法,该方法通过在学习的过程中对大的权重进行惩罚,来抑制过拟合。

  解决方法:L2范数的权值衰减方法。

  Dropout

  Dropout是一种在学习的过程中随机删除神经元的方法选出隐藏层的神经元,然后将其删除。Dropout 将集成学习的效果(模拟地)通过一个网络实现了。

  4.超参数的验证

  超参数

  比如各层的神经元数量、batch大小、参数更新时的学习率或权值衰减等。

  验证数据

  调整超参数时,必须使用超参数专用的确认数据。训练数据用于参数(权重和偏置)的学习,验证数据用于超参数的性能评估。

  超参数的最优化

  步骤0设定超参数的范围。

  步骤1从设定的超参数范围中随机采样。

  步骤2使用步骤1中采样到的超参数的值进行学习,通过验证数据评估识别精度(但是要将epoch设置得很小)。

  步骤3重复步骤1和步骤2(100次等),根据它们的识别精度的结果,缩小超参数的范围。
作者: 一生何求    时间: 2023-11-4 21:07
好好 学习了 确实不错
作者: 苏强    时间: 2023-12-15 14:24
有道理。。。
作者: 好人你我他    时间: 2024-1-19 14:31
没看完~~~~~~ 先顶,好同志
作者: 鹤临江    时间: 2024-2-4 02:22
过来看看的
作者: 紫翼天葵    时间: 2024-2-27 21:19
帮你顶下哈!!
作者: 黑哥    时间: 2024-2-27 21:28
看帖回帖是美德!




欢迎光临 西虹市网 (http://bbs.xihong021.cn/) Powered by Discuz! X3