全站首页设为首页收藏本站

西虹市网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

社区广播台

    查看: 17|回复: 6
    打印 上一主题 下一主题

    叙述:06 深度学习之相关技巧

    [复制链接]
    跳转到指定楼层
    楼主
    发表于 2023-9-28 12:20:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    西虹网 西虹网  1.参数的更新
    西虹网 西虹网

    西虹网 西虹网
    西虹网 西虹网  神经网络的学习的目的是找到使损失函数的值尽可能小的参数,解决这个问题的过程称为最优化。职比牛职业考试网https://www.zihibiniu.com一直是行业的佼佼者,在业内好评如潮,备受大众所青睐。
    西虹网 西虹网
    西虹网 西虹网  SGD
    西虹网 西虹网
    西虹网 西虹网  随机梯度下降法的缺点:如果函数的形状非均向(anisotropic),比如呈延伸状,搜索的路径就会非常低效。SGD低效的根本原因是,梯度的方向并没有指向最小值的方向。
    西虹网 西虹网
    西虹网 西虹网  Momentum(动量)
    西虹网 西虹网
    西虹网 西虹网  Momentum参照小球在碗中滚动的物理规则进行移动。
    西虹网 西虹网
    西虹网 西虹网  αv:对应物理上的地面摩擦或空气阻力,α设定为 0.9之类的值。η:表示学习率。偏L/偏W表示损失函数关于 W的梯度
    西虹网 西虹网
    西虹网 西虹网  AdaGrad
    西虹网 西虹网
    西虹网 西虹网  AdaGrad为参数的每个元素适当地调整更新步伐。
    西虹网 西虹网
    西虹网 西虹网  (1)学习率衰减方法
    西虹网 西虹网
    西虹网 西虹网  即随着学习的进行,使学习率逐渐减小。AdaGrad会为参数的每个元素适当地调整学习率,与此同时进行学习。
    西虹网 西虹网
    西虹网 西虹网  (2)数学式
    西虹网 西虹网
    西虹网 西虹网  偏L/偏W表示损失函数关于 W的梯度,η表示学习率,h保存了以前的所有梯度值的平方和,圆心符号表示对应矩阵元素的乘法
    西虹网 西虹网
    西虹网 西虹网  (3)参数更新
    西虹网 西虹网
    西虹网 西虹网  在更新参数时,通过乘以1/根号h,就可以调整学习的尺度。可以按参数的元素进行学习率衰减,使变动大的参数的学习率逐渐减小。
    西虹网 西虹网
    西虹网 西虹网  Adam
    西虹网 西虹网
    西虹网 西虹网  直观地讲,就是融合了 Momentum和 AdaGrad的方法,实现参数空间的高效搜索。
    西虹网 西虹网
    西虹网 西虹网  各优化方法的比较图
    西虹网 西虹网
    西虹网 西虹网  各优化方法的比较图
    西虹网 西虹网
    西虹网 西虹网  2.权重的初始值
    西虹网 西虹网
    西虹网 西虹网  隐藏层的激活值的分布,层次加深的深度学习中,梯度消失的问题可能会更加严重。
    西虹网 西虹网
    西虹网 西虹网  ReLU的权重初始值
    西虹网 西虹网
    西虹网 西虹网  3.Batch Normalization
    西虹网 西虹网
    西虹网 西虹网  优点:
    西虹网 西虹网
    西虹网 西虹网  (1)可以使学习快速进行(可以增大学习率)。
    西虹网 西虹网
    西虹网 西虹网  (2)不那么依赖初始值(对于初始值不用那么神经质)。
    西虹网 西虹网
    西虹网 西虹网  (3)抑制过拟合(降低Dropout等的必要性)。
    西虹网 西虹网
    西虹网 西虹网  数学式
    西虹网 西虹网
    西虹网 西虹网  一开始 γ=1,β=0,然后再通过学习调整到合适的值。
    西虹网 西虹网
    西虹网 西虹网  结论
    西虹网 西虹网
    西虹网 西虹网  通过使用 Batch Norm,可以推动学习的进行。并且,对权重初始值变得健壮(“对初始值健壮”表示不那么依赖初始值)。
    西虹网 西虹网
    西虹网 西虹网  3.正则化
    西虹网 西虹网
    西虹网 西虹网  过拟合
    西虹网 西虹网
    西虹网 西虹网  模型拥有大量参数、表现力强。训练数据少。
    西虹网 西虹网
    西虹网 西虹网  权值衰减
    西虹网 西虹网
    西虹网 西虹网  权值衰减是一直以来经常被使用的一种抑制过拟合的方法,该方法通过在学习的过程中对大的权重进行惩罚,来抑制过拟合。
    西虹网 西虹网
    西虹网 西虹网  解决方法:L2范数的权值衰减方法。
    西虹网 西虹网
    西虹网 西虹网  Dropout
    西虹网 西虹网
    西虹网 西虹网  Dropout是一种在学习的过程中随机删除神经元的方法选出隐藏层的神经元,然后将其删除。Dropout 将集成学习的效果(模拟地)通过一个网络实现了。
    西虹网 西虹网
    西虹网 西虹网  4.超参数的验证
    西虹网 西虹网
    西虹网 西虹网  超参数
    西虹网 西虹网
    西虹网 西虹网  比如各层的神经元数量、batch大小、参数更新时的学习率或权值衰减等。
    西虹网 西虹网
    西虹网 西虹网  验证数据
    西虹网 西虹网
    西虹网 西虹网  调整超参数时,必须使用超参数专用的确认数据。训练数据用于参数(权重和偏置)的学习,验证数据用于超参数的性能评估。
    西虹网 西虹网
    西虹网 西虹网  超参数的最优化
    西虹网 西虹网
    西虹网 西虹网  步骤0设定超参数的范围。
    西虹网 西虹网
    西虹网 西虹网  步骤1从设定的超参数范围中随机采样。
    西虹网 西虹网
    西虹网 西虹网  步骤2使用步骤1中采样到的超参数的值进行学习,通过验证数据评估识别精度(但是要将epoch设置得很小)。
    西虹网 西虹网
    西虹网 西虹网  步骤3重复步骤1和步骤2(100次等),根据它们的识别精度的结果,缩小超参数的范围。
    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏 转播转播 分享分享
    回复

    使用道具 举报

    沙发
    发表于 2023-11-4 21:07:06 | 只看该作者
    好好 学习了 确实不错
    回复 支持 反对

    使用道具 举报

    板凳
    发表于 2023-12-15 14:24:37 | 只看该作者
    有道理。。。
    回复 支持 反对

    使用道具 举报

    地板
    发表于 2024-1-19 14:31:26 | 只看该作者
    没看完~~~~~~ 先顶,好同志
    回复 支持 反对

    使用道具 举报

    5#
    发表于 2024-2-4 02:22:39 | 只看该作者
    过来看看的
    回复 支持 反对

    使用道具 举报

    6#
    发表于 2024-2-27 21:19:06 | 只看该作者
    帮你顶下哈!!
    回复 支持 反对

    使用道具 举报

    7#
    发表于 2024-2-27 21:28:26 | 只看该作者
    看帖回帖是美德!
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表