About 87 results
Open links in new tab
  1. 深入剖析 Adam 优化器:原理、优势与应用 - 知乎

    在深度学习领域,优化器的选择对模型的训练效率和性能起着决定性作用。 Adam优化器作为一种自适应优化算法,凭借其根据历史梯度信息动态调整学习率的特性,备受研究者和工程师的青睐。 它巧妙 …

  2. PyTorch模型训练优化器Adam和AdamW - 知乎

    2.2 PyTorch调用方法 在 PyTorch 里, Adam 和 AdamW 的调用语法几乎一模一样,这是因为 PyTorch 的优化器接口是统一设计的,使用方式都继承自 torch.optim.Optimizer 的通用结构。 所以调 …

  3. Adam和AdamW - 知乎 - 知乎专栏

    AdamW目前是大语言模型训练的默认优化器,而大部分资料对Adam跟AdamW区别的介绍都不是很明确,在此梳理一下Adam与AdamW的计算流程,明确一下二者的区别。

  4. 一文读懂Adam优化算法 - 知乎

    May 9, 2024 · ADAM算法通过自适应学习率自动为每一段路调整“齿轮比”,确保你在复杂多变的山地地形中以最合适的速度前进。 偏置校正:在刚开始你的探险时,由于对山地不熟悉,你可能会低估一些 …

  5. 优化方法——AdaGrad、RMSProp、Adam - 知乎

    Adam算法的本质: 其实就是 Momentum+RMSProp的结合,然后 再修正其偏差。 Adam对梯度的一阶和二阶都进行了估计与偏差修正,使用梯度的一阶矩估计和二阶矩估计来动态调整每个参数的学习率( …

  6. 一文读懂Adam优化器参数 - 知乎专栏

    以画图的方式验证,假设模型A的 \beta_1=0.9 ,模型A的batch_size为模型B的batch_size的2倍,按照上述推理模型B的 \beta_1=\sqrt {0.9} ,模型A迭代前20步,每步的权重如上图图2所示,模型B迭代 …

  7. Adam 优化器背后的数学原理 - 知乎

    在某些区域,您需要迈出大步,而在其他区域,需要小心翼翼地迈步。 Adam 优化器的工作方式类似,它动态调整步长,在较简单的区域中步长较大,在较复杂的区域中步长较小,确保更有效且更快速地到 …

  8. adam 算法在机器学习中的作用是什么? - 知乎

    Jan 10, 2024 · Adam算法是一种基于梯度下降的优化算法,通过调整模型参数以最小化损失函数,从而优化模型的性能。 Adam算法结合了动量(Momentum)和RMSprop(Root Mean Square …

  9. 训练时的学习率调整:optimizer和scheduler - 知乎

    Sep 16, 2022 · 2.1optimizer的种类 2.1 optim.SGD 2.2 optim.Adam 3. scheduler 的种类 pytorch有torch.optim.lr_scheduler模块提供了一些根据epoch训练次数来调整学习率(learning rate)的方法。 …

  10. 权重衰减/权重衰退——weight_decay - 知乎 - 知乎专栏

    Feb 20, 2023 · - 一般取值比较小,比如0.0005 在标准的随机梯度下降中, 权重衰减正则化和正则化 的效果相同 因此,权重衰减在一些深度学习框架中通过 L2 正则化来实现 但是,在较为复杂的优化方法 ( …