您好,欢迎进入天花板循环扇有限公司官网!

咨询热线:

020-88888888

tf.keras.optimizers.Adamax

发布时间:2024-05-26 10:20人气:

实现 Adamax 算法的优化器。

继承自:

View aliases

用于迁移的兼容别名

有关详细信息,请参阅 Migration guide

tf.keras.optimizers.Adamax(
    learning_rate=0.001,
    beta_1=0.9,
    beta_2=0.999,
    epsilon=1e-07,
    name='Adamax',
    **kwargs
)

它是基于无穷范数的 Adam 的变体。默认参数遵循论文中提供的参数。Adamax 有时优于 adam,特别是在具有嵌入的模型中。

Initialization:

m=0  # 初始化初始第一矩向量
v=0  # 初始化指数加权无穷范数
t=0  # 初始化时间步长

参数 与梯度 的更新规则在论文7.1节末尾描述:

t +=1
m=beta1 * m + (1 - beta) * g
v=max(beta2 * v, abs(g))
current_lr=learning_rate / (1 - beta1 ** t)
w=w - current_lr * m / (v + epsilon)

与 类似,添加 epsilon 是为了数值稳定性(特别是在 时摆脱被零除的情况)。

与 相比,此算法的稀疏实现(当梯度是 IndexedSlices 对象时使用,通常是因为 或前向传递中的嵌入查找)仅在变量的该部分时更新变量切片和相应的 、 项用于前向传播。这意味着稀疏行为与密集行为形成对比(类似于一些忽略动量的动量实现,除非实际使用了可变切片)。

Args
、浮点值或 时间表。学习率。
浮点值或常量浮点张量。第一时刻估计的指数衰减率。
浮点值或常量浮点张量。指数加权无穷大范数的指数衰减率。
数值稳定性的小常数。
应用渐变时创建的操作的可选名称。默认为 。
关键字参数。允许的参数为 、 、 。如果设置了 (float),则每个权重的梯度被裁剪为不高于该值。如果设置了 (float),则每个权重的梯度将被单独剪裁,使其范数不高于该值。如果设置了 (浮点),则所有权重的梯度都会被剪裁,以便它们的全局范数不高于该值。

Reference:

Raises
如果有任何无效参数。

© 2022 The TensorFlow Authors. All rights reserved.
Licensed under the Creative Commons Attribution License 4.0.
Code samples licensed under the Apache 2.0 License.
https://www.tensorflow.org/versions/r2.9/api_docs/python/tf/keras/optimizers/Adamax


020-88888888

平台注册入口