Keras：回调函数Callbacks应用

2024-03-04 19:55:36

前言：对于回调函数我通过自己的理解和一些官方解释结合给大家阐述一下。

既然名字叫回调函数，“回调”顾名思义，就是通过callbacks可以返回到其所涉及到的函数，去执行。我们看一下代码：

from keras.callbacks import TensorBoard, ModelCheckpoint, ReduceLROnPlateau, EarlyStopping


logging = TensorBoard(log_dir=log_dir)
checkpoint = ModelCheckpoint(log_dir + 'ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5',monitor='val_loss', save_weights_only=True, save_best_only=True, period=3)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=3, verbose=1)
early_stopping = EarlyStopping(monitor='val_loss', min_delta=0, patience=10, verbose=1)



model.fit_generator(data_generator_wrapper(lines[:num_train], batch_size, input_shape, anchors, num_classes),
            steps_per_epoch=max(1, num_train//batch_size),
            validation_data=data_generator_wrapper(lines[num_train:], batch_size, input_shape, anchors, num_classes),
            validation_steps=max(1, num_val//batch_size),
            epochs=30,
            initial_epoch=21,
            callbacks=[logging, checkpoint, reduce_lr, early_stopping])

上面代码可以看出，回调函数是一组在训练的特定阶段被调用的函数集，通过传递回调函数列表到模型的.fit()中，即可在给定的训练阶段调用该函数集中的函数。虽然我们称之为回调“函数”，但事实上Keras的回调函数是一个类，回调函数只是习惯性称呼，看下图：

接下来我一次解释一下callbacks列表中的函数：（每个函数中的参数都有自己的默认值，你需要什么就定义什么）

1.keras.callbacks.TensorBoard
TensorBoardcallback = keras.callbacks.TensorBoard(
    log_dir='./logs',
    histogram_freq=1, batch_size=32,
    write_graph=True, write_grads=False, write_images=True,
    embeddings_freq=0, embeddings_layer_names=None,
    embeddings_metadata=None, embeddings_data=None, update_freq=500
)
下面是参数介绍：
log_dir: 用来保存被 TensorBoard 分析的日志文件的文件名。
histogram_freq: 对于模型中各个层计算激活值和模型权重直方图的频率（训练轮数中）。如果设置成 0 ，直方图不会被计算。对于直方图可视化的验证数据（或分离数据）一定要明确的指出。
write_graph: 是否在 TensorBoard 中可视化图像。如果 write_graph 被设置为 True，日志文件会变得非常大。
write_grads: 是否在 TensorBoard 中可视化梯度值直方图。 histogram_freq 必须要大于 0 。
batch_size: 用以直方图计算的传入神经元网络输入批的大小。
write_images: 是否在 TensorBoard 中将模型权重以图片可视化。
embeddings_freq: 被选中的嵌入层会被保存的频率（在训练轮中）。
embeddings_layer_names: 一个列表，会被监测层的名字。如果是 None 或空列表，那么所有的嵌入层都会被监测。
embeddings_metadata: 一个字典，对应层的名字到保存有这个嵌入层元数据文件的名字。查看详情关于元数据的数据格式。以防同样的元数据被用于所用的嵌入层，字符串可以被传入。
embeddings_data: 要嵌入在 embeddings_layer_names 指定的层的数据。 Numpy 数组（如果模型有单个输入）或 Numpy 数组列表（如果模型有多个输入）。 Learn ore about embeddings。
update_freq: ‘batch’ 或 ‘epoch’ 或整数。当使用 ‘batch’ 时，在每个 batch 之后将损失和评估值写入到 TensorBoard 中。同样的情况应用到 ‘epoch’ 中。如果使用整数，例如 10000，这个回调会在每 10000 个样本之后将损失和评估值写入到 TensorBoard 中。注意，频繁地写入到 TensorBoard 会减缓你的训练。

2.keras.callbacks.ModelCheckpoint
keras.callbacks.ModelCheckpoint(filepath, monitor='val_loss', verbose=0, save_best_only=False, save_weights_only=False, mode='auto', period=1)
参数：
filepath: 字符串，保存模型的路径。
monitor: 被监测的数据。val_acc或这val_loss
verbose: 详细信息模式，0 或者 1 。0为不打印输出信息，1打印
save_best_only: 如果 save_best_only=True，将只保存在验证集上性能最好的模型
mode: {auto, min, max} 的其中之一。如果 save_best_only=True，那么是否覆盖保存文件的决定就取决于被监测数据的最大或者最小值。对于 val_acc，模式就会是 max，而对于 val_loss，模式就需要是 min，等等。在 auto 模式中，方向会自动从被监测的数据的名字中判断出来。
save_weights_only: 如果 True，那么只有模型的权重会被保存 (model.save_weights(filepath))，否则的话，整个模型会被保存 (model.save(filepath))。
period: 每个检查点之间的间隔（训练轮数）

3.keras.callbacks.ReduceLROnPlateau
ReduceLROnPlateau(monitor=‘val_loss’, factor=0.5, patience=2, verbose=1)
参数：代码写了几个常用的参数，其他不常用的大家可以自行查询了解一下）

当学习停滞时，减少2倍或10倍的学习率常常能获得较好的效果。该回调函数检测指标的情况，如果在patience个epoch中看不到模型性能提升，则减少学习率

monitor：被监测的量
factor：每次减少学习率的因子，学习率将以lr = 0.5的形式被减少
patience：当2个epoch过去而模型性能不提升时，学习率减少的动作会被触发（改为factor中的学习率了）
mode：‘auto’，‘min’，‘max’之一，在min模式下，如果检测值触发学习率减少。在max模式下，当检测值不再上升则触发学习率减少。
epsilon：阈值，用来确定是否进入检测值的“平原区”
cooldown：学习率减少后，会经过cooldown个epoch才重新进行正常操作
min_lr：学习率的下限

4.keras.callbacks.EarlyStopping
 tf.keras.callbacks.EarlyStopping(monitor='val_loss',min_delta=0.001, patience=10, restore_best_weights=True) 
min_delta：增大或减小的阈值，只有大于这个部分才算作improvement。这个值的大小取决于monitor，也反映了你的容忍程度。本处取为0.0001，即val_loss减小幅度大于0.0001才算有提升，loss不变或增大都算没提升。

以下转载自https://blog.csdn.net/silent56_th/article/details/72845912

patience：能够容忍多少个epoch内都没有improvement。本处取为10。

monitor: 监控的数据接口，有’acc’,’val_acc’,’loss’,’val_loss’等等。正常情况下如果有验证集，就用’val_acc’或者’val_loss’。但是因为笔者用的是5折交叉验证，没有单设验证集，所以只能用’acc’了。
min_delta：增大或减小的阈值，只有大于这个部分才算作improvement。这个值的大小取决于monitor，也反映了你的容忍程度。例如笔者的monitor是’acc’，同时其变化范围在70%-90%之间，所以对于小于0.01%的变化不关心。加上观察到训练过程中存在抖动的情况（即先下降后上升），所以适当增大容忍程度，最终设为0.003%。
patience：能够容忍多少个epoch内都没有improvement。这个设置其实是在抖动和真正的准确率下降之间做tradeoff。如果patience设的大，那么最终得到的准确率要略低于模型可以达到的最高准确率。如果patience设的小，那么模型很可能在前期抖动，还在全图搜索的阶段就停止了，准确率一般很差。patience的大小和learning rate直接相关。在learning rate设定的情况下，前期先训练几次观察抖动的epoch number，比其稍大些设置patience。在learning rate变化的情况下，建议要略小于最大的抖动epoch number。笔者在引入EarlyStopping之前就已经得到可以接受的结果了，EarlyStopping算是锦上添花，所以patience设的比较高，设为抖动epoch number的最大值。
mode: 就’auto’, ‘min’, ‘,max’三个可能。如果知道是要上升还是下降，建议设置一下。笔者的monitor是’acc’，所以mode=’max’。
min_delta和patience都和“避免模型停止在抖动过程中”有关系，所以调节的时候需要互相协调。通常情况下，min_delta降低，那么patience可以适当减少；min_delta增加，那么patience需要适当延长；反之亦然。

总结：这里面中mode我觉得很关键，其中所说的模型性能有没有提升就是看这个mode，就’auto’, ‘min’, ‘,max’三个可能。如果知道是要上升还是下降，建议设置一下。笔者的monitor是’acc’，所以mode=’max’，在 auto 模式中，方向会自动从被监测的数据的名字中判断出来。。

码农公寓

相关文章