论文阅读:2020 | On Feature Normalization and Data Augmentation

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

论文链接: https://arxiv.org/pdf/2002.11102.pdf.

现代神经网络训练在很大程度上依赖于数据增强来提高泛化能力。在标签保留增强方法取得初步成功后,最近出现了对标签扰动方法的兴趣激增,这种方法将训练样本中的特征和标签结合在一起,以平滑学习的决策面。在本文中,提出了一种新的增强方法,该方法利用提取的一阶和二阶矩,并通过特征归一化重新注入。将一幅训练图像的学习特征矩替换为另一幅训练图像的特征矩,并对目标标签进行插值。由于方法速度快,完全在特征空间中操作,并且混合了与现有方法不同的信号,可以有效地将其与现有的增强方法结合起来。在计算机视觉、语音和自然语言处理的基准数据集上展示了它的有效性,在这些数据集上,它持续提高了竞争激烈的基线网络的泛化性能。

一、Introduction

为了解决过度拟合问题,用大量的正则化来训练神经网络,其可以是显式的,例如在数据增强和DropOut的情况下,或者是隐式的,例如提前停止和内在正规化。
优化这种深度神经网络的一个关键因素是批量归一化。最近的一系列研究表明,归一化方法改变了损失曲面,并通过在实践中实现更大的学习率而导致更快的收敛。虽然批次归一化对视觉对象识别中的深度学习革命有很大贡献,但在具有较小的小批次或可变输入大小的任务(例如,许多NLP任务)上,其性能会降低。这促使人们寻求针对单个实例的规范化方法,例如LayerNorm(LN)、InstanceNorm(IN)、GroupNorm(GN)以及最近的PositionalNorm(PONO)。这些实例内归一化将每个示例视为一个分布,并根据它们的一阶和二阶矩对它们进行归一化-本质上从特征表示中移除矩信息,并通过缩放和偏移常量重新学习它们。
在这一点上,数据增强被认为或多或少独立于训练期间使用的归一化方法。在本文中,我们介绍了一种新的标签扰动数据增强方法,该方法自然地结合了特征归一化。以前有人认为,在实例内归一化中提取的第一和第二矩捕获了图像的底层结构。我们建议提取这些矩,但不是简单地移除它们,而是从不同的图像重新注入矩并插入标签-例如,将平面的结构注入到猫的图像中,以获得猫和平面之间的混合。示意图见图1。在实践中,这个过程对于小批次的训练非常有效,并且可以用几行代码来实现:在训练期间,我们计算给定层上每个实例的特征均值和方差,在小批次中对它们进行置换,然后将它们重新注入到其他实例的特征表示中(同时内插标签)。换句话说,我们在样本之间随机交换特征矩,因此我们将我们的方法称为矩交换(MOEX)。
论文阅读:2020 | On Feature Normalization and Data Augmentation

与以前的方法不同,MOEX纯粹在特征空间中操作,因此可以很容易地与在输入空间中操作的现有数据增强方法(如裁剪、翻转、旋转,甚至是CutMix或Mixup等扰乱标签的方法)一起应用。重要的是,因为MOEX只改变像素分布的一阶和二阶矩,所以它与现有的数据增强方法具有正交效应,并且它的改进可以“叠加”到它们在泛化方面的既定收益之上。

二、Moment Exchange

Moment Exchange(MOEX),它融合了特征归一化和数据增强。与Mixup和CutMix类似,它在两个训练样本上融合了特征和标签,但它的不对称性是独特的,因为它混合了两个非常不同的组件:一个实例的归一化特征与另一个实例的特征矩相结合。这种特征空间中的不对称组合使我们能够捕捉和平滑决策边界的不同方向,这是现有增强方法以前没有涵盖的。

作者将归一化特征和矩视为同一实例的不同视图。如果机器学习算法利用多个信号源,则通常有助于健壮性,因为在测试示例中其中一个信号源表达不足的情况下,机器学习算法会变得更具弹性。例如,第一个矩主要传达结构信息和很少的颜色信息,在猫图像的情况下,这可以帮助克服训练数据集中对毛发颜色偏差的过度拟合。

论文阅读:2020 | On Feature Normalization and Data Augmentation
论文阅读:2020 | On Feature Normalization and Data Augmentation
λ \lambda λ文中使用的是0.9

result

论文阅读:2020 | On Feature Normalization and Data Augmentation

论文阅读:2020 | On Feature Normalization and Data Augmentation

总结

从特征与矩的角度来进行数据增强。相当于用B图像的均值方差,来对A图像进行归一化。对A的内在分布施加B的分布扰动。emmm,个人感觉。。。有点勉强。优点在于和其他数据增强方法正交,可以联合使用。

上一篇:最新目标检测论文(二):Learning Data Augmentation Strategies for Object Detection


下一篇:数据扩增(data augmentation)