GridMask：一种数据增强方法_随笔

GridMask：一种数据增强方法

GridMask Data Augmentation， ARXIV 2020

代码地址：https://github.com/akuxcw/GridMask

这篇论文提出了一种简单的数据增强方法，在图像分类、检测、分割三个任务进行实验，效果提升明显。

1. Introduction

作者首先回顾了数据增强（Data augmentation）方法，指出当前方法有三类：spatial transformation, color distortion, 以及 information dropping。

本文提出的方法属于 information dropping，作者指出，对于此类方法，避免过度删除或保持连续区域是核心问题：一方面，过度删除区域将造成完整目标被删除或者上下文信息缺失，因此，剩下的区域不足以表达目标信息，会成为noisy data。

另一方面，保留过多区域，将会使得目标不受影响（untouched），会影响网络的鲁棒性。

作者重点介绍了 Cutout 和 HaS 方法。

Cutout方法只删除图像中的一块连续区域，因此，容易出现删除掉整个目标，或者一点目标也没有删除的情况；HaS方法把图像划分为若干小块的区域，然后随机删除，但仍然会出现和 Cutout 相同的问题。

下图展示了 GridMask 方法与当前方法的对比。

2. Methodology

GridMask 通过生成一个和原图相同分辨率的mask，然后将该mask与原图相乘得到一个图像。

下图中灰色区域的值为1，黑色区域的值为0。

这样，就实现了特定区域的 information dropping，本质上可以理解为一种正则化方法。

GridMask对应4个参数，为 \((x,y,r,d)\) ，四个参数的设置如下图所示：

从图中可以看出，\(r\) 代表了保留原图像信息的比例，有一个计算方法，具体可以阅读论文。

\(d\) 决定了一个dropped square的大小，参数 \(x\)和\(y\)的取值有一定随机性，细节可以阅读论文。

3. 实验分析

在ImageNet-1K图像分类任务上，Cutout对ResNet50的提升为0.6%，HaS的提升为0.7%，AutoAugement提升为1.1%，相比而言，GridMask的提升为1.4%。

作者还在CIFAR10数据集上进行了实验，这里不再详述。

在Ablation Study中，作者首先分析了参数\(r\)。

如下图所示，在ImageNet-1K数据集上，设置为0.6比较好；在CIFAR10数据集上，设置为0.4比较好。

作者解释为，在复杂的数据集上应该保持更多的信息来避免under-fitting，在简单数据集上应该丢弃更多的信息来减少over-fitting。

这和 common sense 是一致的。

作者还在目标检测、语义分割任务上进行了实验，具体可阅读论文，不再详述。

此外，作者还把方法和 Mixup方法进行了结合，结果表明性能同样可以得到提升。

4. 总结与讨论

GridMask是简单、通用性强并且有效的数据增强工具，同时，作者相信未来可以构造more excellent structures 来进一步改进性能。

欢迎分享，转载请注明来源：内存溢出

GridMask：一种数据增强方法