Self-training with Noisy Student

date

May 6, 2022

Last edited time

Mar 27, 2023 09:01 AM

status

Published

slug

Self-training_with_Noisy_Student

What is self-training?

Self-training 是最简单的半监督方法之一，其主要思想是找到一种方法，用未标记的数据集来扩充已标记的数据集。算法流程如下：

（1）首先，利用已标记的数据来训练一个好的模型，然后使用这个模型对未标记的数据进行标记。

（2）然后，进行伪标签的生成，因为我们知道，已训练好的模型对未标记数据的所有预测都不可能都是好的，因此对于经典的 Self-training，通常是使用分数阈值过滤部分预测，以选择出未标记数据的预测标签的一个子集。

（3）其次，将生成的伪标签与原始的标记数据相结合，并在合并后数据上进行联合训练。

（4）整个过程可以重复 n 次，直到达到收敛。

What is Noisy Student?

Self-training 是利用未标记数据的好方法。但这篇来自 Google 的文章却强调了 Noisy Student。怎么回事？它与经典方法有什么不同吗？

Noisy Student 的作者发现，要使这种方法发挥作用，student model 在训练过程中应加噪声，如 dropout, stochastic depth andaugmentation 等。而 teacher model 在产生伪标签时不应加噪声。因为 Noisy 是整个算法的一个重要部分，所以他们称之为 “Noisy Student”。

Noisy Student 与经典的自学习算法相似，但主要区别在于使用不同的方法给学生增加噪音。需要注意的是，当生成伪标签时，教师并没有被噪声干扰。

除了噪音，还有两点对 Noisy Student 来说很重要。

（1）尽管教师和学生的结构可以相同，但学生模型的容量应该更高。为什么？因为它必须适合一个更大的数据集（标签和伪标签）。因此，学生模型必须大于教师模型。

（2）平衡数据：作者发现，当每个类的未标记图像数量相同时，学生模型效果良好。

Experiment Details

Labeled dataset

对于标签数据集，使用了非常著名的 ImageNet 数据集。

Unlabeled dataset

未标记图像是从 JFT 数据集获得的，该数据集有大约 3 亿张图像。虽然这些图像是在原始数据集中是标记的，但是需要丢弃了这些标签，因为训练中将这些图像视为未标记的数据集。因为需要对这个数据集进行平衡和过滤，我们使用最初在 ImageNet 上训练的 EfficientNet-B0 来预测标签，并且只考虑那些标签的置信度高于 0.3 的图像。对于每个类，选择 130K 个样本，对于少于 130K 个样本的类，随机复制一些图像。

Architecture

作者使用 EfficientNet 作为 baseline models。考虑到 EfficientNet 比 resnet 好得多，容量也更高，因此使用它们作为基线模型是有意义的。

作者还放大了 EfficientNet-B7，得到了三个不同的网络：EfficientNet-L0、L1 和 L2。

EfficientNet-L0 比 EfficientNet-B7 更宽更深，但使用的分辨率较低，使得该网络的训练速度与 B7 相似。

通过增加宽度，EfficientNet-L1 从 EfficientNet-L0 按比例放大。

还记得 EfficientNets 中引入的复合缩放的概念吗？作者使用相同的复合标度技术对 EfficientNet-L1 进行放大，得到 EfficientNet-L2。EfficientNet-L2 在模型大小方面非常大，训练时间大约是 EfficientNet-B7 的训练时间的 5 倍。

Training details

训练使用的 batchsize = 2048 ，但是他们发现当使用 512、1024 或 2048 的时，性能是相同的。当学生模型大于 EfficientNet-B4，包括 EfficientNet-L0、l1 和 L2 时，它被训练为 350 个 epoch，而不是 700 个 epoch。训练集包含已标记和未标记的数据集，并使用平均交叉熵损失。

Iterative Training

（1）首先，EfficientNet-B7 作为教师模型和学生模型来提高其准确性。

（2）优化后 EfficientNet-B7 现在被用作教师，EfficientNet-L0 被用作学生模型。

（3）再使用 EfficientNet-L0 作为教师，而 EfficientNet-L1 作为学生模型，它比 L0 更宽。

（4）然后，EfficientNet-L1 被用作教师，EfficientNet-L2 作为最大的模型被用作学生。

（5）EfficientNet-L2 是最终的 model。

Results

Rethink Noisy

给 student model 增加 “Noisy” 是不是不是必要的？这是个很好的问题。

在我们开始讨论之前，让我们退一步思考一下，当同一个模型同时作为教师和学生使用时的情况，由于伪标签是使用相同的教师模型生成的，因此一个合理的假设是，在这种情况下，学生模型在未标记数据上的交叉熵损失将为零，那么，学生模型最终将不再学习新东西。而对学生加 noisy，可以确保 student model 的任务更难完成，而不仅仅是学习 teacher model 的知识，这也是 Noisy 能够带来提升的一个原因。

进一步研究，作者在两个不同大小的未标记数据集上进行了两个实验。在这两种情况下，对于未标记的图像，噪声是逐渐去除的，而对于有标记的图像则保持噪声，这样我们就可以隔离噪声对未标记数据的影响，并防止对标记数据的过度拟合。结果如下，可以看到加入 Noisy 后，性能提升明显。

Conclusion

总的来说，这是一篇很好的论文。这不仅表明在 Self-training 方向还有很多需要探索的地方，也再次证明了 augmentation、dropout 和 stochastic depth 的重要性。但是，正如文中所述，

“Our largest model, EfficientNet-L2, needs to be trained for 3.5 days on a Cloud TPU v3 Pod, which has 2048 cores.”

考虑到用于此的计算量，我认为许多人将无法复制和调整它以进行进一步的实验。

References

https://arxiv.org/abs/1911.04252

[https://medium.com/@nainaakash012/self-training-with-noisy-student-f33640edbab2](https://link.zhihu.com/?target=https%3A//medium.com/%40nainaakash012/self-training-with-noisy-student-f33640edbab2)