域自适应

域自适应

域变换(Domain shift):主要表现在当训练集和测试集在训练资料上有不同的分布

  • 输入的数据分布不同

  • 输出的分布也出现了变化(e.g.: 输出的分类可能性从相同变向不同)

  • 相似输入的模型输出结果不同

Domain Adaptation可以看作是一种Transfer Learning的一部分,从一个域的数据到另一个域。通过训练集训练的模型,对训练集数据分布有了一定的了解。

  • 如果有目标数据集带标签少量的数据

    • 可以进行微调(稍微跑两个),但可能出现过拟合
  • 如果有目标数据集不带标签大量数据(更常见)

    • 设置一个Feature Extractor网络过滤无关的特征,从而使不同分布的数据具有相同的数据分布(其实就是自己定义神经网络前几层作为Feature Extractor,剩下就是Label Predictor)。

    • 目标是把训练集和其他不带标签的数据集经过Feature Extractor处理后,无法分辨来源(类似于GAN的判别器 $\rightarrow$ Feature Extractor就可以看作生成器)。但是否会发生Feature Extractor对任何输入的输出都是0,从而骗过Domain Classifier?其实不然,因为Lable Predictor还会工作。

    • 在训练过程中,Domain Classifier就是一个二元分类问题(我们的目标是追求无法分辨,即准确率趋近于0),而Lable Predictor是希望分类的越精准越好。因此,Feature Extractor希望Lable Predictor精度越来越高,而Domain Classifier,所以对于Feature Extractor就是希望找到一个($L-L_d$的值最小的参数)

  • 如果无标签且数据少 现有技术:TTT

  • 一无所知 $\rightarrow$ Domain Generalization