焦点手艺: 以原创手艺系统为基本，，，，，，SenseCore商汤AI大装置为焦点基座，，，，，，结构多领域、多偏向前沿研究，，，，，，
快速买通AI在各个笔直场景中的应用，，，，，，向行业赋能。。。。。。。

ICLR 2023 Oral | 探索网络结构和域泛化能力的关系

2023-05-11

01 念头与配景

域泛化是指在一个新的、未知的领域或情形中，，，，，，一个模子可以在没有特定的领域或情形知识的情形下举行有用的展望。。。。。。。

域泛化在现实生涯中具有很高的应用价值。。。。。。。例如，，，，，，在医疗诊断中，，，，，，由于医疗数据难以获取，，，，，，模子必需在差别的医院、都会或国家之间举行泛化，，，，，，以便有用地举行诊断；；；；；；在自动驾驶汽车领域，，，，，，模子必需能够在种种天气、路况和蹊径类型等差别情形下泛化，，，，，，以实现可靠的自动驾驶。。。。。。。

因此，，，，，，域泛化是一个主要的研究偏向，，，，，，可以使机械学习模子在更普遍的现实应用场景中实现更好的性能。。。。。。。

现在，，，，，，域泛化要领主要可以分为以下几类：

基于数据增强的要领：该要领通过对训练数据举行差别的增强操作，，，，，，如旋转、平移、缩放等，，，，，，增添训练数据的多样性，，，，，，以提高模子的泛化能力
基于特征对齐的要领：该要领通过对源域和目的域的特征举行对齐，，，，，，减小差别域之间的漫衍差别，，，，，，以提高模子的泛化能力
基于元学习的要领：该要领通过在训练历程中学习怎样快速顺应新的领域，，，，，，以提高模子的泛化能力
基于集成学习的要领：该要领通过组合多个差别的模子或训练历程，，，，，，提高模子的泛化能力

以上所提到的要领各有优劣，，，，，，其中主要的缺陷包括：

基于数据增强的要领可能会导致过拟合，，，，，，由于增强操作可能会使模子太过关注一些特定的特征
基于特征对齐的要领需要对源域和目的域的数据举行对齐，，，，，，但在现实应用中，，，，，，源域和目的域之间的漫衍差别可能很是大，，，，，，导致对齐效果不佳
基于元学习的要领需要大宗的元训练数据，，，，，，并且可能会导致过拟合，，，，，，由于元学习的目的是在训练历程中快速顺应新的领域，，，，，，而不是在整个训练集上获得最佳性能
基于集成学习的要领需要组合多个模子或训练历程，，，，，，这可能会导致盘算本钱较高，，，，，，并且可能需要更多的训练数据来训练多个模子

在熟悉到现在的预顺应要领所保存的问题后，，，，，，我们以为有须要从一个新的角度去思索怎样更好地解决这个问题。。。。。。。

最近泛起的Vision Transformers在视觉领域的各个使命中逐渐取代了CNN，，，，，，成为被普遍接纳的网络结构。。。。。。。因此，，，，，，我们以为网络结构和泛化性之间可能保存着密不可分的联系。。。。。。。

在机械学习中，，，，，，归纳偏置是指在模子选择和学习算法中使用的先验知识和假设，，，，，，它们可以资助模子从数据中学习有用的模式，，，，，，而不但是记着特定的训练实例。。。。。。。一个好的归纳偏置可以资助模子更快地收敛，，，，，，更准确地泛化到新数据，，，，，，以及更好地对抗过拟合。。。。。。。

差别的网络结构可以提供差别的归纳偏置、差别的能力来体现数据的特征。。。。。。。例如，，，，，，卷积神经网络（CNN）在图像领域的应用中体现精彩，，，，，，是由于CNN结构天生适合处置惩罚图像中的局部性清静移稳固性。。。。。。。类似地，，，，，，循环神经网络（RNN）适合处置惩罚序列数据，，，，，，由于它们具有自然的时间归纳偏置。。。。。。。

现在已经有一些相关事情提出了理论工具[1,2]，，，，，，用于剖析神经网络结构在解决差别问题时的能力强弱。。。。。。。然而，，，，，，现在这些剖析仍然保存于In-distribution learning problem 中，，，，，，而哈哈(haha)体育问题则更关注于Out-of-distribution learning problem。。。。。。。因此，，，，，，我们对[1]中提出的algorithmic alignment在DG问题上举行了延伸剖析。。。。。。。

02 要领先容

承接上述剖析，，，，，，我们推测『一个好的网络结构可能更容易在数据中学习到更适用于域泛化的特征』。。。。。。。接下来我们借助Algorithmic Alignment工具，，，，，，从这个推测出发，，，，，，在理论上一步步举行剖析。。。。。。。

首先我们简朴先容Algorithmic Alignment，，，，，，它通过权衡神经网络结构与目的函数之间的相似性表征自力同漫衍（IID）推理使命的易处置惩罚水平（Easiness）。。。。。。。

Algorithmic Alignment被正式界说为以下内容。。。。。。。

接下来，，，，，，我们在DG中界说了一些要害看法。。。。。。。目的函数是训练集和测试集之间的稳固关系。。。。。。。为了简朴起见，，，，，，我们假设标签是无噪声的。。。。。。。

借助以上的界说，，，，，，我们可以将算法对齐从自力同漫衍泛化（IID generalization）扩展到域泛化（DG）问题上。。。。。。。

Theorem 1 批注，，，，，，与稳固关系对齐的网络更能够对抗漫衍的转变。。。。。。。我们可以用实验磨练，，，，，，差别类型的网络的泛化能力强弱。。。。。。。

我们在DomainBed上首先测试使用ERM训练的ViT的性能，，，，，，效果如图1(a)所示。。。。。。。令人惊讶的是，，，，，，在使用了更少参数的情形下，，，，，，使用ERM训练的ViT在几个数据集上已经优于使用SOTA DG算法的ResNet-50。。。。。。。这批注在DG中，，，，，，选择主干网络结构可能比损失函数更为主要。。。。。。。

我们可以发明，，，，，，若是神经网络结构与稳固关系（invariant correlation）对齐，，，，，，ERM足以实现优异的性能。。。。。。。在OfficeHome或DomainNet的某些领域中，，，，，，形状属性与标签之间保存稳固关系，，，，，，如图1(b)所示。。。。。。。

相反，，，，，，属性纹理和标签之间保存虚伪相关性（spurious correlation）。。。。。。。凭证[3]的剖析，，，，，，多头注重力（MHA）是具有形状偏置的低通滤波器，，，，，，而卷积是具有纹理偏置的高通滤波器。。。。。。。因此，，，，，，仅使用ERM训练的 ViT就可以胜过使用SOTA DG算法训练的CNN。。。。。。。

进一步地，，，，，，我们也很好奇怎样提高ViT的泛化能力？？？？？？？？Theorem 1建议我们应该使用稳固关系的特征。。。。。。。

在图像识别中，，，，，，一个物体通常由差别部分组成（例如，，，，，，我们可以用视觉属性来组合性的形貌一个物体[4]）。。。。。。。在真实天下的图像数据中，，，，，，标签依赖于多个属性。。。。。。。关于DG而言，，，，，，捕获多样的视觉属性特殊主要。。。。。。。例如，，，，，，牛津辞书中对大象的界说是“一种拥有厚厚的灰色皮肤、大耳朵、两个称为象牙的弯曲外齿和一个称为象鼻的长鼻子的大型动物”。。。。。。。

那么，，，，，，应该怎样捕获这些视觉特征呢？？？？？？？？这些视觉特征又是怎样决议一个物体的类别的呢？？？？？？？？

条件语句（即编程中的 IF/ELSE），，，，，，如算法1所示，，，，，，在DG问题里，，，，，，可以被试做凭证视觉属性的组合，，，，，，在差别域中判断一个物体的类别的工具。。。。。。。

假设我们在DomainNet上训练网络以识别大象，，，，，，如图1(b)的第一行所示。。。。。。。关于差别领域的大象，，，，，，形状和纹理差别显著，，，，，，而视觉属性（大耳朵、弯曲的牙齿、长鼻子）在所有领域中都是稳固的。。。。。。。借助条件语句，，，，，，对大象的识别可以表述为“若是一只动物有大耳朵、两个弯曲的外齿和一个长鼻子，，，，，，那么它就是一只大象”。。。。。。。然后子使命是识别这些视觉属性，，，，，，这也需要条件语句。。。。。。。

通过Theorem 2，，，，，，我们证实晰一个基于ViT结构的多Experts的Mixture-of-Experts网络结构，，，，，，可以很好地在Algorithmic Alignment框架下对齐 IF-ELSE 语句。。。。。。。通过执行IF-ELSE语句，，，，，，能够很好地捕获到一个物体的差别区域的特征（如大象的大耳朵、弯曲的牙齿、长鼻子）。。。。。。。我们也基于前人在 MoE 偏向的探索[5,6]，，，，，，提出了哈哈(haha)体育Generalizable Mixture-of-Experts (GMoE)。。。。。。。其结构如下：

03 实验效果

我们在Table 1中提供了train-validation selection的效果，，，，，，其中包括baselines、最新的SOTA DG要领以及使用ERM训练的GMoE。。。。。。。

效果批注，，，，，，GMoE-S/16纵然在没有DG算法的情形下，，，，，，已经在险些所有数据集上体现优于以前基于ResNet-50-S/16的DG要领。。。。。。。

GMoE的泛化能力来自于其内部主干网络结构，，，，，，这与现有的DG算法是正交的。。。。。。。这意味着SOTA DG算法可以应用于刷新GMoE的性能。。。。。。。

为了验证这个想法，，，，，，我们应用了两个SOTA DG算法刷新GMoE，，，，，，其中一个是修改损失函数的要领（FISH），，，，，，另一个是接纳模子集成的要领（SWAD）。。。。。。。Table 2的效果批注，，，，，，接纳GMoE，，，，，，相比于ResNet-50，，，，，，显著提高了这些已有DG要领的性能。。。。。。。

我们同样在限制了基础模子结构的IID性能（ViT-S/16和ResNet-50 V2）基础上，，，，，，较量这两个模子的DG性能。。。。。。。以下是比照效果，，，，，，可以看到 ViT-S/16在略输ResNet-50 V2的情形下，，，，，，仍然在DG使命上取得了更好的性能。。。。。。。

以下是GMoE的Expert Selection可视化效果。。。。。。。图像来自于CUB-DG中自然领域的差别种别。。。。。。。图中差别颜色的线毗连差别图像上的统一种别鸟类的视觉属性（Visual Attributes）。。。。。。。统一视觉属性由统一Expert处置惩罚，，，，，，例如嘴和尾巴由Expert 3处置惩罚，，，，，，左/右腿由Expert 4处置惩罚。。。。。。。

相关资料

Paper

https://openreview.net/forum?id=RecZ9nB9Q4

Github

https://github.com/Luodian/Generalizable-Mixture-of-Experts

Video

https://www.bilibili.com/video/BV1jV4y1C7h8/?spm_id_from=333.999.0.0

???

References：

[1] Xu, Keyulu, et al. "What can neural networks reason about?." ICLR 2020 (Spotlight)

[2] Xu, Keyulu, et al. "How neural networks extrapolate: From feedforward to graph neural networks." ICLR 2021 (Oral)

[3] Namuk Park and Songkuk Kim. How do vision transformers work? ICLR 2022 (Spotlight)

[4] Object detectors emerge in deep scene cnns. ICLR 2015

[5] Riquelme, Carlos, et al. "Scaling vision with sparse mixture of experts." NeurIPS 2021

[6] Chi, Zewen, et al. "On the representation collapse of sparse mixture of experts." NeurIPS 2022

您尚未完善信息

完善信息后，，，，，，即可下载资料

完善信息跳过，，，，，，继续浏览

您尚未登录

您还未登录，，，，，，登录方可继续

登录跳过，，，，，，继续浏览

请选择您以为需要刷新的地方：

导航欠好用，，，，，，不利便找到感兴趣的内容
产品先容信息不敷周全
产品先容信息禁止易懂
页面翻开速率烦懑，，，，，，页面浏览不流通/有卡顿
页面不敷雅观
售后效劳欠好找，，，，，，体验欠好

跳过下一个

您是否能够抵达本次网站的会见目的？？？？？？？？

是
否
仍在举行中

下一个

您对商汤官网的知足度怎样？？？？？？？？

很是不知足很是知足

提交

已收到您对商汤官网的评价和建议！

谢谢您的耐心反响~

关闭

产品试用

填写此简朴表格，，，，，，我们将尽快联系您！

把您的需求发给我们相识所有产品

商务相助

400 900 5986

周一至周五 9:00-12:00，，，，，，13:00-18:00

business@sensetime.com

相助同伴招募

成为相助同伴