摘要
小样本图像分类任务要求模型仅从少量的图像样本中学到新类别的正确分类方法,是一种特殊的分类任务。然而,以往大多数小样本工作都单独处理来自不同类别的样本,而没有充分利用到不同类别间的信息。本文提出了一种新的类别融合网络(Category‑fusion network, CFN),通过融合来自不同类别的样本信息,同时挖掘类别内和类别间的信息。CFN的重要部分是一个融合映射的学习,即如何融合样本中的特征,从而映射出网络参数。其中的一个重要问题是融合映射是否应该随不同的输入样本而改变。本文设计了3个不同的模块:具有固定映射的类无关模块、融合映射仅依赖于期望学习的目标类别的半相关模块和完全相关的模块,其中融合映射完全依赖于输入样本。本文的网络可以通过学习多个类别的样本之间的关系来进行类别概念的学习,并生成融合信息的分类器。实验结果表明,本文网络在广泛应用的MiniImageNet数据集上得到了60.03%的分类精度。
深度学习被广泛应用于各种图像识别任务中并取得了显著的效果提
小样本图像分类问题的目的是让模型能够仅通过少量的样本学习新的类别,从而能够对新类别的样本进行分类。一些先前的工作在小样本分类中取得了很大的成
为了在小样本分类任务中更充分地利用不同类别样本中的信息,本文的重点是在前向传播中利用类间信息。其网络框架如

图1 本文网络框架图
Fig.1 Framework of our network
近年来,许多研究者对小样本学习产生了兴趣。其中,小样本分类问题的目标是让机器学习模型在学习了一些类别的大量数据后,对于新的类别只需要少量的样本就能快速学习,达到在这些类别上的精确分类。对于一个具体的小样本任务,设其新的类别数为C,每个类别的样本个数为K,则称其为C‑way K‑shot任务。许多小样本学习方
基于优化器的方法。基于优化器的方法认为普通的梯度下降方法难以在小样本任务的场景下拟合,因此通过调整优化方法来完成小样本分类的任务。文献[
基于度量学习的方法。度量学习方法的目的是学习图像的特征表示,并以前馈的方式对查询和样本图像进行分类。原型网
除了以上常见的3类方法之外,还有一些方法被应用于小样本图像分类任务中,基于迁移学习的小样本图像分类有3种实现方式:基于特
在小样本学习任务中,数据集分为两部分,训练集中包含的类别为,且每个类别的样本比较多,测试集包含的类别为,每个类别中只包含很少的样本。其中,训练集和测试集的样本类别没有交集,即。在C‑way K‑shoty 分类任务的每个训练片段中,首先从训练集中随机选择C个类别,并在每个类别中随机抽取个有标注的样本。将类别中的个样本的集合表示为Sy(),即样本集。这个类别中剩余的一部分样本作为查询集,即。在测试时,样本集和查询集以类似的方式从测试集中采样得到。小样本模型的目标是在每个训练或测试阶段中,从样本集合中学习分类方法并对查询集合中的图像进行分类。用表示1个样本的特征矩阵,其中为图像特征的维数,中的第行是中所有示例特征向量的平均值。表示融合特征矩阵,其中第行同时包含第类信息和样本的类间信息。本文工作的重点是学习融合映射: 。正如引言中提到,设计了3个不同的模块来分别学习。
本文算法步骤主要分为两部分:(1)融合特征矩阵的计算,本文设计了多种可选方法,在第2.1节融合映射模块中分别进行了详细描述;(2)基于融合特征矩阵进行分类器参数预测并对查询图像进行分类,在第2.2节类别融合网络中进行了表述。
期望类别无关能够学习到一种通用的、不变的融合映射来进行小样本的学习。同时,在小样本学习中,由于采样的随机性和训练集/测试集的标记空间的差异性,参数模型往往不能很好地从训练样本中学习。因此,设计了一个具有少量额外参数的类别无关模块(Class‑irrelevant module,CIM)。CIM通过在中的矩阵直接学习融合映射。如
(1) |

图2 类别无关模块结构图
Fig.2 Illustration of the class-irrelevant module architecture
CIM中参数较少,但有2个优点:(1)不对实验仪器产生更多的运算要求;(2)可以避免过拟合。此外,CIM中也没有添加更多人为约束。因此,CIM的性能可以直观地说明利用类间信息的有效性。
由于CIM没有考虑融合映射和输入示例之间的关系,因此设计一个半相关模块(Semi‑relevant module,SRM)将这种关系进行融合。SRM就是为了学习这种关系并动态生成融合映射而设计的。用表示由SRM生成的融合映射矩阵,在中,每个元素是1个融合权值,它与两个类别相关,分别是输入示例所属的源类别和输出特征所属的目标类别。如果是来自目标类别的样本,它们与目标类别的逻辑关系相同。如果不是来自目标类别的样本,它们与目标类别的逻辑关系相同,在融合中权重相近。因此,在SRM中增加了1个约束,即只考虑融合权值与目标类别之间的相关性来控制参数的数量。如果用完全连接的层来实现SRM,那么约束至少可以减少一半参数。因此,给定样本矩阵A,SRM生成两个权重向量,并可计算和,即
(2) |
(3) |
式中:、分别代表和中的第个元素; ,其每一列为; 为中每行的平均值;()表示hadamard乘积。由于SRM只考虑融合映射与目标类别之间的关系,本文称之为“半相关”,结构图如

图3 半相关模块结构图
Fig.3 Illustration of the semi-relevant module architecture
SRM生成带有强约束的融合映射,全相关模块(Fully‑relevant module,FRM)则根据没有约束的输入学习融合映射。但是,由于图像特征的维数较高,如果FRM直接从层间完全连接图像特征生成融合映射,则FRM参数过多,容易导致过拟合。因此,首先计算样本的内积。内积包含了样本之间的关系,用这种方法可以显著减少参数数量,FRM结构图如
(4) |
式中为FRM生成的融合映射的函数,即

图4 全相关模块结构图
Fig.4 Illustration of the fully-relevant module architecture
由于最终目标是分类,因此类别融合网络(Category‑fusion network,CFN)期望生成1个融合特征的分类器。Qiao
(5) |
(6) |
式中:为类的分类器中的参数;为利用卷积神经网络实现的特征提取器。
在MiniImageNet数据集上评估了本文方法,该数据集是较大规模的ILSVRC‑15数据集中的一部分。该数据集由来自100个类别的60 000张彩色图像组成,其中每个类别中有600个样本图像。遵循Qiao
训练过程中,本文通过使用两种不同的基础网络骨架得到两种特征提取器,分别是简单卷积模块组成的网
本文提出了5种分类的CFN网络。对于CIM,使用无激活层的单级全连接层,输入和输出维度均为5,如
在训练过程中,首先在训练集上对网络进行常规的多分类训练。无论在小样本学习还是常规的分类网络学习中,特征提取器的目的都是为了得到具有鉴别性的图像特征。虽然这部分不是关于小样本学习的主要研究,但在实验中证实了其对结果的显著影响。预训练之后,将融合映射和参数预测器一起训练。按照现有的小样本学习工作的常规设置,进行了5‑way 1‑shot和5‑shot分类。在每个训练/测试集中,查询集都由来自每个类别的15张图像组成。即在1次5‑way 1‑shot实验中,使用个样本来生成分类器,并在张图像上进行分类测试。
在每一个小样本学习步骤中,将在5个类别上验证模型的分类准确性。与Sung
方法 | 1‑shot | 5‑shot |
---|---|---|
匹配网 | 43.560.84 | 55.310.73 |
元学习LST | 43.440.77 | 60.600.71 |
MAM | 48.701.84 | 63.110.92 |
关系网 | 50.440.82 | 50.440.82 |
Qiao等‑ | 54.530.40 | 67.870.20 |
本文网络‑简‑CIM | 56.130.86 | 69.110.69 |
本文网络‑简‑SRM | 56.360.85 | 69.340.72 |
本文网络‑简‑FRM | 56.540.83 | 69.740.69 |
TADA | 58.5 | 76.7 |
Qiao等‑WR | 59.600.41 | 73.740.19 |
本文网络‑WRN‑CIM | 60.030.83 | 74.150.66 |
本文网络‑WRN‑SRM | 59.880.82 | 73.350.70 |
本文网络‑WRN‑FRM | 59.160.83 | 73.750.71 |
CIM的设计思路是在不考虑样本差异的情况下学习融合映射。为了分析CIM学到的内容,将CIM的融合映射矩阵的绝对值显示在
目标 类别 | 源类别 | 每行中非对角元素之和 | ||||
---|---|---|---|---|---|---|
A | B | C | D | E | ||
A | 0.78 | 0.07 | 0.05 | 0.11 | 0.22 | 0.45 |
B | 0.09 | 0.83 | 0.05 | 0.11 | 0.23 | 0.48 |
C | 0.10 | 0.06 | 0.52 | 0.10 | 0.22 | 0.48 |
D | 0.10 | 0.07 | 0.03 | 1.00 | 0.22 | 0.42 |
E | 0.08 | 0.06 | 0.05 | 0.12 | 0.68 | 0.31 |
与CIM不同,SRM采用动态融合映射,而和是理解SRM融合映射特性的关键。

图5 SRM中和的分布
Fig.5 Distribution of and in SRM
通过观察对应分类器中参数的相关性来分析这3个模块。由于最终目标是进行分类,所以分类器的参数直接影响结果。在每1训练/测试步中,每个类别都有1组分类器参数。本文计算了每一集不同参数的平均相关性,并在

图6 分类器参数相关性的核密度估计
Fig.6 Kernel density estimation of correlation of classifier parameters
本文提出了一种新的类别信息融合网络,该网络可以通过融合样本信息来充分利用样本中的类间信息。本文的网络能够学习前向传播中类别之间的差异,并生成一个更有分辨力的分类器。此外,设计了3个模块,以不同的方式融合不同类别的信息,并讨论了它们各自的优缺点。3种模块间相互独立,可以根据不同任务上的选择单一模块使用,同时3种模块也可以在模型中并行计算,分别计算相应的融合特征及其分类器,最终对多个分类器进行模型融合得到最终结果。本文网络在MiniImageNet数据集上实现了最先进的性能,在每个新类别1个样本和5个样本场景下分别得到了60.03%和74.15%的分类精确度,超越了基准网络的分类性能。实验结果证明了该方法对类间信息的有效利用。
参考文献
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems.London:MIT,2012:1097-1105. [百度学术]
Simonyan K, Zisserman A. Very deep convolutional networks for largescale image recognition[C]//Proceedings of International Conference on Learning Representations. San Diego, USA: ICLR, 2015: 1-5. [百度学术]
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770778. [百度学术]
Xie H, Mao Z, Zhang Y, et al. Doublebit quantization and index hashing for nearest neighbor search[J]. IEEE Transactions on Multimedia, 2019, 21(5):12481260. [百度学术]
Fang S, Xie H, Zha Z J, et al. Attention and language ensemble for scene text recognition with convolutional sequence modeling[C]//Proceedings of the 26th ACM International Conference on Multimedia.[S.l.]: ACM, 2018: 248256. [百度学术]
Xie H, Yang D, Sun N, et al. Automated pulmonary nodule detection in CT images using deep convolutional neural networks[J]. Internatiojnal Journal of Computer Assisted Radiology and Surgery, 2019, 85: 109119. [百度学术]
Deng J, Dong W, Socher R, et al. ImageNet: A largescale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE, 2009: 248255. [百度学术]
Oreshkin B N, Rodriguez P, Lacoste A. TADAM: Task dependent adaptive metric for improved fewshot learning[C]//Proccedings of Neural Information Processing Systems.Red Hook, NY, USA: Curran Associates Inc, 2019. [百度学术]
Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Proceedings of Advances in Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2016. [百度学术]
Snell J, Swersky K, Zemel R S. Prototypical networks for fewshot learning[C]//Proceedings of Advances in Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2017. [百度学术]
Sung F, Yang Y, Zhang L, et al. Learning to compare: Relation network for fewshot learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City, UT, USA: IEEE, 2018. [百度学术]
Finn C, Abbeel P, Levine S. Modelagnostic metalearning for fast adaptation of deep networks[C]//Proceedings of International Conference on Machine Learning. Sydney, NSW, Australia: JMLR, 2017. [百度学术]
Koch G, Zemel R, Salakhutdinov R. Siamese neural networks for oneshot image recognition[C]//Proceedings of ICML Deep Learning Workshop. [S.l.]: ICML, 2015. [百度学术]
Santoro A, Bartunov S, Botvinick M, et al. Metalearning with memoryaugmented neural networks[C]//Proceedings of International Conference on Machine Learning. [S.l.]: PMLR, 2016: 18421850. [百度学术]
Qiao S, Liu C, Shen W, et al. Fewshot image recognition by predicting parameters from activations[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA:IEEE, 2018: 72297238. [百度学术]
谭晓阳,张哲.元强化学习综述[J].南京航空航天大学学报,2021,53(5): 653-663. [百度学术]
TAN Xiaoyang, ZHANG Zhe. Review on meta reinforcement learning[J]. Journal of Nanjing University of Aeronautics & Astronantics, 2021, 53(5): 653-663. [百度学术]
Ravi S, Larochelle H. Optimization as a model for fewshot learning[C]//Proceedings of 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017: 2426. [百度学术]
Antoniou A, Edwards H, Storkey A. How to train your MAML[C]//Proceedings of ICLR 2019. New Orleans, USA: ICLR, 2019. [百度学术]
Nichol A, Schulman J. Reptile: A scalable metalearning algorithm[J]. arXiv Preprint, arXiv:1803.02999, 2018. [百度学术]
Cai Q, Pan Y Y T. Memory matching networks for oneshot image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City, UT, USA: IEEE, 2018: 40804088. [百度学术]
Zhou L, Cui P, Yang S, et al. Learning to learn image classifiers with informative visual analogy[J]. arXiv Preprint, arXiv:1710. 06177, 2017. [百度学术]
Choi J, Krishnamurthy J, Kembhavi A, et al. Structured set matching networks for oneshot part labeling[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018. Salt Lake, USA:IEEE,2018: 36273636. [百度学术]
Hariharan B, Girshick R. Lowshot visual recognition by shrinking and hallucinating features[C]//Proceedings of IEEE International Conference on Computer Vision, ICCV 2017. Venice, Italy:IEEE, 2017: 30373046. [百度学术]
Liu Z, Li J, Shen Z, et al. Learning efficient convolutional networks through network slimming[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 27362744. [百度学术]
Denton E L, Zaremba W, Bruna J, et al. Exploiting linear structure within convolutional networks for efficient evaluation[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2014: 1269-1277. [百度学术]
Jaderberg M, Vedaldi A, Zisserman A. Speeding up convolutional neural networks with low rank expansions[J]. Arxiv Preprint, arxiv: 1405-3866,2014. [百度学术]
Oquab M, Bottou L, Laptev I, et al. Learning and transferring midlevel image representations using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE Computer Society, 2014: 17171724. [百度学术]
Qi H, Brown M, Lowe D G. Lowshot learning with imprinted weights[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 58225830. [百度学术]
Yoon J, Kim T, Dia O, et al. Bayesian modelagnostic metalearning[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Toronto, ON, Canada: IEEE, 2018: 73437353. [百度学术]
Garcia V, Bruna J. Fewshot learning with graph neural networks[C]//Proceedings of the 6th International Conference on Learning Representation. [S.l.]:ICLR, 2018. [百度学术]
Kim J, Kim T, Kim S, et al. Edgelabeling graph neural network for fewshot learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA, USA:IEEE, 2019: 1120. [百度学术]
Liu Y B, Lee J, Park M, et al. Learning to propagate labels: Transductive propagation network for fewshot learning[C]//Proceedings of ICLR 2019.[S.l.]:ICLR, 2019. [百度学术]
Zagoruyko S, Komodakis N. Wide residual networks[C]//Proceedings of British Machine Vision Conference. France: [s.n.],2016: 1-15. [百度学术]