-
红外目标分类在计算机视觉应用中有着重要的应用价值。例如,在自动目标识别中,能够实现对于检测目标在红外影像下的识别分类,可以有效提高识别性能[1-2]。红外目标分类相对于传统可见光图像分类,也存在着更多困难。由于红外传感器的成像特点,红外图像中虽然包含目标的外部轮廓和区域特征,但是目标的颜色、纹理等细节信息非常有限。其次,对于同一类目标,红外目标存在不同视角和形变等因素的影响,增加了分类的困难。最后,红外传感器图像的样本采集成本高,很难获取大量有标注的数据集来进行训练。因此,基于大规模监督数据的深度学习方法难以直接应用于红外目标分类。
传统红外图像目标分类的方法主要是基于人工设计特征的分类。基于手工特征的匹配方法,主要通过SIFT[3], SURF[4], ORB[5]等描述子,从红外图像中提取图像的特征点,然后输入分类器进行分类。文献[6]提出在红外图像上使用小波变换来提取特征,再进行分类识别。文献[7]使用PLB直方图和灰度直方图来生成红外图像特征,通过SVM进行分类。文献[8]提出红外目标的边缘特征,再使用SOM进行分类。上述方法,采用手工提取的特征无法和后续分类器进行端到端的整体优化。同时,由于获取的样本相对有限,也难以保证其在红外目标分类上的泛化性能。
深度学习的方法兴起之后,在可见光图像分类方面,取得了前所未有的性能进步[9-12]。深度学习通过CNN(convolutional neural network)分支来提取待匹配图像的特征,使用Softmax函数对于样本进行分类。由于红外图像采集成本过高,目前没有公开的大规模有监督红外目标分类数据集。在深度学习中,如果仅使用少量的红外图像数据来进行学习,网络很快会发生过拟合,影响模型后续的泛化能力。
为了避免卷积神经网络在小样本训练中出现过拟合,通常在ImageNet数据集的预训练网络模型基础上,使用少量的红外标注样本进行再次训练,也就是业界常用的网络微调[13]。虽然此种方法在一定程度上可以缓解模型过拟合的影响,但是由于传感器存在成像原理的差异,可见光和红外图像样本之间不是同分布的关系。因此,仅仅采用参数微调的方法,在红外目标分类上很难取得好的效果。
近年来,随着深度学习的广泛应用,与迁移学习方法之间的结合也不断加深[14-15]。通过迁移学习,源域和目标域能够在特征空间中实现域间分布适配,解决了红外和可见光图像由于不同成像机理造成的样本分布差异。但是在迁移学习中,目标域中用于训练的样本通常非常有限,并且这些训练样本的分布可能和整个目标域的总体分布有比较大的偏差。在这种情况下,即使域适配的方法本身没有问题,迁移后的目标域模型在性能和泛化能力上也可能达不到很好的效果。因此,迁移学习时,要尽量提高目标域网络的特征表示能力,使得用于域适配的高层特征尽可能和真实分布接近,从而保证迁移学习效果。
另一方面,与可见光图像分类不同,红外目标分类领域中缺乏公开的大规模标注数据库,但是在数据采集过程中,大量无标注的红外图像却相对容易获得。这些无标签红外样本实际上也潜在包含了红外图像域的特征分布。深度自编码网络[16]可以对于红外图像进行编码和解码,充分利用这些无监督样本进行学习。通过重构,保证目标的红外特征在目标域中不丢失,从而提高网络中红外图像的特征表达能力。
本文基于VGG16网络构造了卷积自编码器,对大量无标记的红外图像进行无监督学习,红外域分支的自编码器通过无监督学习提高了红外域特征提取能力。同时,使用迁移学习方法,将红外域分支和可见光域分支的高层特征分布进行域适配,使其特征分布相似,从而将可见光图像(源域)网络的学习能力迁移给红外图像域(目标域)。实验证明,基于重构的迁移学习,有效提高了网络对红外特征的表达能力,也提升了红外目标的分类效果。
HTML
-
对于可见光和红外图像目标分类的迁移学习,目前还没有公开的数据集,本文构建了数据集进行实验。通过在无人机上搭载红外和可见光摄像头,获取了不同目标在不同角度、光照、尺度下的图像。本文共标注了2 000幅原始图像(包含可见光和红外图像),共25种类别,其中包含各种建筑、汽车、桥梁、厂区、天然气站等。可见光和红外图像的数量比为1∶1。80%的样本用来进行训练,剩余样本用来进行测试。图3列出相应目标类别的红外和可见光图像样本,同一目标的红外和可见光图像除了成像差异之外,对于不同尺度、角度和背景等因素也进行考虑。
样本标注完成后,剩余大量无标注的红外图像作为无监督数据集。本文共收集整理50 000张红外图像,用于训练红外图像的深度卷积自编码器。将90%的图像作为训练集,剩余部分作为测试集。无监督的红外图像样本,对于图像内容没有太多的要求,需要说明,在红外无监督样本中不包含用于迁移学习的红外目标图像。图4列举了红外无标注样本。
-
在进行域适配训练之前,首先需要对红外分支的自编码网络进行训练。训练卷积自编码器时,本文借鉴了SegNet[18]网络结构。在编码阶段下采样时,池化层会记录每个池化窗口最大值的索引。在解码阶段中,上采样层使用这些索引值来恢复相应的特征图。相比于传统的反卷积操作,此方法能够更大程度减少重构误差。
红外分支的深度卷积自编码器训练完成之后,本文将和可见光的分类网络进行并联,开始进行迁移学习训练。可见光分类网络采用VGG16作为主干,使用ImageNet预训练的权值进行初始化。在迁移学习训练中,可见光图像输入可见光分支网络,红外图像输入自编码器网络。在FC6,FC7和FC8层进行MMD损失优化。梯度下降采用Momentum算法。训练参数设置如下:迭代次数设置为50 000次;网络基础学习率按照迭代次数从10−3匀速下降到10−5;硬件平台为Nvidia TITAN XP GPU;软件平台使用Caffe。
测试阶段,只保留红外图像分支的编码器部分,Softmax层输出红外图像分类预测。
-
为了验证本文方法的有效性,进行了不同模型和方法的对比实验:
1) SIFT方法。在红外图像上,使用传统的SIFT方法在红外图像上提取特征点,然后通过SVM分类器进行分类。
2) 基于VGG16分类网络,直接使用带标签的红外图像样本从随机初始值开始训练。
3) 基于VGG16分类网络,使用VGG16在ImageNet数据集上预训练模型来初始化网络,然后使用有标注的红外图像样本进行再训练,对网络参数进行微调。由于小样本场景下,业界通常采用此种训练方法。因此,在实验结果评估中,将其设置为性能基线。
4) 基于孪生神经网络进行迁移学习。红外和可见光特征提取均采用VGG16作为分支网络,两个分支都采用ImageNet可见光预训练模型的权值进行初始化。两个分支在FC6,FC7和FC8层优化MMD距离,拟合两个域的特征分布。
表1对比了上述方法在红外目标分类的平均准确度。在使用迁移学习的方法中,括号中的数值为迁移学习中可见光图像(源域)分类的准确率。基于实验结果,可以看出,相比于业界通常采用的参数微调方法,本文方法分类的准确率增加了11.27%。
测试网络 准确率/% SIFT+SVM 67.21 VGG16 train from scratch 65.75 VGG16+fine-tuning 78.63 transfer learning(two VGG16 branches) 86.74(92.29) transfer learning(VGG16+aotuoencoder branches) 89.90(92.31) 通过对比实验,可以得出以下结论:
1) 使用传统的SIFT描述子,在红外图像中提取的特征点,分类效果不理想。
2) 由于红外有标记样本数量有限,直接在分类网络上进行训练,网络容易过拟合。如果基于可见光预训练模型进行微调,由于分布存在差异,分类效果不理想。
3) 使用迁移学习后,能够实现目标域和源域在高层特征的分布对齐,分类准确率有明显提升。另一方面,通过加入红外图像的重构环节,准确率提升了3.16%。这说明通过红外图像的无监督学习,对于红外域的特征表示更加有效,能更真实反映红外域的特征分布,提高迁移学习效果。
图5列出了在迁移学习样本集合中原始红外图像和使用红外自编码器重构出的图像。第一行为原始红外图像,第二行为重构后的红外图像。可以看出,重构出的红外图像基本保留了原始图像的信息,这说明红外图像自编码器在重构过程中没有丢失红外域图像特征。
为了进一步分析本文所提出的方法效果优于传统方法的原因,列举了红外分支和可见光分支的5种类别在FC8层的特征,通过t-SNE[19]进行了可视化。不同的颜色代表了不同的类别特征。从图6可以看出,基于参数微调的方法并不能保证两个域中相同类别特征分布对齐。本文方法实现了红外和可见光中同类目标的分布相似,使得红外目标的不同类之间具有更好的区分性。