重构迁移学习的红外目标分类

毛远宏; 贺占庄; 马钟

doi:10.12178/1001-0548.2019162

重构迁移学习的红外目标分类

doi: 10.12178/1001-0548.2019162

西安微电子技术研究所　西安　710065

基金项目: 国家自然科学基金青年科学基金(61702413)

详细信息

作者简介:
毛远宏(1980-)，男，博士，主要从事计算机视觉方面的研究

通讯作者: 马钟，E-mail：mazhong@mail.com

中图分类号: TP391

Infrared Target Classification with Reconstruction Transfer Learning

Xi’an Microelectronics Technology Institute　Xi’an　710065

摘要: 红外图像目标分类在目标识别等领域有重要的应用价值，目前卷积神经网络在可见光图像分类方面达到了优异的性能。但对于红外图像来说，由于有标记样本数量少和图像成像差异大，直接使用现有的网络模型来处理红外图像无法取得理想效果。该文将可见光图像作为源域，将红外图像作为目标域，在深度网络中使用迁移学习方法来解决此问题。在迁移学习中，目标域网络提取的特征越能体现出本域数据的真实分布，那么在此基础上进行两个域的分布适配就更加有效，迁移后的目标域网络性能和泛化能力越好。该文首先利用大量无监督的红外样本训练了红外图像深度卷积自编码器，增强了红外图像域网络的特征表达能力。其次，通过减小源域和目标域的特征分布距离，使得两个图像域特征分布相似，从而将源域中深度网络的学习能力迁移到目标域。经过上述改进，相比于可见光图像预训练微调的方法，分类准确率提升了11.27%。
- 卷积自编码器 /
- 卷积神经网络 /
- 红外图像 /
- 目标分类 /
- 迁移学习
Abstract: Infrared target classification has important values in target recognition. At present, convolutional neural network has achieved excellent performance in visible image classification. However, for infrared images, the available networks can't achieve satisfying results due to the small number of annotated samples and large imaging differences. In this paper, visible images are used as source domain, infrared images as target domain. Transfer learning is used to address the challenges in the deep learning framework. In the transfer learning, if the target domain network can represent the distribution of its domain well, the performance and generalization of the target domain network should be more effective. Therefore, the convolutional autoencoder is trained with a large number of unannotated infrared samples, which greatly enhances the feature representation in the infrared image domain. By reducing the feature distribution distance between the two domains, the feature distributions become similar. The classification performance in the source domain is transferred to the target domain. With the changes above, the accuracy rate is improved by 11.27% compared with the method based on the visible images fine-tuning.
- convolutional autoencoder /
- convolutional neural networks /
- infrared images /
- target classification /
- transfer learning
图 1 基于重构的迁移学习训练网络架构图

下载: 全尺寸图片幻灯片

图 2 目标域训练样本对于迁移学习影响分析

下载: 全尺寸图片幻灯片

图 3 红外和可见光迁移标注的学习样本示例

下载: 全尺寸图片幻灯片

图 4 红外图像无标注样本示例

下载: 全尺寸图片幻灯片

图 5 红外输入图像和重构图像示例

下载: 全尺寸图片幻灯片

图 6 迁移学习前后的特征分布可视化

下载: 全尺寸图片幻灯片

表 1 分类准确率结果对比表

测试网络准确率/%

SIFT+SVM 67.21
VGG16 train from scratch 65.75
VGG16+fine-tuning 78.63
transfer learning(two VGG16 branches) 86.74(92.29)
transfer learning(VGG16+aotuoencoder branches) 89.90(92.31)

下载: 导出CSV

[1]	CHENG Kai-sheng, LIN Huei-yung. Automatic target recognition by infrared and visible image matching[C]//2015 14th IAPR International Conference on Machine Vision Applications. Piscataway, NJ, USA: IEEE, 2015: 312-315.
[2]	张迪飞, 张金锁, 姚克明, 等. 基于SVM分类的红外舰船目标识别[J]. 红外与激光工程, 2016, 45(1): 104004. doi: 10.3788/irla201645.0104004 ZHANG Di-fei, ZHANG Jin-suo, YAO Ke-ming, et al. Infrared ship-target recognition based on SVM classification[J]. Infrared and Laser Engineering, 2016, 45(1): 104004. doi: 10.3788/irla201645.0104004
[3]	LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. doi: 10.1023/B:VISI.0000029664.99615.94
[4]	BAY H, TUYTELAARS T, GOOL L J V. SURF: Speeded up robust features[C]//9th European Conference on Computer Vision. Graz, Austria: Springer-Verlag, 2006: 404-417.
[5]	RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: An efficient alternative to SIFT or SURF[C]//2011 International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2011: 2564-2571.
[6]	李炯, 雷虎民. 一种基于红外图像的目标自动识别算法[J]. 航空计算技术, 2005, 35(4): 26-28. doi: 10.3969/j.issn.1671-654X.2005.04.008 LI Jiong, LEI Hu-min. A method of automated recognition and classification based on infrared images[J]. Aeronautical Computer Technique, 2005, 35(4): 26-28. doi: 10.3969/j.issn.1671-654X.2005.04.008
[7]	李瑞东, 孙协昌, 李勐. 空间目标红外特征提取与识别技术[J]. 红外技术, 2017, 39(5): 427-435. LI Rui-dong, SUN Xie-chang, LI Meng. Infrared feature extraction and recognition technology of space target[J]. Infrared Technology, 2017, 39(5): 427-435.
[8]	SHAIK J S, IFTEKHARUDDIN K M. Automated tracking and classification of infrared images[C]// Proceedings of the International Joint Conference on Neural Networks. Piscataway, NJ, USA: IEEE, 2003: 1201-1206.
[9]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of The ACM, 2012, 60(6): 84-90.
[10]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition. [EB/OL]. [2019-05-15]. https://arxiv.org/pdf/1409.1556.pdf.
[11]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2016: 770-778.
[12]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 7132-7141.
[13]	YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks[C]//Advances in Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc, 2014: 3320-3328.
[14]	LONG M, CAO Y, WANG J, et al. Learning transferable features with deep adaptation networks[C]//International Conference on Machine Learning. Lille, France: IMLS, 2015: 97-105.
[15]	LONG M, WANG J, DING G, et al. Transfer feature learning with joint distribution adaptation[C]//IEEE International Conference on Computer Vision. Washington DC, USA: IEEE, 2013: 2200-2207.
[16]	HINTON G E. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. doi: 10.1126/science.1127647
[17]	GRETTON A, SEJDINOVIE D, STRATHMANN H, et al. Optimal kernel choice for large-scale two-sample tests[C]//Advances in Neural Information Processing Systems. Nevada, USA: Curran Associates Inc, 2012: 1205-1213.
[18]	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. doi: 10.1109/TPAMI.2016.2644615
[19]	MAATEN L VAN DER, HINTON G E. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

[1]	张柏林, 姬港, 朱宇轩, 许向楠, 唐万斌. 基于深度学习的半监督信号调制样式识别算法 . 电子科技大学学报, 2024, 53(): 1-8. doi: 10.12178/1001-0548.2022252
[2]	邵延华, 张兴平, 张晓强, 楚红雨, 吴亚东. 联合结构重参数和YOLOv5的航拍红外目标检测 . 电子科技大学学报, 2024, 53(): 1-8. doi: 10.12178/1001-0548.2022070
[3]	王颖, 高胜. 轻量型胶囊网络语音情感识别方法 . 电子科技大学学报, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
[4]	刘勇国, 高攀, 兰荻, 朱嘉静. ECA-SKNet：玉米单倍体种子的卷积神经网络识别模型 . 电子科技大学学报, 2023, 52(6): 866-871. doi: 10.12178/1001-0548.2022361
[5]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[6]	周书田, 颜信, 谢镇汕. 视频人脸识别中高效分解卷积与时间金字塔网络研究 . 电子科技大学学报, 2021, 50(2): 231-235. doi: 10.12178/1001-0548.2020319
[7]	赵学功, 邓佳坤, 魏浩然, 彭真明. 基于卷积神经网络的眼底图像微血管瘤检测方法 . 电子科技大学学报, 2021, 50(6): 915-920. doi: 10.12178/1001-0548.2021186
[8]	胡青松, 张亮, 丁娟, 李世银. 人体动作数据编码与CNN精确识别 . 电子科技大学学报, 2020, 49(3): 473-480. doi: 10.12178/1001-0548.2019108
[9]	吴涢晖, 赵子天, 陈晓雷, 邹士亚. 大气低频声信号识别深度学习方法研究 . 电子科技大学学报, 2020, 49(5): 758-765. doi: 10.12178/1001-0548.2019297
[10]	杜娟, 刘志刚, 宋考平, 杨二龙. 基于卷积神经网络的抽油机故障诊断 . 电子科技大学学报, 2020, 49(5): 751-757. doi: 10.12178/1001-0548.2019205
[11]	李润东, 李立忠, 李少谦, 宋熙煜, 何鹏. 基于稀疏滤波神经网络的智能调制识别 . 电子科技大学学报, 2019, 48(2): 161-167. doi: 10.3969/j.issn.1001-0548.2019.02.001
[12]	佟国香, 田飞翔. 基于CNNs的两次训练融合的分类方法 . 电子科技大学学报, 2019, 48(5): 774-778. doi: 10.3969/j.issn.1001-0548.2019.05.018
[13]	邓钰, 雷航, 李晓瑜, 林奕欧. 用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
[14]	陈俊周, 王娟, 龚勋. 基于级联生成对抗网络的人脸图像修复 . 电子科技大学学报, 2019, 48(6): 910-917. doi: 10.3969/j.issn.1001-0548.2019.06.016
[15]	田文洪, 曾柯铭, 莫中勤, 吝博强. 基于卷积神经网络的驾驶员不安全行为识别 . 电子科技大学学报, 2019, 48(3): 381-387. doi: 10.3969/j.issn.1001-0548.2019.03.012
[16]	郭继昌, 李翔鹏. 基于卷积神经网络和密度分布特征的人数统计方法 . 电子科技大学学报, 2018, 47(6): 806-813. doi: 10.3969/j.issn.1001-0548.2018.06.002
[17]	唐贤伦, 刘庆, 张娜, 周家林. 混合PSO优化卷积神经网络结构和参数 . 电子科技大学学报, 2018, 47(2): 230-234. doi: 10.3969/j.issn.1001-0548.2018.02.011
[18]	李彦冬, 雷航, 郝宗波, 唐雪飞. 基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
[19]	陈俊周, 汪子杰, 陈洪瀚, 左林翼. 基于级联卷积神经网络的视频动态烟雾检测 . 电子科技大学学报, 2016, 45(6): 992-996. doi: 10.3969/j.issn.1001-0548.2016.06.020
[20]	秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇. 基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010

点击查看大图

图(6) / 表(1)

计量

文章访问数: 5993
HTML全文浏览量: 2342
PDF下载量: 55
被引次数: 0

全文HTML

红外目标分类在计算机视觉应用中有着重要的应用价值。例如，在自动目标识别中，能够实现对于检测目标在红外影像下的识别分类，可以有效提高识别性能^[1-2]。红外目标分类相对于传统可见光图像分类，也存在着更多困难。由于红外传感器的成像特点，红外图像中虽然包含目标的外部轮廓和区域特征，但是目标的颜色、纹理等细节信息非常有限。其次，对于同一类目标，红外目标存在不同视角和形变等因素的影响，增加了分类的困难。最后，红外传感器图像的样本采集成本高，很难获取大量有标注的数据集来进行训练。因此，基于大规模监督数据的深度学习方法难以直接应用于红外目标分类。

传统红外图像目标分类的方法主要是基于人工设计特征的分类。基于手工特征的匹配方法，主要通过SIFT^[3], SURF^[4], ORB^[5]等描述子，从红外图像中提取图像的特征点，然后输入分类器进行分类。文献[6]提出在红外图像上使用小波变换来提取特征，再进行分类识别。文献[7]使用PLB直方图和灰度直方图来生成红外图像特征，通过SVM进行分类。文献[8]提出红外目标的边缘特征，再使用SOM进行分类。上述方法，采用手工提取的特征无法和后续分类器进行端到端的整体优化。同时，由于获取的样本相对有限，也难以保证其在红外目标分类上的泛化性能。

深度学习的方法兴起之后，在可见光图像分类方面，取得了前所未有的性能进步^[9-12]。深度学习通过CNN(convolutional neural network)分支来提取待匹配图像的特征，使用Softmax函数对于样本进行分类。由于红外图像采集成本过高，目前没有公开的大规模有监督红外目标分类数据集。在深度学习中，如果仅使用少量的红外图像数据来进行学习，网络很快会发生过拟合，影响模型后续的泛化能力。

为了避免卷积神经网络在小样本训练中出现过拟合，通常在ImageNet数据集的预训练网络模型基础上，使用少量的红外标注样本进行再次训练，也就是业界常用的网络微调^[13]。虽然此种方法在一定程度上可以缓解模型过拟合的影响，但是由于传感器存在成像原理的差异，可见光和红外图像样本之间不是同分布的关系。因此，仅仅采用参数微调的方法，在红外目标分类上很难取得好的效果。

近年来，随着深度学习的广泛应用，与迁移学习方法之间的结合也不断加深^[14-15]。通过迁移学习，源域和目标域能够在特征空间中实现域间分布适配，解决了红外和可见光图像由于不同成像机理造成的样本分布差异。但是在迁移学习中，目标域中用于训练的样本通常非常有限，并且这些训练样本的分布可能和整个目标域的总体分布有比较大的偏差。在这种情况下，即使域适配的方法本身没有问题，迁移后的目标域模型在性能和泛化能力上也可能达不到很好的效果。因此，迁移学习时，要尽量提高目标域网络的特征表示能力，使得用于域适配的高层特征尽可能和真实分布接近，从而保证迁移学习效果。

另一方面，与可见光图像分类不同，红外目标分类领域中缺乏公开的大规模标注数据库，但是在数据采集过程中，大量无标注的红外图像却相对容易获得。这些无标签红外样本实际上也潜在包含了红外图像域的特征分布。深度自编码网络^[16]可以对于红外图像进行编码和解码，充分利用这些无监督样本进行学习。通过重构，保证目标的红外特征在目标域中不丢失，从而提高网络中红外图像的特征表达能力。

本文基于VGG16网络构造了卷积自编码器，对大量无标记的红外图像进行无监督学习，红外域分支的自编码器通过无监督学习提高了红外域特征提取能力。同时，使用迁移学习方法，将红外域分支和可见光域分支的高层特征分布进行域适配，使其特征分布相似，从而将可见光图像(源域)网络的学习能力迁移给红外图像域(目标域)。实验证明，基于重构的迁移学习，有效提高了网络对红外特征的表达能力，也提升了红外目标的分类效果。

5. 结束语

在红外图像分类中，针对红外图像中样本过少和样本不同分布的问题，本文提出了一种基于重构迁移学习的方法，充分使用了大量的无监督红外样本，提高了红外域特征表示能力，通过迁移学习实现了红外域图像和可见光图像特征分布相似。通过上述改进，相比于目前广泛使用的参数微调，本文方法的分类准确率提升了11.27%。

参考文献 (19)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

重构迁移学习的红外目标分类

doi: 10.12178/1001-0548.2019162

作者简介:
毛远宏(1980-)，男，博士，主要从事计算机视觉方面的研究

通讯作者: 马钟，E-mail：mazhong@mail.com

Infrared Target Classification with Reconstruction Transfer Learning

计量

重构迁移学习的红外目标分类

doi: 10.12178/1001-0548.2019162

西安微电子技术研究所　西安　710065

作者简介:
毛远宏(1980-)，男，博士，主要从事计算机视觉方面的研究

通讯作者: 马钟，E-mail：mazhong@mail.com

English Abstract

Infrared Target Classification with Reconstruction Transfer Learning

Xi’an Microelectronics Technology Institute　Xi’an　710065

全文HTML

4.1. 实验数据

4.2. 实验方法

4.3. 实验结果

目录

期刊在线

编辑办公

友情链接

测试网络	准确率/%
SIFT+SVM	67.21
VGG16 train from scratch	65.75
VGG16+fine-tuning	78.63
transfer learning(two VGG16 branches)	86.74(92.29)
transfer learning(VGG16+aotuoencoder branches)	89.90(92.31)

留言板

重构迁移学习的红外目标分类

doi: 10.12178/1001-0548.2019162

作者简介: 毛远宏(1980-)，男，博士，主要从事计算机视觉方面的研究

通讯作者: 马钟，E-mail：mazhong@mail.com

Infrared Target Classification with Reconstruction Transfer Learning

计量

出版历程

重构迁移学习的红外目标分类

doi: 10.12178/1001-0548.2019162

西安微电子技术研究所 西安 710065

作者简介: 毛远宏(1980-)，男，博士，主要从事计算机视觉方面的研究

通讯作者: 马钟，E-mail：mazhong@mail.com

English Abstract

Infrared Target Classification with Reconstruction Transfer Learning

Xi’an Microelectronics Technology Institute Xi’an 710065

全文HTML

4.1. 实验数据

4.2. 实验方法

4.3. 实验结果

目录

期刊在线

编辑办公

友情链接

作者简介:
毛远宏(1980-)，男，博士，主要从事计算机视觉方面的研究

西安微电子技术研究所　西安　710065

作者简介:
毛远宏(1980-)，男，博士，主要从事计算机视觉方面的研究

Xi’an Microelectronics Technology Institute　Xi’an　710065