留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度学习的红外热成像电路板元器件识别研究

张林鍹 郑兴 陈飞 李名洪 邱朝洁 常乾坤

张林鍹, 郑兴, 陈飞, 李名洪, 邱朝洁, 常乾坤. 深度学习的红外热成像电路板元器件识别研究[J]. 电子科技大学学报, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
引用本文: 张林鍹, 郑兴, 陈飞, 李名洪, 邱朝洁, 常乾坤. 深度学习的红外热成像电路板元器件识别研究[J]. 电子科技大学学报, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
ZHANG Linxuan, ZHENG Xing, CHEN Fei, LI Minghong, QIU Chaojie, CHANG Qiankun. Research on Infrared Thermal Imaging Circuit Board Component Recognition Based on Deep Learning[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
Citation: ZHANG Linxuan, ZHENG Xing, CHEN Fei, LI Minghong, QIU Chaojie, CHANG Qiankun. Research on Infrared Thermal Imaging Circuit Board Component Recognition Based on Deep Learning[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215

深度学习的红外热成像电路板元器件识别研究

doi: 10.12178/1001-0548.2023215
基金项目: 新疆维吾尔自治区自然科学基金(2022D01C431)
详细信息
    作者简介:

    张林鍹,博士,教授,主要从智能制造、生产智能管控、故障预测与设备健康管理等方面的研究

    通讯作者: 通信作者e-mail: zx10755@stu.xju.edu.cn
  • 中图分类号: TP391.4

Research on Infrared Thermal Imaging Circuit Board Component Recognition Based on Deep Learning

  • 摘要: 针对现有YOLO目标检测算法在自建数据集漏检率高、图像受复杂环境影响造成检测准确率低等问题,提出一种基于YOLO v5改进的红外图像识别算法。根据红外数据图片的独特性质,重新设计主干网络部分,引入全维动态卷积(OMNI-Dimensional Dynamic Convolution, ODConv)模块和改进坐标注意力(Coordinate Attention, CA)机制,提高模型对小目标的检测精确度并减少参数量;其次,引入解耦头(Decoupled Head, DH)模块,提高模型训练的收敛速度;最后,加入GSConv(Graph-Shifted Convolution) Slim模块,以降低模型的复杂度,提高预测速度。实验结果表明:改进后的算法模型漏检率降低40.22%,每秒浮点运算次数(Floating-point Operations Per Second, FLOPs)提升了25%,平均准确率提升了28.32%。
  • 图  1  YOLO v5-OCDG网络结构图

    图  2  Loss损失曲线对比图

    图  3  YOLO v5-OCDG消融实验对比图

    表  1  各分类数量情况

    检测对象 原始量 扩展量
    芯片 384 1342
    电阻 366 1182
    电感 243 803
    电容 462 1431
    下载: 导出CSV

    表  2  YOLOv5与典型算法网络模型对比实验

    算法 参数
    Layers Parameters Model Size/MB GFLOPs Precision/% Recall/% mAP0.5/% FPS帧/s
    YOLO v3[11] 333 61539889 122.3 155.3 71.37 61.85 64.21 18.1
    YOLO v5s[13] 270 7030417 14.4 16.0 63.20 59.52 45.02 51.0
    YOLO v5l[21] 367 46124433 92.8 107.7 72.53 54.86 66.30 23.5
    YOLO X[22] 155 4519642 9.3 31.7 68.86 54.34 51.98 55.3
    YOLO v7[23] 301 38177883 74.8 86.8 69.99 52.67 52.80 45.8
    YOLO v8[24] 168 3006428 6.2 8.1 66.73 56.84 40.13 68.4
    YOLO v5-OCDG 502 21363884 33.2 20.3 81.32 65.73 73.34 43.7
    下载: 导出CSV

    表  3  YOLO v5-OCDG消融实验

    算法 模块 参数
    ODConv CA DH GSConv Precision/% mAP0.5/% 模型大小/MB GFLOPs
    YOLO v5s - - - - 63.20 45.02 14.3 16.0
    YOLO v5-O - - - 75.83 68.55 +23.53 55.8 16.9
    YOLO v5-OC - - 78.30 64.87 +19.85 39.3 16.1
    YOLO v5-CD - - 78.42 62.95 +17.93 29.4 56.5
    YOLO v5-OD - - 75.61 67.90 +22.90 34.3 57.8
    YOLO v5-OCD - 79.89 70.80 +25.78 34.8 58.3
    YOLO v5-OCDG 81.32 73.34 +28.32 33.2 20.3
    下载: 导出CSV

    表  4  数据集扩增前后验证准确度对比表 %

    数据集 芯片 电阻 电容 电感
    原始量 40.40 26.9 16.86 27.40
    扩展量 82.63 77.4 86.23 79.02
    下载: 导出CSV

    表  5  模型改进前后器件准确度对比 %

    阶段 芯片 电阻 电容 电感 总数
    改进前 44.61 57.13 59.31 16.10 49.80
    改进后 98.04 90.36 66.67 89.85 90.02
    下载: 导出CSV
  • [1] 丁军. 热成像技术及应用探究[J]. 中国公共安全, 2014, 254(22): 58-60.

    DING J. Research on thermal imaging technology and application[J]. China Public Security, 2014, 254(22): 58-60.
    [2] 李霞, 刘建国, 董雁冰. 基于遥感数据的地球背景中红外场景仿真[J]. 红外与激光工程, 2018, 47(11): 180-186.

    LI X, LIU J G, DONG Y B. Simulation of global mid-infrared background based on remote sensing data[J]. Infrared and Laser Engineering, 2018, 47(11): 180-186.
    [3] 宿鸣明. 电路板元器件的检测与识别[D]. 大连: 大连理工大学, 2006.

    SU M M. Inspection and recognition of components on circuit boards[D]. Dalian: Dalian University of Technology of China, 2006.
    [4] 杨先明, 叶玉堂, 吴云峰, 等. TIP-I红外电路故障检测仪的设计[J]. 激光与红外, 2006(6): 463-465.

    YANG X M, YE Y T, WU Y F. Design of TIP-I infrared circuit card tester[J]. Laser and Infrared, 2006(6): 463-465.
    [5] 张鹏飞. 基于LabVIEW的PCB电路缺陷检测系统的研究与实现[D]. 长春: 长春理工大学, 2013.

    ZHANG P F. Design of PCB defect detection system based on Labview[D]. Changchun: Changchun University of Science and Technology, 2013.
    [6] 罗云章. 用红外成像设备检测电路板中的故障元器件[J]. 计量与测试技术, 2014, 41(6): 64-65.

    LUO Y Z. Using infrared imaging device detect fault components of circuit board[J]. Metrology and Measurement Technique, 2014, 41(6): 64-65.
    [7] 李硕. 基于红外技术的机载电路板故障诊断研究[D]. 天津: 中国民航大学, 2017.

    LI S. Research of aviation circuit board fault diagnosis based on infrared technology[D]. Tianjin: Civil Aviation University of China, 2017.
    [8] 赵翔宇, 周亚同, 何峰, 等. 分层提取匹配印刷电路板元器件缺陷检测[J]. 仪表技术与传感器, 2018, 427(8): 84-89.

    ZHAO X Y, ZHOU Y T, HE F, et al. Hierarchical extraction matching printed circuit board components defect detection[J]. Instrument Technique and Sensor, 2018, 427(8): 84-89.
    [9] LIN Y L, CHIANG Y M, HSU H C. Capacitor detection in PCB using YOLO algorithm[C]//2018 International Conference on System Science and Engineering (ICSSE). [S. l.]: IEEE, 2018: 1-4.
    [10] 杨婷. 基于机器视觉的电路板自动检验技术研究[D]. 徐州: 中国矿业大学, 2019.

    YANG T. Research on automatic inspection technology of circuit board based on machine vision[D]. Xuzhou: China Mining University, 2019.
    [11] 杨杰, 张书杰. 基于密集 YOLOv3 的印刷电路板缺陷识别[J]. 北京邮电大学学报, 2022, 5(5): 42-48.

    YANG J, ZHANG S J. Defect recognition of printed circuit board based on YOLOv3-Dense[J]. Journal of Beijing University of Posts and Telecommunications, 2022, 5(5): 42-48.
    [12] SHEN J, LIU N, SUN H. Defect detection of printed circuit board based on lightweight deep convolution network[J]. IET Image Processing, 2020, 14(15): 3932-3940. doi:  10.1049/iet-ipr.2020.0841
    [13] 贾云飞, 郑红木, 刘闪亮. 基于YOLOv5s的金属制品表面缺陷的轻量化算法研究[J]. 郑州大学学报(工学版), 2022, 43(5): 31-38.

    JIA Y F, ZHENG H M, LIU S L. Lightweight surface defect detection method of metal products based on YOLOv5s[J]. Journal of Zhengzhou University (Engineering Science), 2022, 43(5): 31-38.
    [14] QIAN J, LIN J, BAI D, et al. Omni-dimensional dynamic convolution meets bottleneck transformer: A novel improved high accuracy forest fire smoke detection model[J]. Forests. 2023, 14(4): 838.
    [15] 杨蜀秦, 刘杨启航, 王振, 等. 基于融合坐标信息的改进YOLO V4模型识别奶牛面部[J]. 农业工程学报, 2021, 37(15): 129-135. doi:  10.11975/j.issn.1002-6819.2021.15.016

    YANG S Q, LIU Y Q H, WANG Z, et al. Improved YOLO V4 model for face recognition of diary cow by fusing coordinate information[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(15): 129-135. doi:  10.11975/j.issn.1002-6819.2021.15.016
    [16] 陈明. 基于多头注意力机制的视频描述生成算法研究[D]. 杭州: 浙江大学, 2019.

    CHEN M. Video captioning algorithms based on multi-head attention mechanism[D]. Hangzhou: Zhejiang University, 2019.
    [17] KIM S W, KOOK H K, SUN J Y, et al. Parallel feature pyramid network for object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 234-250.
    [18] 张轩, 王晓峰, 张文尉, 等. 面向目标检测的尺度增强特征金字塔网络[J]. 计算机系统应用, 2023, 32(1): 127-134.

    ZHANG X, WANG X F, ZHANG W W, et al. Scale-enhanced feature pyramid network for object detection[J]. Computer Systems and Applications, 2023, 32(1): 127-134.
    [19] 张政超. 改进YOLOv5的轻量级带钢表面缺陷检测[J]. 计算机系统应用, 2023, 32(6): 278-285.

    ZHANG Z C. Lightweight strip steel defect detection based on improved YOLOv5[J]. Computer Systems and Applications, 2023, 32(6): 278-285.
    [20] 马旭, 李云雪, 黄润宇, 等. 短波红外探测器的发展与应用(特邀)[J]. 红外与激光工程, 2022, 51(1): 135-146.

    MA X, LI Y X, HUANG R Y, et al. Development and application of short wavelength Infrared Detectors (Invited)[J]. Infrared and Laser Engineering, 2022, 51(1): 135-146.
    [21] 胡焱, 胡皓冰, 赵宇航, 等. 红外热成像中低分辨率行人小目标检测方法[J]. 红外技术, 2022, 44(11): 1146-1153.

    HU Y, HU H B, ZHAO Y H. Infrared thermal imaging low-resolution and small pedestrain target detection method[J]. Infrared Technology, 2022, 44(11): 1146-1153.
    [22] 房娟艳, 孟金葆, 魏长城, 等. 基于改进YOLOX-s算法的印刷电路板缺陷检测[J]. 皖西学院学报, 2023, 39(2): 46-54. doi:  10.3969/j.issn.1009-9735.2023.02.009

    FANG J Y, MENG J B, WEI C C, et al. Printed circuit board defect detection based on improved YOLOX-S algorithm[J]. Journal of West Anhui University, 2023, 39(2): 46-54. doi:  10.3969/j.issn.1009-9735.2023.02.009
    [23] 余俊宇, 刘孙俊, 许桃. 融合注意力机制的YOLOv7遥感小目标检测算法研究[J]. 计算机工程与应用, 2023, 59(20): 167-175. doi:  10.3778/j.issn.1002-8331.2303-0520

    YU J Y, LIU S J, XU T. Research on YOLOv7 remote sensing small target detection algorithm integration attention mechanism[J]. Computer Engineering and Applications, 2023, 59(20): 167-175. doi:  10.3778/j.issn.1002-8331.2303-0520
    [24] 高昂, 梁兴柱, 夏晨星, 等. 一种改进YOLOv8的密集行人检测算法[J]. 图学学报, 2023, 44(5): 890-898.

    GAO A, LIANG X Z, XIA C X, et al. A dense pedestrian detection algorithm with improved YOLOV8[J]. Journal of Graphics, 2023, 44(5): 890-898.
  • [1] 陈欣, 李闯, 金凡.  量子自注意力神经网络的时间序列预测 . 电子科技大学学报, 2024, 53(1): 110-118. doi: 10.12178/1001-0548.2022340
    [2] 崔少国, 独潇, 张宜浩.  基于兴趣注意力网络的会话推荐算法 . 电子科技大学学报, 2024, 53(1): 67-75. doi: 10.12178/1001-0548.2022307
    [3] 陈永, 蒋丰源, 詹芝贤.  多尺度残差注意力的高速铁路OFDM信道估计 . 电子科技大学学报, 2023, 52(4): 512-522. doi: 10.12178/1001-0548.2022205
    [4] 齐鹏文, 李渊, 李岩, 罗龙, 赵云龙.  基于注意力模型的输电线路隐患检测 . 电子科技大学学报, 2023, 52(2): 240-246. doi: 10.12178/1001-0548.2022063
    [5] 常美琪, 肖婧, 许小可.  影响社团特性的微观结构因素解耦分析 . 电子科技大学学报, 2023, 52(6): 954-960. doi: 10.12178/1001-0548.2022235
    [6] 李阳, 李春璇, 徐灿飞, 方立梅.  基于残差注意力机制的肺结节数据增强方法 . 电子科技大学学报, 2023, 52(6): 880-886. doi: 10.12178/1001-0548.2022363
    [7] 刘霖, 肖嘉荣, 王晓蓓, 张德生, 喻忠军.  改进YOLOX的SAR近岸区域船只检测方法 . 电子科技大学学报, 2023, 52(1): 44-53. doi: 10.12178/1001-0548.2022039
    [8] 郭磊, 王邱龙, 薛伟, 郭济.  基于改进YOLOv5的小目标检测算法 . 电子科技大学学报, 2022, 51(2): 251-258. doi: 10.12178/1001-0548.2021235
    [9] 郭磊, 王邱龙, 薛伟, 郭济.  基于注意力机制的光线昏暗条件下口罩佩戴检测 . 电子科技大学学报, 2022, 51(1): 123-129. doi: 10.12178/1001-0548.2021222
    [10] 张凤荔, 王雪婷, 王瑞锦, 汤启友, 韩英军.  融合动态图表示和自注意力机制的级联预测模型 . 电子科技大学学报, 2022, 51(1): 83-90. doi: 10.12178/1001-0548.2021100
    [11] 李学明, 岳贡, 陈光伟.  基于多模态注意力机制的图像理解描述新方法 . 电子科技大学学报, 2020, 49(6): 867-874. doi: 10.12178/1001-0548.2019228
    [12] 邓钰, 雷航, 李晓瑜, 林奕欧.  用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
    [13] 帕丽旦·木合塔尔, 买买提阿依甫, 杨文忠, 吾守尔·斯拉木.  基于BiRNN的维吾尔语情感韵律短语注意力模型 . 电子科技大学学报, 2019, 48(1): 88-95. doi: 10.3969/j.issn.1001-0548.2019.01.015
    [14] 袁太文, 谢永乐, 毕东杰, 盘龙, 吕珏.  改进的共轭梯度MRI压缩成像算法 . 电子科技大学学报, 2019, 48(1): 53-57. doi: 10.3969/j.issn.1001-0548.2019.01.009
    [15] 朱佩佩, 程玉华, 白利兵, 田露露, 黄建国.  脉冲涡流红外热成像缺陷特征提取方法 . 电子科技大学学报, 2019, 48(5): 741-746. doi: 10.3969/j.issn.1001-0548.2019.05.013
    [16] 何坤, 郑秀清, 琚生根, 张永来.  改进全变分的图像去噪 . 电子科技大学学报, 2016, 45(3): 463-468. doi: 10.3969/j.issn.1001-0548.2016.02.026
    [17] 黄大贵, 谢明君, 张德银, 董政.  LiTaO3薄膜红外探测器热分析 . 电子科技大学学报, 2008, 37(4): 637-640.
    [18] 薛书文, 雷雨, 陈习权, 祖小涛.  脉冲红外热成像无损检测的物理检测机理 . 电子科技大学学报, 2005, 34(3): 320-322,327.
    [19] 张生才, 申云琴, 姚素英.  热打印头的失效机理与寿命分析 . 电子科技大学学报, 2001, 30(2): 181-184.
    [20] 杨春.  运用SOCKS V5/TLS协议构建VPN的研究与实现 . 电子科技大学学报, 2001, 30(3): 292-294.
  • 加载中
图(3) / 表(5)
计量
  • 文章访问数:  1859
  • HTML全文浏览量:  709
  • PDF下载量:  230
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-08-29
  • 修回日期:  2024-01-25
  • 网络出版日期:  2024-07-29
  • 刊出日期:  2024-07-30

深度学习的红外热成像电路板元器件识别研究

doi: 10.12178/1001-0548.2023215
    基金项目:  新疆维吾尔自治区自然科学基金(2022D01C431)
    作者简介:

    张林鍹,博士,教授,主要从智能制造、生产智能管控、故障预测与设备健康管理等方面的研究

    通讯作者: 通信作者e-mail: zx10755@stu.xju.edu.cn
  • 中图分类号: TP391.4

摘要: 针对现有YOLO目标检测算法在自建数据集漏检率高、图像受复杂环境影响造成检测准确率低等问题,提出一种基于YOLO v5改进的红外图像识别算法。根据红外数据图片的独特性质,重新设计主干网络部分,引入全维动态卷积(OMNI-Dimensional Dynamic Convolution, ODConv)模块和改进坐标注意力(Coordinate Attention, CA)机制,提高模型对小目标的检测精确度并减少参数量;其次,引入解耦头(Decoupled Head, DH)模块,提高模型训练的收敛速度;最后,加入GSConv(Graph-Shifted Convolution) Slim模块,以降低模型的复杂度,提高预测速度。实验结果表明:改进后的算法模型漏检率降低40.22%,每秒浮点运算次数(Floating-point Operations Per Second, FLOPs)提升了25%,平均准确率提升了28.32%。

English Abstract

张林鍹, 郑兴, 陈飞, 李名洪, 邱朝洁, 常乾坤. 深度学习的红外热成像电路板元器件识别研究[J]. 电子科技大学学报, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
引用本文: 张林鍹, 郑兴, 陈飞, 李名洪, 邱朝洁, 常乾坤. 深度学习的红外热成像电路板元器件识别研究[J]. 电子科技大学学报, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
ZHANG Linxuan, ZHENG Xing, CHEN Fei, LI Minghong, QIU Chaojie, CHANG Qiankun. Research on Infrared Thermal Imaging Circuit Board Component Recognition Based on Deep Learning[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
Citation: ZHANG Linxuan, ZHENG Xing, CHEN Fei, LI Minghong, QIU Chaojie, CHANG Qiankun. Research on Infrared Thermal Imaging Circuit Board Component Recognition Based on Deep Learning[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
  • 红外热成像技术利用光电技术检测物体发出的热辐射红外线特定波段信号,将其转换为可供人类视觉分辨的图像和图形,同时计算出温度值。最初,热成像技术主要应用于军事领域[1]。随着科学技术的进步,红外热成像技术逐渐成为一种成本低、适应能力强的检测方法,在农业养殖、工业生产、医疗健康和地质勘探[2]等领域得到广泛应用。

    集成电路板作为现代电子设备的核心组成部分,其元器件的工作状态直接关系到整个设备的性能和稳定性。然而,传统的手工检测方法在大规模数据和复杂环境下面临着巨大的挑战。此时,基于红外热成像的电路板元器件识别方法应运而生。这种方法利用红外热成像技术,捕捉电路板上元器件的热能分布情况,结合图像处理及深度学习的强大能力,实现对元器件的自动识别和状态检测,为电子设备的维护保养提供有力支持。

    红外热成像技术因其独特的成像原理引起众多学者关注。目前,已经取得了一些研究成果。如文献[3]采用正交傅里叶–梅林矩阵的方法研究了图像目标的分类识别选取;文献[4]开发了一种电路故障检测仪,并采用图像拼接和配准的方法进行识别;文献[5]利用ROI检测算法,在人工设定的感兴趣区域内提取特征,当数据量较大时,这种依靠人工标定的方法需要耗费大量时间;文献[6]提出了使用红外热像设备进行人工检测定位的方法;文献[7]采用模板匹配法检测识别电路板目标元器件;文献[8]提出了一种基于数学形态学和种子填充相结合的分层提取匹配算法;文献[9]提出了一种基于YOLO算法的印刷电路板组件电容检测方法;文献[10]利用快速Hough变换和神经网络字符识别的方法进行匹配检测,推动了电路板元器件检测的自动化程度;文献[11]提出了使用深度学习的方法对印刷电路板进行识别;文献[12]使用深度卷积神经网络构建了一种轻量级PCB类检测模型,用于识别电路板可见光图片数据;文献[13]提出了一种基于YOLO v5s的轻量化识别方法。

    然而,在电路板元器件识别的研究中,采用常规图像处理技术的方法依赖于人工定义的特征表示,无法充分挖掘图像中的复杂特征,在处理庞大的数据时非常耗时。此外,由于红外热成像图片本身存在噪声和几何形变等因素,传统的特征提取方法在复杂环境下容易失效,会导致准确率下降等问题。同时,采用一般深度学习方法的研究在使用的自建数据集上存在泛化能力差、漏检率较高、易受场景限制等不足。针对上述问题,本文提出一种改进的YOLO v5-OCDG电路板主要元器件红外目标检测算法,旨在满足实际工程应用的需求。

    • 为了能够使算法模型可以更灵活地处理数据采集时发生的检测目标几何形变问题,本文引入全维动态卷积模块[14]。在深度学习中,常规卷积层具有应用于所有输入样本的单个静态卷积核。而动态卷积是指在卷积过程中,卷积核的大小和形状是动态的,它使用n个卷积核的线性组合,通过注意机制进行动态加权,使得卷积运算依赖于输入。动态卷积运算可以定义为:

      $$ y = {\alpha _{w1}}{{\boldsymbol{W}}_1} + {\alpha _{w2}}{{\boldsymbol{W}}_2} + \cdots + {\alpha _{wn}}{{\boldsymbol{W}}_n} $$ (1)

      式中,$ {x}\in{{R}}^{{h\times w \times}{{C}}_{\text{in}}} $$ {y}\in{{R}}^{{h\times w \times}{{C}}_{\text{out}}} $分别表示输入特征和输出特征(具有高度$ {h} $和宽度${w} $$ {{C}}_{\text{in}} $/$ {{C}}_{\text{out}} $通道);$ {\boldsymbol{W}}_{{i}} $表示由$ {{C}}_{\text{out}} $滤波器$ {\boldsymbol{W}}_{{i}}^{{m}}\in{{R}}^{{k\times k \times}{{C}}_{\text{in}}} $组成的第$ {i} $个卷积核,$ {m}{=1,2,}\cdots,{{C}}_{\text{out}};\alpha _{{ \omega {\mathrm{i}}}}\in{R} $是注意标量用于加权$ {\boldsymbol{W}}_{{i}} $,其通过以输入特征为条件的注意函数$ \pi _{{ \omega {{i}}}}\left({x}\right) $来计算。ODConv的表达形式如式(2)所示:

      $$ \begin{split} &y = {\alpha _{w1}} \odot {\alpha _{f1}} \odot {\alpha _{c1}} \odot {\alpha _{s1}} \odot {{\boldsymbol{W}}_1} + \cdots + \\ &\quad {\alpha _{wn}} \odot {\alpha _{fn}} \odot {\alpha _{cn}} \odot {\alpha _{sn}} \odot {{\boldsymbol{W}}_n} \end{split} $$ (2)

      式中,$ {{\alpha}}_{{ \omega {{i}}}}\in{R} $为卷积核$ {\boldsymbol{W}}_{{i}} $的注意标量,与式(1)相同;$ {{\alpha}}_{{si}}\in{{R}}^{{k \times k}} $$ {{\alpha}}_{{ci}}\in{{R}}^{{{C}}_{\text{in}}} $$ {{\alpha}}_{{fi}}\in{{R}}^{{{C}}_{\text{out}}} $表示新引入的3个注意标量,分别沿卷积核$ {\boldsymbol{W}}_{{i}} $的核空间的空间维数、输入通道维数和输出通道维数计算;$ \odot $表示沿核空间不同维数的乘法运算。

      ODConv模块利用卷积核空间的所有4个维度的卷积核的互补注意力一起提供可靠的准确性提升,增强特征学习能力。

    • 针对数据采集时会出现图片分辨率较低的问题,以及算法对通道进行最大池化或平均池化的处理中,总会出现样本空间信息损失的问题,为了降低损失值,使用坐标注意力机制[15]在此方面数据处理有较好效果。CA将通道注意力分解为两个ID特征编码过程,这两个过程分别沿着两个空间方向聚集特征。

      沿着一个空间方向捕获长程相关性,同时可以沿着另一个空间方向保留精确的位置信息。将得到的特征图分别编码成一对方向感知和位置敏感的注意力图,特征图可以互补地应用于输入特征图,以增强感兴趣对象的表示。

      多头注意力机制[16]因其具有并行计算和良好的抗噪声能力,本文采用加权融合的形式将多头注意力机制与坐标注意力机制进行融合改进。

      定义两个坐标注意力权重,分别对应高度方向和宽度方向。这两个权重通过线性变换和 sigmoid激活函数计算得到,表示如下:

      $$ \left\{ {\begin{array}{*{20}{c}} {{{\boldsymbol{a}}_n} = \sigma ({{\boldsymbol{W}}_h}{{\boldsymbol{x}}_h})} \\ {{{\boldsymbol{a}}_w} = \sigma ({{\boldsymbol{W}}_w}{{\boldsymbol{x}}_w})} \end{array}} \right. $$ (3)

      式中,$ {{{\boldsymbol{a}}}}_{{h}} $$ {{{\boldsymbol{a}}}}_{{w}} $分别是坐标注意力权重的对应高度方向和宽度方向;$\sigma $$ \text{sigmoid} $函数;$ {{{\boldsymbol{W}}}}_{{h}},{{{\boldsymbol{W}}}}_{{w}} $是坐标注意力的权重。

      使用多头注意力模块对输入数据进行多头注意力计算。该模块包含i个注意力头,每个头独立学习不同的特征表示。输入数据通过线性变换做映射处理:

      $$ \left\{ {\begin{array}{*{20}{c}} {{\boldsymbol{Q}} = {{\boldsymbol{W}}_q}{\boldsymbol{x}}} \\ {{\boldsymbol{K}} = {{\boldsymbol{W}}_k}{\boldsymbol{x}}} \\ {{\boldsymbol{V}} = {{\boldsymbol{W}}_v}{\boldsymbol{x}}} \end{array}} \right. $$ (4)

      式中,$ {{{\boldsymbol{W}}}}_{{q}},{{{\boldsymbol{W}}}}_{{k}},{{{\boldsymbol{W}}}}_{{v}} $是线性变换的权重矩阵;$ {{\boldsymbol{x}}} $代表网络模型输入;$ {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} $分别代表查询、键、值。

      $ {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} $沿着特征维度划分成$ {i} $个头:

      $$ \left\{ {\begin{array}{*{20}{c}} {{{\boldsymbol{Q}}_i} = {\boldsymbol{Q}}[:,i,:,:]} \\ {{{\boldsymbol{K}}_i} = {\boldsymbol{K}}[:,i,:,:]} \\ {{{\boldsymbol{V}}_i} = {\boldsymbol{V}}[:,i,:,:]} \end{array}} \right. $$ (5)

      $ {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} $进行转置操作:

      $$ {\boldsymbol{Q}}' = {{\boldsymbol{Q}}^{\mathrm{T}}},{\boldsymbol{K}}' = {{\boldsymbol{K}}^{\mathrm{T}}},{\boldsymbol{V}}' = {{\boldsymbol{V}}^{\mathrm{T}}} $$ (6)

      通过对过程矩阵进行归一化,求得注意力权重,进而计算出注意力得分attention:

      $$ \left\{ {\begin{array}{*{20}{c}} {{\bf{energy}} = \dfrac{{{\boldsymbol{Q}}'{\boldsymbol{K}}'}}{{{\bf{head}}{\boldsymbol{\_}}{\bf{dim}}}}} \\ {{\text{attention}} = \dfrac{{\exp ({\bf{energy}})}}{{\displaystyle\sum\limits_{j - 1}^n {\exp ({\bf{energy}})} }}} \end{array}} \right. $$ (7)

      式中,$ {\bf{head\_dim}} $代表每个头的维度大小;energy为注意力机制中的能量矩阵,表示输出序列中不同位置之间的关联度。

      使用注意力得分加权求和并对其进行重塑得到多头注意力的输出:

      $$ {\bf{multihead}}_{{\mathrm{output}}} = {({\text{attention}}{\boldsymbol{V}}')^{\text{T}}} $$ (8)

      式中,$ {\bf{multihead}}_{{{\mathrm{output}}}} $代表多头注意力模块的输出。

      将多头注意力的输出与坐标注意力的权重相乘得到最终输出:

      $$ {\mathrm{out}} = {\bf{multihead}}_{{\mathrm{out}}}({{\boldsymbol{a}}_w}{{\boldsymbol{a}}_h}) $$ (9)

      该模块的改进方式采用加权融合的形式,将多头注意力的输出与坐标注意力的权重相乘。融合后的结果表示在多头注意力的基础上,按照坐标注意力的权重进行调整,以更加关注输入数据的不同部分,使得模型能够更灵活地捕捉输入数据中不同方向的关键信息,提高了模型的表示能力。

    • 在目标检测中,分类任务和回归任务之间的冲突是一个普遍的问题[17],随着YOLO系列的主干和特征金字塔[18](如FPN、PAN)的不断演化,其检测头仍然保持耦合状态。解耦头是一种目标检测算法中的检测头结构,采用两个子头分别预测目标框的位置和类别信息,从而实现目标检测任务的解耦。

      解耦头通过将检测任务的位置和类别信息分开预测,解决了上述问题。对于FPN的每一层特征,首先采用1×1的Conv层将特征通道数减少到256,然后添加两个并行分支,每个分支有2个3×3 Conv层,分别用于分类和回归任务。

      本文为了进一步提高解耦头的训练效果,添加了一个卷积层,在前向传播方法中,首先对输入x进行merge操作,然后通过引入的卷积层对输入x应用1×1卷积,将得到的结果与空间数据合并的结果相加。这样,通过将跳跃连接的结果与主要卷积的结果相加,实现了跳跃连接的融合。最终,在前向传播方法的最后,模型将分类分支、回归分支和目标置信度分支的输出进行拼接。

      这个融合的方式是通过跳跃连接将低层的特征与高层的特征相加,然后将3个分支的输出进行拼接。这有助于提高模型对低层和高层信息的利用,同时可以提高模型的性能和泛化能力,进而提升模型的推理速度。

    • 为了减轻模型体积,同时保障模型特征采集质量,CNN中的馈送图像几乎必须在Backbone中经历类似的转换过程:空间信息逐步向通道传输,并且每次特征图的空间(宽度和高度)压缩和通道扩展都会导致部分语义信息丢失,GSConv[19]则尽可能地保留这些连接。

      GSConv 模块包含两个卷积层,第一个卷积层的输出通道数是第二个卷积层输出通道数的一半。这种设计有助于在不引入过多参数的情况下降低模型的通道数,从而减少模型的复杂性。第二个卷积层采用了5×5的卷积核,相较于常规的3×3卷积,具有更大的感受野。通过增大感受野,模型能够更好地捕捉输入特征之间的全局关系,提高感知能力。除此以外,模块通过轻量级的连接方式将第一个卷积层的输出与第二个卷积层的输出连接在一起。这种连接方式有效地引入了更多的信息,同时保持了模块的轻量级设计。GSConv以较低的时间复杂度尽可能地保留这些连接,通过增强CNN学习能力的广义方法, 在VoVNet方法的理论基础上设计了细颈结构。

      总体而言,GSConv模块通过多项设计策略的运用,包括通道数减半、引入更大感受野的卷积核和轻量级连接操作等,使GSConv在优化Neck的同时确保了检测精度,有效地降低了检测过程的计算复杂度和推理时间。这一系列的改进使得模型成功实现了在减少模型复杂性的同时提升预测速度。本文改进后的模型框架图如图1所示。

      图  1  YOLO v5-OCDG网络结构图

    • 模型初始学习率设置为0.01,最终学习率设定为0.1,为了加快模型的收敛并减少训练过程中的震荡问题,本文的预热周期数设置为3,预热动量值设置为0.8,所有模型训练周期均为300 epoch,Batch-size设置为8。

    • 为了满足红外热成像相关研究的需要,本文构建基于便携式红外热成像仪MIKRON M7800红外摄像模块设备采集短波红外[20]电路板多分类的目标数据库。

      在构建红外热成像数据集时,为了确保实验数据的多样性和代表性,图片采集包含了不同的场景,如室内、室外、夜间等,目标类别也选取生活中较为常见的主板器件,如电脑主板、电梯控制电路板和家电设备主板上的关键器件。

      本文的自建数据集包含大量电路板数据图片样本,数据集检测对象分为4类:芯片(Chip)、电阻(Resistor)、线圈电感(Inductance)与电容(Capacitor)。各分类数量如表1所示。

      表 1  各分类数量情况

      检测对象 原始量 扩展量
      芯片 384 1342
      电阻 366 1182
      电感 243 803
      电容 462 1431

      本文对数据集进行了白噪声干扰、高斯噪声干扰、旋转、缩放、裁剪、亮度变化等数据增广处理,各分类的数据扩展比例约在1:3,旨在模拟数据采集时的几何形变和低分辨率等复杂情况,通过对原始数据进行变换和扩充来增加训练数据的多样性和数量,从而提升模型的泛化能力和鲁棒性。

      在数据集的构建过程中,将预处理操作后的数据集分为训练集与验证集,并按照8:2的比例进行划分此外,本研究还进行了多次独立标注和验证,以确保标注的一致性和准确性。

    • 评价指标是用于衡量机器学习模型性能的度量标准。深度学习领域的目标检测算法的主要评价指标如下:准确率(Precision, P)、召回率(Recall, R)、漏检率(False Negative Rate, FNR)、平均准确率(mean Average Precision, mAP)、模型体积、训练时间(Frames Per Second, FPS)、参数量、计算量等。其中平均准确率的计算公式如下:

      $$ {\mathrm{AP}} = \int_0^1 {P(R){\text{d}}R} $$ (10)

      式中,AP(Average Precision)是各个类别的平均值,对于多类别的目标检测任务,由于待检测物体可能存在不同的所属类别,通常用平均准确率作为评价指标,其计算公式如下:

      $$ {\mathrm{mAP}} = \frac{1}{N}\sum\limits_{n = 1}^N {A_{{\mathrm{AP}}}^n} $$ (11)

      式中,$ {N} $为物体类别的数量;$ {{A}}_{{{\mathrm{AP}}}}^{{n}} $表示算法对第$ {n} $个类别的物体的评价准确率。mAP0.5是指将预测框与真实框的IoU阈值设置为0.5,然后根据不同类别计算每个类别的精度–召回曲线下的面积(AUC),最后计算所有类别的平均值。FPS 是衡量模型推理速度的常用指标之一,可以计算为:

      $$ {\mathrm{FPS}} = \frac{1}{{{T_p} + {T_i} + {T_{{\mathrm{nms}}}}}} $$ (12)

      式中,$ {{T}}_{{p}} $表示模型在单张图片上的预处理时间;$ {{T}}_{{i}} $表示模型在单张图片上的推理时间;$ {{T}}_{{{\mathrm{nms}}}} $表示模型在单张图片上的非极大值抑制时间。

      GFLOPs是指模型运行时的浮点运算次数,通常用于评估深度学习模型的计算效率。

    • 为了评估改进目标检测算法的性能,比较不同方法之间的差异,联合YOLO v51[21]、YOLO X[22]、YOLO v7[23]、YOLO v8[24]模型设计了一系列对比实验。结果如表2所示。

      表 2  YOLOv5与典型算法网络模型对比实验

      算法 参数
      Layers Parameters Model Size/MB GFLOPs Precision/% Recall/% mAP0.5/% FPS帧/s
      YOLO v3[11] 333 61539889 122.3 155.3 71.37 61.85 64.21 18.1
      YOLO v5s[13] 270 7030417 14.4 16.0 63.20 59.52 45.02 51.0
      YOLO v5l[21] 367 46124433 92.8 107.7 72.53 54.86 66.30 23.5
      YOLO X[22] 155 4519642 9.3 31.7 68.86 54.34 51.98 55.3
      YOLO v7[23] 301 38177883 74.8 86.8 69.99 52.67 52.80 45.8
      YOLO v8[24] 168 3006428 6.2 8.1 66.73 56.84 40.13 68.4
      YOLO v5-OCDG 502 21363884 33.2 20.3 81.32 65.73 73.34 43.7

      表2可知,在与其他算法的比较中,不同目标检测模型呈现了各自的优势和局限性。YOLO v3模型在mAP0.5值上表现出色,但其高参数量、大模型体积以及低FPS值等限制了其在工程应用中的适用性。YOLO v5l、YOLO v7展现了高GFLOPs值和强大的模型表达能力,但由于其较长的训练时间,在快速性方面略显不足,限制了其在嵌入式开发中的移植性。YOLO X因其无锚框设计的模型在检测速度上性能良好,但是在验证集中的准确度较低,无法达到研究目的。YOLO v8模型作为YOLO v4模型的衍生型,其继承了v4的良好性能并且进一步减轻了模型大小,但在本研究的自建数据集中的mAP0.5值小,无法应用于工程实际。

      相较之下,YOLO v5-OCDG在多个方面取得了平衡,展现了优越的综合性能。改进算法在训练时间、推理时间和参数量等方面取得了显著的实验结果,使其成为工程应用的优异选择。尽管其浮点运算次数相对较少,但为后续系统移植开发提供了条件,使其在实际应用中更具可行性。因此,通过对这6种算法模型的综合比较,可以得出结论,YOLO v5-OCDG在多个方面都取得了较优的实验结果,是一种更适合工程应用的目标检测算法。

    • 本算法进行了一系列的消融实验,结果如表3所示。根据表3的结果,在主干网络中引入ODConv模块后,被检测目标的特征提取量增加,从而使模型大小扩大为原网络模型的3倍。所有模型准确度均有显著提升,这表明ODConv模块在红外热成像图片的准确性方面发挥了重要作用。引入坐标注意力机制能够使模型更快到达峰值,原始数据集与改进数据集的实验结果对比如表4所示。原始数据集过小导致模型在训练过程中出现了早停、训练精度高、验证集精度低等情况。在数据集扩展后,4类目标的精度参数均呈现出良好的性能。同时,验证集的目标检测情况也得到了明显改善。

      表 3  YOLO v5-OCDG消融实验

      算法 模块 参数
      ODConv CA DH GSConv Precision/% mAP0.5/% 模型大小/MB GFLOPs
      YOLO v5s - - - - 63.20 45.02 14.3 16.0
      YOLO v5-O - - - 75.83 68.55 +23.53 55.8 16.9
      YOLO v5-OC - - 78.30 64.87 +19.85 39.3 16.1
      YOLO v5-CD - - 78.42 62.95 +17.93 29.4 56.5
      YOLO v5-OD - - 75.61 67.90 +22.90 34.3 57.8
      YOLO v5-OCD - 79.89 70.80 +25.78 34.8 58.3
      YOLO v5-OCDG 81.32 73.34 +28.32 33.2 20.3

      表 4  数据集扩增前后验证准确度对比表 %

      数据集 芯片 电阻 电容 电感
      原始量 40.40 26.9 16.86 27.40
      扩展量 82.63 77.4 86.23 79.02

      通过扩展数据集,本研究解决了上述问题,使得模型在各类目标上表现更为出色。这进一步验证了数据集规模对深度学习模型的训练和泛化性能的重要性。

      根据图2的观察,可以发现模型的边框损失量较大,目标存在性损失减小,说明改进效果较好。分类损失量在300 epoch时保持稳定,但改进模型的分类损失曲线并未收敛,走势持续向下。总体而言,YOLO v5-OCDG总损失值为5.78%,这说明CA机制模块极大地补充了低分辨率图像的特征信息,对红外热成像图片的鲁棒性起到了积极影响。

      图  2  Loss损失曲线对比图

      由于YOLO v5s模型容易发生梯度消失或者梯度爆炸的现象,在训练过程中表现出不理想的训练效果。为了加快网络模型的收敛速度,引入DH模块。实验结果显示,不同模块的作用导致网络的收敛速度各不相同,在压缩模型体积的前提下,加快了模型的推理速度。这表明解耦头模块对于红外热成像图片的快速检测起到了重要作用。

      最后,将GSConv模块替换neck部分Conv模块。在YOLO v5-OCD实验的基础上,这一改进将准确度提升了1.43%,mAP0.5提升了2.54%,计算速度加快,并进一步压缩了模型体。同时,GFLOPs参数量降至原来的一半以下,可见此模块在减少模型中的参数数量和计算复杂度方面有良好效果,使得模型各参数更加平衡。消融实验结果如图3所示。

      图  3  YOLO v5-OCDG消融实验对比图

      通过消融实验,本文展示了YOLO v5-OCDG目标检测算法中各个模块的作用和相互关系,揭示其在整体算法中的重要性。这有助于指导算法的优化和改进,提高目标检测算法的性能和适用性,并推动后续红外热成像研究的发展。

    • 模型训练完成后,本研究输入一批图片数据进行验证,如表5所示,4种检测目标在改进后均有较大提升,模型总召回率突显出其良好的检测能力和泛化能力。

      表 5  模型改进前后器件准确度对比 %

      阶段 芯片 电阻 电容 电感 总数
      改进前 44.61 57.13 59.31 16.10 49.80
      改进后 98.04 90.36 66.67 89.85 90.02

      根据表5可知,改进后模型的总漏检率降低了40.22%。在本文模拟的温度影响及低分辨影响干扰下,改进研究算法仍能够识别出检测对象,且相比较于YOLO v3与其他模型具有更好的性能指标,能够对温度影响、低分辨率等复杂场景下的红外图片目标进行检测,能够达到工程应用的要求。

    • 本研究提出的YOLO v5-OCDG目标检测算法,得出了以下结论。

      1)YOLO v5-OCDG算法在红外热成像图像上表现出卓越性能,准确率、召回率和平均准确率分别达到81.32%、65.73%和73.34%。

      2)数据采用增广方式,模拟几何形变和低分辨率等,增强了模型的鲁棒性。研究对比分析显示,相较原网络,YOLO v5-OCDG算法在GFLOPs、准确率、召回率和平均检测速度上均有显著提升。

      3)验证数据集结果显示,算法在红外热成像目标检测任务中展现更高性能和实用性,验证了算法的有效性和可行性,满足实际工程应用需求。

参考文献 (24)

目录

    /

    返回文章
    返回