Volume 52 Issue 3
May  2023
Article Contents

LIU Yi, LIU Yuhang, YAN Rongbiao, GUI Zhiguo. Detail Enhancement-Based Fusion Network for Multi-Energy Digital Radiography Images[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 379-389. doi: 10.12178/1001-0548.2022127
Citation: LIU Yi, LIU Yuhang, YAN Rongbiao, GUI Zhiguo. Detail Enhancement-Based Fusion Network for Multi-Energy Digital Radiography Images[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 379-389. doi: 10.12178/1001-0548.2022127

Detail Enhancement-Based Fusion Network for Multi-Energy Digital Radiography Images

doi: 10.12178/1001-0548.2022127
  • Received Date: 2022-04-29
  • Rev Recd Date: 2022-06-21
  • Available Online: 2023-05-26
  • Publish Date: 2023-05-28
  • To solve the problem that X-ray with single energy could not simultaneously expose each part of a complex workpiece, a multi-energy digital radiography (DR) fusion network based on detail enhancement, namely dual-encoder nest connection-based fusion network, is proposed. In this network, the inception module is used as the basic convolution layer and a trainable LOG (Laplacian of Gaussian) convolution module is designed in the auxiliary branch of the dual-encoder to extract multi-scale edge features and add them to the main branch to enhance the global features. In the training stage, a local energy consistency loss function based on image block is proposed to reduce the local errors of input and output. In the fusion process, channel and spatial attention mechanisms are used as the fusion strategy to fuse the multi-scale enhanced features extracted from dual-encoder, and the fused multi-scale features are input into the nest connected decoder for reconstruction. Experimental results show that the proposed fusion network has the effect of detail enhancement and can reproduce the internal structure and defects of complex workpiece completely and clearly.
  • [1] HAMIDEEN M S, SHARAF J, AL-SALEH K A, et al. Description of a transmission X-Ray computed tomography scanner[J]. Radiation Physics and Chemistry, 2011, 80(11): 1162-1165. doi:  10.1016/j.radphyschem.2011.05.007
    [2] ZARB F, RAINFORD L, MCENTEE M F. Image quality assessment tools for optimization of CT images[J]. Radiography, 2010, 16(2): 147-153. doi:  10.1016/j.radi.2009.10.002
    [3] LIU Y, ZHANG P C, GUI Z G. An enhancement framework based on gradient domain tone mapping and fuzzy logical for X-Ray image of complex workpiece[J]. NDT and E International, 2021, 121: 102455.
    [4] BUTLER A P H, BUTZER J, SCHLEICH N, et al. Processing of spectral X-Ray data with principal components analysis[J]. Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 2011, 633(2): S140-S142.
    [5] DROMIGNY A, ZHU Y M. Improving the dynamic range of real-time X-Ray imaging systems via Bayesian fusion[J]. Journal of Nondestructive Evaluation, 1997, 16(3): 147-160.
    [6] SISNIEGA A, VAQUERO J J, ABELLA M, et al. Automated dual-exposure technique to extend the dynamic range of flat-panel detectors used in small-animal cone-beam micro-CT[C]//2009 IEEE Nuclear Science Symposium Conference Record, VOLS 1-5. Orlando, FL: IEEE, 2009: 2948-2950.
    [7] SISNIEGA A, ABELLA M, DESCO M, et al. Dual-Exposure technique for extending the dynamic range of X-Ray flat panel detectors[J]. Physics in Medicine and Biology, 2014, 59(2): 421-439. doi:  10.1088/0031-9155/59/2/421
    [8] 段彦杰, 杨明, 刘宾, 等. 基于变剂量扫描的X射线图像增强技术[J]. 无损检测, 2011, 33(2): 13-15.

    DUAN Y J, YANG M, LIU B, et al. X-Ray image enhancement technology based on variable dose[J]. NDT, 2011, 33(2): 13-15.
    [9] 魏交统, 陈平, 潘晋孝. 基于主成分分析的递变能量X射线图像融合[J]. 中国体视学与图像分析, 2013, 18(2): 103-108. doi:  10.13505/j.1007-1482.2013.02.003

    WEI J T, CHEN P, PAN J X. Gradient-Energy digital radiography image fusion based on principle component analysis[J]. Chinese Journal of Stereology and Image Analysis, 2013, 18(2): 103-108. doi:  10.13505/j.1007-1482.2013.02.003
    [10] 羊肇俊, 曾理. 基于加权最小二乘滤波和引导滤波的铸件DR图像融合[J]. 仪器仪表学报, 2021, 42(6): 211-220. doi:  10.19650/j.cnki.cjsi.J2107556

    YANG Z J, ZENG L. Casting DR image fusion based on weighted least squares filter and guided filter[J]. Chinese Journal of Scientific Instrument, 2021, 42(6): 211-220. doi:  10.19650/j.cnki.cjsi.J2107556
    [11] LUO X Q, ZHANG Z C, ZHANG B C, et al. Image fusion with contextual statistical similarity and nonsubsampled shearlet transform[J]. IEEE Sensor Journal, 2017, 17(6): 1760-1771. doi:  10.1109/JSEN.2016.2646741
    [12] LI X X, GUO X P, HAN P F, et al. Laplacian re-decomposition for multimodal medical image fusion[J]. IEEE Transaction on Instrumentation and Measure, 2020, 69(9): 6880-6890. doi:  10.1109/TIM.2020.2975405
    [13] YANG S Y, WANG M, JIAO L C, et al. Image fusion based on a new contourlet packet[J]. Information Fusion, 2010, 11(2): 78-84. doi:  10.1016/j.inffus.2009.05.001
    [14] LI S T, KANG X D, HU J W. Image fusion with guided filtering[J]. IEEE Transactions on Image Processing, 2013, 22(7): 2864-2875. doi:  10.1109/TIP.2013.2244222
    [15] 杨民, 吴美金, 魏东波, 等. 双能透照模式下涡轮叶片DR图像融合方法[J]. 北京航空航天大学学报, 2011, 37(12): 1494-1497. doi:  10.13700/j.bh.1001-5965.2011.12.007

    YANG M, WU M J, WEI D B, et al. Turbine blade DR images fusion based on bi-energy X-ray radiography[J]. Journal of Beijing University of Aeronautics and Astronautics, 2011, 37(12): 1494-1497. doi:  10.13700/j.bh.1001-5965.2011.12.007
    [16] ZONG J J, QIU T S. Medical image fusion based on sparse representation of classified image patches[J]. Biomedical Signal Processing and Control, 2017, 34: 195-205. doi:  10.1016/j.bspc.2017.02.005
    [17] LIU C H, QI Y, DING W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]. Infrared Physics Technology, 2017, 83: 94-102. doi:  10.1016/j.infrared.2017.04.018
    [18] LIU Y, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164.
    [19] ZHAO R G, LIU Y, ZHAO Z, et al. Multi-Energy X-ray images fusion method based on fuzzy entropy and sparse representation for complex castings[J]. NDT and E International, 2021, 124(102535): 1-9.
    [20] 马旗, 朱斌, 张宏伟. 基于VGG网络的双波段图像融合方法[J]. 激光与红外, 2019, 49(11): 1374-1380. doi:  10.3969/j.issn.1001-5078.2019.11.018

    MA Q, ZHU B, ZHANG H W. Dual-Band image fusion method based on VGGNet[J]. Laser and Infrared, 2019, 49(11): 1374-1380. doi:  10.3969/j.issn.1001-5078.2019.11.018
    [21] LI H, WU X J, DURRANI T S. Infrared and visible image fusion with ResNet and zero-phase component analysis[EB/OL]. [2022-03-12]. https://doi.org/10.48550/arXiv.1806.07119.
    [22] LI H, WU X J, KITTLER J. Infrared and visible image fusion using a deep learning framework[C]//24th Intenational Conference on Pattern Recognition (ICPR). [S. l. ]: IEEE, 2018: 2705-2710.
    [23] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614-2623. doi:  10.1109/TIP.2018.2887342
    [24] MA J Y, YU W, LIANG P W, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. doi:  10.1016/j.inffus.2018.09.004
    [25] MA J Y, LIANG P W, YU W, et al. Infrared and visible image fusion via detail preserving adversarial learning[J]. Information Fusion, 2019, 54: 85-98.
    [26] MA J Y, XU H, JIANG J J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980-4995. doi:  10.1109/TIP.2020.2977573
    [27] ZHOU Z, SIDDIQUEE M, TAJBAKHSH N, et al. UNet++: A nested U-Net architecture for medical image segmentation[C]//Deep Learning in Medical Analysis and Multimodal for Clinical Decision Support: The 4th International Workshop and the 8th International Workshop. Granada: Springer, 2018: 3-11.
    [28] LI H, WU X J, DURRANI T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. doi:  10.1109/TIM.2020.3005230
    [29] LI H, WU X J, KITTLER J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72-86. doi:  10.1016/j.inffus.2021.02.023
    [30] CHRISTIAN S, VINCENT V, LOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recongnition. Las Vegas: IEEE, 2016: 2818-2826.
    [31] MA K, LI H, YONG H, et al. Robust multi-exposure image fusion: A structural patch decomposition approach[J]. IEEE Transactions on Image Processing, 2017, 26(5): 2519-2532. doi:  10.1109/TIP.2017.2671921
    [32] LI H, MA K, YONG H, et al. Fast multi-scale structural patch decomposition for multi-exposure image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 5805-5816. doi:  10.1109/TIP.2020.2987133
    [33] LEE S H, PARK J S, CHO N I. A multi-exposure image fusion based on the adaptive weights reflecting the relative pixel intensity and global gradient[C]//25th IEEE International Conference on Image Processing (ICIP). Athens: IEEE, 2018: 1737-1741.
    [34] HAYAT N, IMRAN M. Ghost-Free multi exposure image fusion technique using dense SIFT descriptor and guided filter[J]. Journal of Visual Communication and Image Representation, 2019, 62: 295-308.
    [35] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118. doi:  10.1016/j.inffus.2019.07.011
    [36] ROBERTS J W, AARDT J V, AHMED F B. Assessment of image fusion procedures using entropy, image quality, and multispectral classification[J]. Journal of Applied Remote Sensing, 2008, 2(1): 1-28.
    [37] ZHANG F, XIE W, MA G, et al. High dynamic range compression and detail enhancement of infrared images in the gradient domain[J]. Infrared Physics&Technology, 2014, 67: 441-454.
    [38] 谢小甫, 周进, 吴钦章. 一种针对图像模糊的无参考质量评价指标[J]. 计算机应用, 2010, 30(4): 921-924. doi:  10.3724/SP.J.1087.2010.00921

    XIE X F, ZHOU J, WU Q Z. No-Reference quality index for image blur[J]. Journal of Computer Applications, 2010, 30(4): 921-924. doi:  10.3724/SP.J.1087.2010.00921
    [39] PENG H, LONG F, DING C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2005, 27(8): 1226-1238.
    [40] HAN Y, CAI Y, CAO Y, et al. A new image fusion performance metric based on visual information fidelity[J]. Information Fusion, 2013, 14(2): 127-135. doi:  10.1016/j.inffus.2011.08.002
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(12)  / Tables(6)

Article Metrics

Article views(4629) PDF downloads(87) Cited by()

Related
Proportional views

Detail Enhancement-Based Fusion Network for Multi-Energy Digital Radiography Images

doi: 10.12178/1001-0548.2022127

Abstract: To solve the problem that X-ray with single energy could not simultaneously expose each part of a complex workpiece, a multi-energy digital radiography (DR) fusion network based on detail enhancement, namely dual-encoder nest connection-based fusion network, is proposed. In this network, the inception module is used as the basic convolution layer and a trainable LOG (Laplacian of Gaussian) convolution module is designed in the auxiliary branch of the dual-encoder to extract multi-scale edge features and add them to the main branch to enhance the global features. In the training stage, a local energy consistency loss function based on image block is proposed to reduce the local errors of input and output. In the fusion process, channel and spatial attention mechanisms are used as the fusion strategy to fuse the multi-scale enhanced features extracted from dual-encoder, and the fused multi-scale features are input into the nest connected decoder for reconstruction. Experimental results show that the proposed fusion network has the effect of detail enhancement and can reproduce the internal structure and defects of complex workpiece completely and clearly.

LIU Yi, LIU Yuhang, YAN Rongbiao, GUI Zhiguo. Detail Enhancement-Based Fusion Network for Multi-Energy Digital Radiography Images[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 379-389. doi: 10.12178/1001-0548.2022127
Citation: LIU Yi, LIU Yuhang, YAN Rongbiao, GUI Zhiguo. Detail Enhancement-Based Fusion Network for Multi-Energy Digital Radiography Images[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 379-389. doi: 10.12178/1001-0548.2022127
  • X射线数字成像技术(digital radiography, DR)已广泛应用于工业无损检测领域,实现工件内部缺陷的检测[1-3]。然而,对于一些结构不规则、厚度变化范围大的复杂工件,单一能量的X射线无法实现对整个工件同时曝光成像,容易在有效厚度厚的地方呈现曝光不足,在有效厚度薄的地方出现曝光过度的现象,导致被测工件的DR图像质量差、空间分辨率低、结构信息严重缺失[4]

    为了解决单能DR图像信息量不足的问题,国内外研究者进行了多能DR图像融合技术研究,将多能DR图像中的有效信息结合起来,完整清晰地再现复杂工件的内部结构。如文献[5]提出了基于贝叶斯理论的数据融合技术,对双能DR图像进行融合。文献[6-7]针对不同电流得到的高、低能量DR图像,通过极大似然估计的方法获得融合图像。为解决双能DR成像无法满足等效厚度差异特别大的工件检测问题,文献[8]提出了一种变电压扫描的X射线图像融合方法,借助灰度−电压−厚度关系模型对多个能量下的DR图像序列进行加权融合,但此方法所确定的权值不够准确,需要进一步动态调整权值。在此基础上,文献[9]采用主成分分析方法对多能DR图像进行融合,在不需要任何先验知识的情况下,扩展了图像的动态范围。文献[10]提出了一种基于加权最小二乘滤波和引导滤波的铸件DR图像融合方法,通过加权求和的方式融合不同窗宽、窗位的DR图像。除了基于空间的融合方法,多尺度变换被用于图像融合中[11-14]。这类方法首先通过变换提取多尺度特征,然后采用适当的融合策略对多尺度特征进行融合,最后对融合后的特征图像通过逆变换进行重构。如文献[15]针对不同电压下的DR图像利用小波变换进行多尺度分解,然后在小波域内对高、低频分量分别采用不同的规则进行融合,实现了图像动态范围的扩展。然而,多尺度变换方法的融合性能高度依赖于所使用的特征提取方法(变换方法)。基于字典学习的稀疏表示方法在图像融合中取得了较好的效果,这类方法通过提取图像块进行字典训练、稀疏编码,将图像融合问题转化为稀疏系数融合问题。如文献[16]提出了一种基于分类图像块稀疏表示的医学图像融合方法,文献[17]基于稀疏系数得到源图像的全局和局部显著性映射,进而指导红外与可见光图像融合。文献[18]将多尺度变换方法与稀疏表示方法相结合,提出了一种多尺度变换和稀疏表示相结合的通用图像融合框架。对于多能DR图像融合,文献[19]提出了一种基于模糊熵和稀疏表示的图像融合方法,利用模糊熵设计融合权重对稀疏系数融合,通过调节参数可以获得对比度较高的融合效果,但该方法会在灰度陡变处引入严重的黑色晕影。

    随着深度学习技术的发展,许多基于神经网络的图像融合方法被提出。一种较为简单的方法是利用预训练的卷积神经网络进行特征提取,以获得特征权重图,然后以加权融合方式得到最终结果[20-22]。但是这些方法本身没有训练阶段,采用的预训练模型可能并不适合融合任务,相比之下,通过训练合适的图像融合模型可以获得更好的融合性能。如文献[23]针对红外与可见光融合任务,提出了一种基于稠密块和自编码器结构的融合框架DenseFuse。文献[24-26]基于生成抵抗网络(generative adversarial network, GAN)分别提出了FusionGAN、FusionGANv2和DDcGAN网络,对红外与可见光具有良好的融合效果。文献[27]在Unet++巢式连接结构的基础上,提出了一种基于注意力机制的融合网络(NestFuse)[28],在细节信息保存方面有很好的性能,紧接着在NestFuse基础上提出了基于残差融合网络的融合训练策略[29],通过两阶段的训练策略来训练融合网络。

    然而上述基于神经网络的融合方法多是针对红外/可见光图像融合任务、多焦点融合任务提出的,针对多能DR图像的融合网络较少,若直接将上述网络用于多能DR图像融合,并不能得到清晰的融合结果。这是由于DR图像本身具有对比度低、边缘不清晰等特点,即使能够提取多尺度深度特征,也无法改变源图像对比度低、细节不清的事实。针对上述问题,本文提出了一种基于细节增强的双编码巢式连接融合网络。该网络采用Inception结构[30]作为基础卷积块,在巢式连接架构的基础上,设计了密集连接的双编码特征提取网络。为增强融合图像的细节,在双编码器的辅支路中设计了一个可训练的边缘检测LOG卷积模块,用于提取边缘和细节特征,并对主支路提取的图像特征进行补充和增强。在训练阶段,为提高网络性能,提出了一种基于图像块的局部能量一致性损失函数,以减少编解码网络输出与输入的局部性误差。融合时,采用通道和空间注意力机制作为融合策略,对双编码提取的多尺度增强特征进行融合,并将融合后的多尺度特征输入嵌套连接的解码器进行重构。该网络可以对任意多幅DR图像进行融合,融合后的DR图像具有细节增强效果,能够完整清晰地再现复杂非等厚工件的内部结构。

    • 巢式连接架构最初被用于医学图像分割任务[27]。在深度学习网络中,跨越连接可以保留更多信息,然而当跨越连接的跨度较长时,语义鸿沟会造成不理想的结果。因此,巢式连接采用上采样和短跨越的连接方式代替长跨越连接,如图1所示。

      巢式结构利用密集的跨越连接可以限制特征图之间语义鸿沟的负面影响,同时让更多的信息被保留,从而获得更好的融合结果。

    • Inception模块通过多个卷积核提取图像不同尺度的信息进行融合,得到图像更好的表征。如图2所示,Inception模块具有4条分支,其中每个卷积块均由卷积层、激活函数和批量归一化层组成。每条支路都使用1×1卷积核来降低通道数,减少参数量,前3条支路具有3种不同大小的感受野,即1×1、3×3和5×5,其中第3条支路用两个3×3卷积核代替5×5卷积核,在达到相同作用的同时进一步减少参数量。对于第4条支路,虽然与第2条支路的感受野相同,获得相同维数的输出,但输出的内容却不同,增加了特征融合的多样性。最终,将4条支路上提取的不同尺度特征累加作为Inception模块的输出。Inception模块使得网络的深度和宽度也都得到了增加,提升了网络的泛化能力。

    • 本文提出的融合网络采用巢式连接架构,网络结构框架如图3所示,包含3个部分:编码器、融合策略以及解码器。为了在提取特征时能够捕获更大的感受野,使提取特征的语义更加丰富,编码器和解码器中的卷积块均采用Inception模块作为卷积块,实现多尺度特征提取和重构。

      编码器是由特征提取的主支路和边缘特征提取的辅支路组成的双支路网络,如图4所示。编码器中右侧的主支路先用一个1×1卷积层增加输入图像的特征通道数,然后用4个卷积块提取图像的全局特征,每个卷积块的输出通过最大值池化进行下采样,以获取网络传输方向上的多尺度特征。为增强特征复用能力,编码器在主支路上添加密集的旁路连接。左侧的辅支路用于提取边缘和细节特征,在该支路中,本文在5×5的LOG边缘检测算子的基础上,通过逐元素乘以一个学习因子$ \alpha $,设计了可训练的LOG卷积层,如图5所示。在LOG算子的基础上设计可训练边缘提取层,是因为LOG算子在检测边缘时可实现对噪声的抑制,防止噪声对边缘特征的干扰。$ \alpha $初始值设为1,通过网络反向传播机制,其数值可随网络训练自适应地调整。LOG卷积在单通道上享有同一可学习因子$ \alpha $,但不同通道上的$ \alpha $经训练后不再相同。LOG卷积逐通道作用于输入图像,由于每个通道的$ \alpha $不同,输出包含不同强度边缘信息的特征图。边缘特征提取辅支路首先经过LOG层提取浅层边缘特征,然后经过4个卷积块并采用密集的旁路连接提取深层多尺度边缘细节信息。辅支路结构与主支路结构对称,因此对应深度的特征图具有相同维度。为增强图像细节特征,本文将辅支路各层的输出特征图都添加到主支路的对应层的特征图上,对主支路提取的图像特征进行补充和增强,得到多尺度增强特征图。最后,添加了边缘特征信息的各层特征图进入解码器重构图像。

      解码器网络由6个卷积块和一个卷积层组成,上采样采用插值方法,并采用巢式连接结构将6个卷积块连接起来,让解码器中深层的特征图和编码器中浅层的特征图相结合,避免了编码器和解码器之间的语义鸿沟,保证编码器网络能够在不同尺度上提取更多的深度特征,保留更多的信息,以获得更好的融合结果。

    • 本文提出的融合方法为两阶段:网络训练阶段和融合阶段。在训练阶段,图3中编解码器间的融合策略被移除,网络只包含编解码器,通过训练得到一个自动编解码器网络,训练框架如图6所示。在这个网络中,编码器能够提取多尺度的、边缘增强的深度特征,解码器从这些特征中重建输入图像,网络参数设置如表1所示。

      在训练阶段,为了提高编解码器网络的性能,本文提出了一种新的基于图像块的损失函数,称为局部能量一致性损失$ {L_{{\text{patch}}}} $,其定义为输入图像和输出图像“局部能量图”的$ {L_{\text{1}}} $范数值,具体为:

      式中,$ {E_{{\text{local}}}} $为局部能量函数;$ {E_{{\text{local}}}}\left( {\boldsymbol{I}} \right) $$ {E_{{\text{local}}}}\left( {\boldsymbol{O}} \right) $分别为输入图像I和输出图像O的“局部能量图”;$ {E_{{\text{local}}}}\left( {{\boldsymbol{I}}\left( {x,y} \right)} \right) $为图像I中像素点$ \left( {x,y} \right) $的局部能量;$ {N_{x,y}} $为像素点$ \left( {x,y} \right) $的邻域,能量图中的每一个点由图像I中该点像素与其8邻域像素的差值平方和计算得到。

      器件 卷积块大小步长输入通道数输出通道数
      编码器LOG层卷积层31164
      卷积块E11卷积块E12--6464
      卷积块E21卷积块E22--12864
      卷积块E31卷积块E32--19264
      卷积块E41卷积块E42--25664
      解码器卷积块D31--12864
      卷积块D21--12864
      卷积块D22--19264
      卷积块D11--12864
      卷积块D12--19264
      卷积块D13--25664
      卷积层31641

      由于局部能量一致性损失$ {L_{{\text{patch}}}} $是基于图像块计算得到的,它体现了网络输出与输入的局部性误差。本文将其与基于像素一致性的损失函数一起指导网络训练,复合损失函数定义为:

      式中,$ \lambda $为权重参数;$ {L_{{\rm{pixel}}}} $为基于像素水平的全局一致性损失函数,其定义为:

      $ {L_{{\text{pixel}}}} $计算了IO的Frobenius范数,可以保证编解码网络的重构图像在像素级水平上更接近输入图像。$ {L_{{\text{pixel}}}} $体现了网络输出与输入的全局性误差,而局部能量一致性损失$ {L_{{\text{patch}}}} $体现了网络输出与输入的局部性误差。因此,复合损失函数不仅可以在全局一致性方面指导网络训练,也可以在局部一致性方面进行约束。由于$ {L_{{\text{pixel}}}} $$ {L_{{\text{patch}}}} $之间的数量级不同,利用$ \lambda $权衡$ {L_{{\text{pixel}}}} $$ {L_{{\text{patch}}}} $之间的比例。

      网络训练时,为了能够训练出更适用于DR图像的编码器网络和解码器网络,采集了8000张1024×1024的DR图像作为训练数据集,这些图像来自7种不规则工件的多能DR图像,由于图像尺寸较大,DR图像先被缩放到256×256大小,然后再输入网络进行训练。本文使用SGD算法对损失函数进行了优化,学习率初始化为10−4,每2个epoch下降为上一次学习率的1/3,复合损失函数的权重参数$ \lambda $设为10,训练总次数设为10 epoch。参数$ \lambda $的数值通过多次实验后设定,实验时设置了不同数量级的$ \lambda $(1, 10, 100, 1000, 10000),实验结果证实:当参数$ \lambda $=10时,融合结果在人眼视觉和质量评价参数方面整体最优。本文网络参数存储空间为13.79 MB。

      实验平台采用配置为Intel Core i9-10900K CPU,主频3.7 GHz,运行内存64 GB以及NVIDIA RTX3090显卡,搭载64位Windows10系统的台式机,编程环境为Python 3.9.2,深度学习工具包为Pytorch 1.8.1。

    • 训练阶段的目的是获得自动编解码器网络,并没有对多能DR图像进行融合。融合时,在训练好的编码器和解码器之间添加融合策略,对双编码提取的多尺度增强特征进行融合,并将融合后的多尺度特征输入到解码器进行重构。

      本文采用基于通道注意力和空间注意力的融合策略。空间注意力告诉网络“融合哪里”,而通道注意力告诉网络“融合什么”,两种融合机制互补,从而抑制图像中曝光不足、过曝光等不良区域,同时突出待融合图像中良好的特征区域。由于基于注意力机制的融合策略不需要学习参数,因此在训练阶段不需要对融合策略进行训练。

      本文提出的融合网络可对多张DR图像进行融合,假设将待融合的K张不同能量的DR图像输入模型,由于输入的图像数量是K张,编码器的每一层多尺度Inception结构都会输出K组特征图,利用融合策略对每一层的K组特征图进行融合,即融合策略模块的输入为K组特征图。令$ {\boldsymbol{\varPhi }}_k^m \in {R^{W \times H \times C}} $(m∈{1,2,3,4}, k∈{1,2,···,K})表示第k组第m层的特征图,WHC分别为该层特征图的长、宽及通道数。对每一层的K组特征图分别使用通道注意力模块和空间注意力模块进行融合,并将两个融合模块的输出取均值,作为特征图融合结果,融合过程如图7a所示。

      通道注意力模块使用平均池化对K组特征图$ {\boldsymbol{\varPhi }}_k^m \in {R^{W \times H \times C}} $计算各自的通道注意力系数$ {\overset{\frown} \beta } _k^m \in {R^{{\text{1}} \times {\text{1}} \times C}} $,如式(5)所示,然后用当前特征图的注意力系数除以所有注意力系数之和得到归一化的通道注意力系数$ \beta _k^m \in {R^{{\text{1}} \times {\text{1}} \times C}} $,并以此作为通道融合的权重,如式(6)所示。再将特征图与归一化的通道注意力系数相乘、累加,得到通道方向上的特征融合结果$ {\boldsymbol{\tilde \varPhi }}_f^m \in {R^{W \times H \times C}} $,如式(7)所示。

      式中,P(·)是全局池化操作;c∈{1,2,···,c}为特征图$ {\boldsymbol{\varPhi }}_k^m $和注意力系数$ \beta _k^m $的第c个通道。通道方向上的融合过程如图7b所示。

      除了通道方向上的融合外,基于空间注意力模块进行多尺度特征图融合。类似地,首先对K组特征图$ {\boldsymbol{\varPhi }}_k^m \in {R^{W \times H \times C}} $计算各自的空间注意力系数$ {\overset{\frown} h} _k^m \in {R^{W \times H \times 1}} $,如式(8)所示,然后用当前特征图的空间注意力系数除以所有空间注意力系数得到归一化的空间注意力系数$ h_k^m \in {R^{W \times H \times 1}} $,如式(9)所示,并将其复制C个通道以匹配特征图的维度,输出的空间注意力系数为$ h_k^m \in {R^{W \times H \times C}} $。再将特征图与对应的空间注意力系数相乘、累加,得到空间注意力融合策略的结果$ {\boldsymbol{\hat \varPhi }}_f^m \in {R^{W \times H \times C}} $,如式(10)所示,融合过程如图7c所示。

      式中,||·||1指L1范数;(x,y)指多尺度特征的对应位置。

      然后将两个融合模块的输出取均值,作为该层最终的特征融合结果$ {\boldsymbol{\varPhi }}_f^m $

    • 为验证本文所提网络的性能,对没有参与训练的3种工件,在不同X射线电压下分别采集7个照射角,共21组DR图像进行测试,采集参数如表2所示。图8显示了来自3种测试工件的3组待融合图像,可以看出,当电压较小时,DR图像中较厚的区域较黑,难以感知该部分的细节信息;当电压增大时,厚区域的细节能够依次显现出来,但是薄区域处产生了过曝光。为了验证算法的可行性与有效性,将提出的融合网络与现有的9种融合方法进行对比,这些对比方法包括:基于结构块分解的多曝光图像融合[31]、基于多尺度结构块分解的多曝光图像融合[32]、基于自适应权值的多曝光图像融合[33]、基于密集SIFT和引导滤波的多曝光图像融合[34]、多尺度变换和稀疏表示的图像融合[18]、基于模糊熵和稀疏表示的图像融合方法[19]、IFCNN网络[35]、DenseFuse网络[23]以及NestFuse网络[27]。上述这些融合方法均在公开的代码基础上实现,前6种方法为传统方法,相关参数根据能达到的最优视觉效果进行设置,后3种为基于深度学习的融合方法,均在本文的DR数据集上进行训练得到融合网络模型。

      工件 能量个数图像大小电压/Kvp电流/mA
      工件131024×1024150、190、2401
      工件231024×1024120、140、1801
      工件321024×1024120、1401
    • 图9~图11显示了不同融合方法对图8中3组待融合DR图像的融合结果。为了更好地观察融合结果,截取感兴趣区域(region of interest, ROI)并放大显示在图中的顶部或底部,ROI由矩形标记。可以看出,基于结构块的方法(文献[31]和文献[32])得到的融合图像具有较好的对比度和完整性,但细节对比度有待提高,如图9a10a11a图9b10b11b所示。自适应权值方法(文献[33])的融合图像整体灰度值较低,工件中厚的区域较暗,边界比较模糊,如图9c10c11c所示。文献[34]方法的融合图像整体较亮,工件中较厚区域比较清晰,但是工件较薄区域过于明亮,不能很好地显示细节部分,如图9d所示。相比之下,两种基于字典学习和稀疏表示的融合方法(文献[18]和文献[19])在结构完整性方面比前几种方法好,能够保留一些细小的结构,如图9d图9f中箭头指向的部位。特别是文献[19]的方法,在对比度方面有了很大的提升,不足的是该方法在灰度陡变处产生了黑色晕影,如图9f中椭圆所圈之处。IFCNN、DenseFuse和NestFuse这3种融合网络的整体融合效果相近,其中IFCNN的对比度稍好,但仍然无法清晰地显示较厚区域的内部结构。图9j10j11j为利用本文提出的融合网络得到的融合图像,不仅工件的结构信息完整,而且对比度较高,图像完整清晰地显示复杂工件的信息。

      为了进一步验证算法的可行性与有效性,本文采用多种量化指标对不同方法的融合结果进行定量分析,包括:熵(Entropy)[36]、平均梯度(average gradient, AG)[37]、无参考结构清晰度(no-reference structural sharpnes, NRSS)[38]、互信息(mutual information,MI) [39]以及基于视觉感知一致性的视觉信息保真度(visual information fidelity, VIF)[40]。熵值体现了图像中的信息量,熵越大表示图中包含的信息越多。AG体现了图像中的边缘锐度,AG越大表明边缘越清晰。NRSS利用低通滤波器为待评估图像构造参考图像,进而通过评价参考图像与待评估图像的结构相似度来评价图像的清晰度,NRSS越大表明图像结构越清晰。AG、NRSS和Entropy值均为无参考图像的质量评价指标,而MI和VIF为需要参考图像的质量评价指标,分别表示融合图像与源图之间的相关性以及保真度,MI和VIF越大表明融合图像保留了源图像中更多的特征信息。

      表3表5列出了图9图11中不同方法融合结果的质量评价参数,最好的指标值用粗体标记。可以看出,在每一组实验中,本文提出的融合网络都有最多的最优值和次优值,表明提出的融合网络能够在融合后的图像中保留更多的细节信息和特征信息。

      本文方法是基于深度学习的融合网络,因此对几种网络方法进行了融合时间对比:当融合两张图时,本文方法为1.80 s,Densefuse为0.96 s,NestFusion为1.10 s,IFCNN为1.00 s。由于本文采用了双路编码器,因此融合时间比其他3种网络方法长。

      融合方法EntropyAGNRSSMIVIF
      文献[31]4.94931.43380.740517.95980.9529
      文献[32]5.60361.56960.812916.81901.0065
      文献[33]5.81511.31810.823018.65620.7609
      文献[34]5.44751.40150.822816.47950.8458
      文献[18]5.09471.55970.800118.44860.9481
      文献[19]5.88551.72820.806317.65651.0729
      IFCNN5.83592.21080.795920.81861.0562
      DenseFuse6.09221.47220.790118.27650.8523
      NestFuse6.05051.44010.798118.15150.8473
      本文网络6.55172.60920.805919.65501.1242
      融合方法EntropyAGNRSSMIVIF
      文献[31]6.27790.92450.806418.83360.9265
      文献[32]6.42440.97800.770319.27330.9436
      文献[33]6.27420.90760.791918.82260.9097
      文献[34]6.37790.92160.791919.13360.9342
      文献[18]6.37750.97630.780019.13250.9343
      文献[19]5.28062.14310.848515.84191.3851
      IFCNN6.27330.90990.802818.82000.9077
      DenseFuse6.49930.89860.793619.49790.9884
      NestFuse6.60820.87610.791019.82460.9666
      本文网络6.54402.38550.821419.63201.5593
      融合方法EntropyAGNRSSMIVIF
      文献[31]7.16141.10170.746014.32281.0852
      文献[32]7.36841.14480.733114.73691.1701
      文献[33]7.29370.98800.729514.58751.0041
      文献[34]7.23601.07460.739414.47201.1266
      文献[18]7.34171.21620.771614.69571.1893
      文献[19]6.98492.49310.794913.97791.1702
      IFCNN7.31521.00410.690714.63040.9773
      DenseFuse7.09070.90100.732314.18140.9981
      NestFuse7.09950.96440.752114.19901.0916
      本文网络7.31503.11030.851014.63001.9059
    • 本文提出的双编码巢式连接融合网络与NestFuse均是在巢式连接架构的基础上提出来的,与NestFuse相比,在编解码器中采用多尺度Inception结构作为基础卷积块,代替了NestFuse网络中的两层卷积操作,并在编码器中通过设计LOG卷积模块增加了边缘特征提取支路。为了研究不同模块对网络性能的影响,本文进行了一组消融实验。记A表示在本文提出的损失函数指导下进行训练的NestFuse网络,B表示在本文网络的基础上去掉编码器中的边缘提取支路网络,C表示本文提出的融合网络。将AB两个网络在8000张DR图像组成的数据集上进行训练,并从量化指标与视觉效果两方面比较其与本文网络的测试结果。

      本文利用5个质量指标对消融网络的融合性能进行评价,表6给出了消融网络及本文网络对21组DR图像融合结果的平均质量评价指标,指标的最好值用粗体标出。从表6中可以看出,BA的指标接近,除了VIF外,其他指标都略高于A,说明Inception结构可以在一定程度上提高网络的融合性能。相比之下,C的编码器中增加了边缘特征提取支路,除了Entropy小幅度提高,其他融合指标都有明显的提升,说明边缘特征提取支路在融合图像中的对比度体现方面起着决定性作用。

      网络 IncepLOGEntropyAGNRSSMIVIF
      A××6.37111.02700.778617.68830.9422
      B×6.48161.03060.793418.01470.9402
      C6.55812.28540.848218.21121.3140

      消融网络融合图像的视觉效果如图12所示,显示了ABC网络对图8中的3组DR图像的融合效果,可以看出A网络和B网络的融合结果相似,但都不具备增强效果,而本文网络降噪图像更清晰、对比度更强,说明本文网络具有更好的融合性能。

    • 本文提出了一种基于细节增强的多能DR融合网络。该融合网络不仅能够完整再现复杂工件的内部结构,而且增强了融合图像的细节,便于发现工件内部的缺陷。

      然而,本文提出的融合网络是通过两阶段实现的,即网络训练和融合过程是分开进行的,并没有对融合策略模块进行训练,未来需要改进融合策略,加入能够训练的网络模块,实现端到端的融合网络。

Reference (40)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return