-
图像融合是指将同一场景下不同模式的传感器或同一种传感器在不同时刻或方式下获得的几幅图像合成一幅包含所有输入图像中人们感兴趣的信息图像处理方法[1]。红外与可见光图像融合是多源图像融合的一个重要分支,它将红外图像的目标探测特性与可见光图像的场景保持特性相结合,既可克服单一可见光图像对光照条件的强依赖性,又能克服单一红外图像对比度低、背景模糊的缺点。利用图像融合技术将红外与可见光图像进行融合,可以提高图像理解和识别效率,在军事、视频监控、医疗和消防等领域有着重要的研究价值和应用前景[2]。
多尺度分析提供了一种具有灵活局部性和方向性的多分辨图像表示方法。近年来,随着多尺度分析工具的发展,以小波变换及其一系列改进方案 (例如非下采样轮廓波变换 (NSCT) 与非下采样剪切波变换 (non-subsampled shearlet, NSST)) 等为代表的多尺度分析工具已经成功应用于图像融合领域[3]。其中NSCT[4]不仅具有多尺度、多方向特性,还具有良好的空域和频域局部特性,能够更好地捕获图像中重要的几何特征。由于NSCT良好的稀疏性能和工程化的实现方式,其作为一种十分有效的多尺度分析工具得到广泛应用。
近年来,随着视觉显著性成为研究热点,国内外学者们提出了多种显著性模型[5],有学者将其应用到图像融合领域[6-9],取得了较好的效果。文献[6]提出了一种基于马尔可夫随机场模型的红外图像显著性检测方法,并将其运用于图像监控系统中的红外与可见光图像融合,但其融合图像中容易产生伪影。文献[7]利用频谱冗余显著性检测方法 (spectral residual, SR)[10]检测红外和可见光图像的显著性,提出了一种基于感兴趣区域检测和NSCT的红外与可见光图像融合算法。红外图像与自然场景下的图像相比图像分辨率较低,将SR显著性检测方法用于红外图像时显著性检测效果不够理想。文献[8]对红外与可见光图像应用显著性检测 (luminance contrast, LC) 算法[11],提出了基于显著性分析和图像多尺度边缘保持分解的红外与可见光图像融合算法。文献[9]在文献[8]的基础上,运用frequency-tuned (FT) 算法[12],结合基于L1-L0梯度的图像分解技术[9],提出了一种改进的红外与可见光图像融合算法。文献[8-9]具有较好的目标保持特性,然而由于非显著性区域也可能由于具有较大的显著性值而被视为显著性区域,融合后的图像丢失了较多的背景细节成分。
针对这些问题,本文利用图像引导滤波器[13]良好的滤波特性和边缘保持特性,对FT算法进行了改进,并且结合NSCT的平移不变性,提出了一种基于改进FT和NSCT的红外与可见光图像融合算法。
-
Frequency-tuned[12]显著性检测算法提出了5点要求:1) 突出最显著目标;2) 均匀地突出整体的显著性区域;3) 能较好地定义显著目标的边界;4) 忽略来自纹理、噪声和块效应的高频成分;5) 有效地输出全分辨率的显著性图。
为了实现上述要求,FT算法采用高斯差分滤波方法,经过分析选择频率范围 (0, π/2.75]来实现[12]。
对于一幅输入图像,其显著性图计算为:
$$ S(x, y) = \left\| {{I_\mu }-{I_{{\rm{whc}}}}(x, y)} \right\| $$ (1) 式中,Iμ为输入图像I中所有像素的平均值;${I_{{\rm{whc}}}}(x, y)$为输入图像I经过高斯模糊滤波 (窗口大小取5×5) 之后在像素位置 (x, x) 处的像素值;||·||采用欧式距离计算。
-
图像引导滤器 (guided filter)[13]是一个线性移变滤波器。设输入图像为p,引导图像为I,滤波器输出图像为q,其中引导图像I根据不同应用设定,可以直接取为输入图像p。图像引导滤波的计算公式为:
$$ {q_i} = \sum\limits_j {{W_{ij}}} (I)p{}_j $$ (2) 式中,i和j为像素索引值;Wij为滤波核函数,其表达式为:
$$ {W_{ij}}(I) = \frac{1}{{{{\left| \omega \right|}^2}}}\sum\limits_{k:(i, j) \in {\omega _k}} {\left( {1 + \frac{{({I_i}-{\mu _k})({I_j}-{\mu _k})}}{{\sigma _k^2 + \varepsilon }}} \right)} $$ (3) 式中,|ω|为窗口内的像素个数;ωk为第k个核函数窗口;μk和σk2是引导图像I在窗口内的均值和方差;ε为平滑因子。
-
原FT算法[12]利用高斯模糊滤波器对输入图像进行了模糊处理。相对于高斯核函数,引导滤波核函数使用了邻域内的像素均值和方差作为局部估计,能够根据图像内容自适应调整输出权值,具有良好的边缘保持和细节增强性能。本文在FT算法的基础上,利用引导滤波器对其进行了改进:
$$ S(x, y) = \left\| {{I_\mu }-{I_{{\rm{Guided}}}}(x, y)} \right\| $$ (4) 式中,${I_{{\rm{Guided}}}}(x, y)$为输入图像I经过引导滤波后的输出。本文中引导图像与输入图像I相同。
图 1为红外图像经过不同显著性检测方法得到的显著性图,其中SR方法、LC方法及FT方法分别为文献[7-9]中所应用的显著性检测算法。通过比较可以看出,本文改进的显著性检测方法既提取出了红外图像的目标信息又保持了其边缘细节,同时充分抑制了红外图像的背景信息。
-
本文首先应用引导图像滤波器对显著性检测FT算法进行改进,再运用改进后的显著性检测算法检测红外图像的显著性图;然后分别对红外图像和可见光图像进行NSCT变换,利用红外图像的显著性图指导低频子带系数的融合,高频子带系数采用绝对值取大的方法;最后通过NSCT反变换得到融合后的图像。
-
NSCT是由文献[4]在contourlet变换的基础上提出的,基于NSCT变换的图像分解分为多尺度分解和多方向分解两个部分。NSCT分解的结构示意图如图 2所示,首先采用非下采样金字塔滤波器组 (non subsampled pyramid filter bank, NSPFB) 对源图像进行多尺度分解,得到低通子带图像L1和带通子带图像P1;然后利用非下采样方向滤波器组 (non subsampled direction filter bank, NSDFB) 将带通子带图像分解为多个方向的带通子带P12图像,实现图像的多方向分解;最后对每一层的低通子带图像重复上述操作,得到源图像的多层子带分解。例如低通子带图像L1经过NSPFB进一步分解为低通子带图像L21和带通子带图像P21,P21再经过NSDFB分解为多个方向的带通子带图像P22。在图像的分解和重构过程中,NSCT没有经过采样操作,各个子带图像与源图像的尺寸大小保持一致,保证了NSCT的平移不变性,解决了频谱混叠和吉布斯现象。
-
假设红外图像IIR和可见光图像ITV经过NSCT变换之后的子带系数分别为{$C_{{j_0}}^{{\rm{IR}}}(m, n)$,$C_{j, l}^{{\rm{IR}}}(m, n)$$(j \ge {j_0})$}和{$C_{{j_0}}^{{\rm{TV}}}(m, n)$,$},融合图像的子带系数为{$C_{{j_0}}^F(m, n)$,$C_{j, l}^F(m, n)$$(j \ge {j_0})$},其中$C_{{j_0}}^{}(m, n)$为低频子带系数,$C_{j, l}^{}(m, n)$为各高频子带系数。
-
由于NSCT的平移不变性,图像经NSCT分解之后低频图像的大小与原图像大小相同。基于NSCT的这一重要特性,并且为了将红外图像的目标指示特性和可见光图像丰富的背景信息充分结合起来,本文提出了一种基于NSCT和改进FT显著性检测方法的低频融合规则。首先通过引导滤波器改进的FT显著性检测算法计算红外图像的显著性图,然后利用显著性图来指导低频子带系数的融合。
红外与可见光低频融合策略可以表示为:
$$ \begin{array}{l} C_{{j_0}}^F(m, n) = {\omega _{{\rm{IR}}}}(m, n)C_{{j_0}}^{{\rm{IR}}}(m, n)\; + \\ {\omega _{{\rm{TV}}}}(m, n)C_{{j_0}}^{{\rm{TV}}}(m, n) \end{array} $$ (5) 式中,
$$ {\omega _{{\rm{IR}}}}(m, n) + {\omega _{{\rm{TV}}}}(m, n) = 1 $$ (6) $$ {\omega _{{\rm{IR}}}}(m, n) = {\rm{Smap}}(m, n) $$ (7) 式中,Smap (m, n) 为红外图像的显著性图S (x, y) 归一化到[0,1]之后的值。
-
图像的高频子带系数反映了图像的边缘或细节等突变特性。对于图像的边或细节等突变部分,图像高频子带系数的绝对值一般较大;相反,对于图像中较为平滑的部分,高频系数的绝对值则比较小或在零值附近。因此,本文高频融合规则仍采用绝对值取大法这一广泛应用的高频融合策略,如式 (8) 所示:
$$ C_{j, l}^F(m, n) = \left\{ \begin{array}{l} C_{j, l}^{{\rm{IR}}}(m, n)\;{\rm{ }}\;\left| {C_{j, l}^{{\rm{IR}}}(m, n)} \right|\; \ge \left| {C_{j, l}^{{\rm{TV}}}(m, n)} \right|\\ C_{j, l}^{{\rm{TV}}}(m, n)\;\;\;其他 \end{array} \right. $$ (8) -
为验证算法的有效性,本文采用了UN camp1图像、Dune图像、Sea图像、OCTEC图像和Battlefield这5组图像经过严格配准的红外与可见光图像进行实验,避免了图像配准误差对融合算法性能的影响。
本文算法与以下7种算法进行了对比:基于discrete wavelet transform (DWT)、stationary wavelet transform (SWT)、curvelet transform (CVT) 和NSCT的图像融合[14]、低频融合规则采用加权平均、高频融合规则采取绝对值取大的算法,文献[8]和文献[9]中的算法、原FT+NSCT的基本算法。图像融合中DWT、SWT、CVT和NSCT的参数均采用文献[14]建议的最佳参数设置。具体设置如下:DWT选择滤波器“db1”,分解层数为3层;SWT选择滤波器“bior2.2”,分解层数为4层;CVT分解层数为{4, 4, 3};NSCT选择“pyrexc”拉普拉斯滤波器,选择方向滤波器“cd”,分解层数为{2, 3, 3, 4};本文算法中,引导滤波器的参数设置如下:局部窗口半径r=8,修正参数eps 100/(m×n),其中m×n为输入图像的大小。
-
图 3~图 7给出了不同融合算法得到的融合结果。图中圆圈区域为融合图像的目标信息,方框区域为融合图像的部分背景信息。从图像的整体融合效果来看,各融合图像均基本提取出了红外图像中的目标信息,但是采用低频加权平均的方法时,融合图像中目标的亮度较低,同时融合图像背景则由于融合了过多的红外信息而使图像的对比度较低,丢失了过多的可见光图像中的丰富背景信息。通过图中椭圆区域的目标信息和方框区域中的部分背景信息的比较可以看出,本文算法在保持红外图像中目标特性的同时,较其他算法融合了更多的可见光的背景信息。综上所述,本文算法具有较好的主观融合效果。
-
为了客观地评价融合图像的性能,本文采用归一化互信息 (normalized mutual information, NMI)[15]、峰值信噪比 (peak signal to noise ratio, PSNR)、交叉熵 (cross entropy, CE) 和结构相似度 (structural SIM ilarity, SSIM)[16]这4项图像评价指标。NMI体现了融合结果对原始图像信息的保持程度,数值大则融合图像获取源图像的信息多;PSNR可度量结果图像中的噪声情况,数值大说明融合效果好;CE可衡量两幅图像间的差异,数值小则融合图像与源图像间的差异小;SSIM多用来评价图像信号的结构相似性,数值大则融合图像在亮度、对比度和结构上的失真小。
表 1给出了5组实验图像的客观质量评价指标。从融合图像的各项客观评价指标来看,本文提出的算法具有最佳的融合效果,5组图像的各项指标均优于其他比较算法。此外,本文算法结果优于原FT+NSCT的基本算法的结果,说明了本文的改进对于红外与可见光图像融合是相当有效的。
表 1 融合图像客观质量评价
算法 NMI PNSR CE SSIM DWT 0.354 2 37.632 9 2.950 8 0.759 5 SWT 0.343 1 37.635 3 3.024 0 0.785 3 CVT 0.355 4 37.789 4 3.150 4 0.783 8 NSCT 0.361 6 37.682 6 2.955 5 0.790 9 文献[8]算法 0.451 9 30.364 4 2.746 8 0.770 2 文献[9]算法 0.382 0 32.711 8 2.535 8 0.786 4 原NSCT+FT方法 0.488 4 42.772 8 1.994 8 0.843 2 本文算法 0.491 4 42.867 5 1.992 3 0.843 8
Infrared and Visible Image Fusion Based on Visual Saliency and NSCT
-
摘要: 结合非下采样轮廓波变换的平移不变性,提出了一种基于视觉显著性的红外与可见光图像融合算法。首先,利用引导滤波器改进显著性检测算法并将其用于红外图像;然后,对红外图像和可见光图像进行非下采样轮廓波变换以得到各自的低频与高频子带;最后,在低频与高频子带的融合中分别采用红外图像显著性指导法与绝对值取大法。实验结果表明,与多种相关算法相比,该算法所得融合图像在突出红外目标的同时还具有丰富的可见光背景信息,具有更好的视觉融合效果和客观质量评价。Abstract: An infrared and visible image fusion algorithm is proposed based on visual saliency and non-subsampled contourlet transform (NSCT). At first, the frequency tuned saliency detection method is improved by guided filter and applied to detect the saliency of infrared image. Then the infrared and visible light images are decomposed into low frequency and high-frequency sub-bands by NSCT. Finally the saliency map of infrared image is used to guide the fusion in low frequency sub-band, and the rule of maximum absolute value selection is used for the fusion in high frequency sub-band. Experimental results demonstrate that compared to several other algorithms, the proposed method highlights the IR targets and at the same time makes the fusion images have rich background information, and better visual fusion effects and objective quality evaluations are obtained.
-
Key words:
- guided filter /
- image fusion /
- NSCT /
- saliency
-
表 1 融合图像客观质量评价
算法 NMI PNSR CE SSIM DWT 0.354 2 37.632 9 2.950 8 0.759 5 SWT 0.343 1 37.635 3 3.024 0 0.785 3 CVT 0.355 4 37.789 4 3.150 4 0.783 8 NSCT 0.361 6 37.682 6 2.955 5 0.790 9 文献[8]算法 0.451 9 30.364 4 2.746 8 0.770 2 文献[9]算法 0.382 0 32.711 8 2.535 8 0.786 4 原NSCT+FT方法 0.488 4 42.772 8 1.994 8 0.843 2 本文算法 0.491 4 42.867 5 1.992 3 0.843 8 -
[1] GOSHTASBY A A, NIKOLOV S. Image fusion:Advances in the state of the art[J]. Information Fusion, 2007, 8(2):114-118. doi: 10.1016/j.inffus.2006.04.001 [2] TOET A, HOGERVORST M A, NIKOLOV S G, et al. Towards cognitive image fusion[J]. Information Fusion, 2010, 11(2):95-113. doi: 10.1016/j.inffus.2009.06.008 [3] KONG W, ZHANG L, LEI Y. Novel fusion method for visible light and infrared images based on NSST-SF-PCNN[J]. Infrared Physics & Technology, 2014, 65:103-112. https://www.researchgate.net/publication/261718084_Novel_fusion_method_for_visible_light_and_infrared_images_based_on_NSST-SF-PCNN [4] DA C A L, ZHOU J, DO M N. The nonsubsampled contourlet transform:Theory, design, and applications[J]. IEEE Transactions on Image Processing, 2006, 15(10):3089-3101. doi: 10.1109/TIP.2006.877507 [5] BORJI A, ITTI L. State-of-the-art in visual attention modeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1):185-207. doi: 10.1109/TPAMI.2012.89 [6] HAN J, PAUWELS E J, DE ZEEUW P. Fast saliency-aware multi-modality image fusion[J]. Neurocomputing, 2013, 111:70-80. doi: 10.1016/j.neucom.2012.12.015 [7] LIU H, ZHU T, ZHAO J. Infrared and visible image fusion based on region of interest detection and nonsubsampled contourlet transform[J]. Journal of Shanghai Jiaotong University (Science), 2013, 18:526-534. doi: 10.1007/s12204-013-1437-7 [8] ZHAO J, ZHOU Q, CHEN Y, et al. Fusion of visible and infrared images using saliency analysis and detail preserving based image decomposition[J]. Infrared Physics & Technology, 2013, 56:93-99. [9] CUI G, FENG H, XU Z, et al. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition[J]. Optics Communications, 2015, 341:199-209. doi: 10.1016/j.optcom.2014.12.032 [10] HOU X, ZHANG L. Saliency detection:a spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE, 2007:1-8. [11] ZHAI Y, SHAH M. Visual attention detection in video sequences using spatiotemporal cues[C]//Proceedings of the 14th Annual ACM International Conference on Multimedia.[S.l.]:ACM, 2006:815-824. [12] ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE, 2009:1597-1604. [13] HE K, SUN J, TANG X. Guided image filtering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(6):1397-1409. doi: 10.1109/TPAMI.2012.213 [14] LI S T, BIN Y, HU J W. Performance comparison of different multi-resolution transforms for image fusion[J]. Information Fusion, 2011, 12(2):74-84. doi: 10.1016/j.inffus.2010.03.002 [15] HOSSNY M, NAHAVANDI S, CREIGHTON D. Comments on 'information measure for performance of image fusion'[J]. Electronics Letters, 2008, 44(18):1066-1067. doi: 10.1049/el:20081754 [16] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment:From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4):600-612. doi: 10.1109/TIP.2003.819861