Volume 52 Issue 3
May  2023
Article Contents

ZHANG Tianwen, ZHANG Xiaoling, SHAO Zikang, ZENG Tianjiao. A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 357-365. doi: 10.12178/1001-0548.2022415
Citation: ZHANG Tianwen, ZHANG Xiaoling, SHAO Zikang, ZENG Tianjiao. A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 357-365. doi: 10.12178/1001-0548.2022415

A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation

doi: 10.12178/1001-0548.2022415
  • Received Date: 2022-12-10
  • Rev Recd Date: 2023-03-10
  • Available Online: 2023-05-26
  • Publish Date: 2023-05-28
  • The current deep-learning based SAR ship instance segmentation models fail to consider the full level information of features and the context information of targets, which leads to low instance segmentation accuracy. In order to address this problem, a SAR ship instance segmentation method based on a full-level context information squeeze-and-excitation region of interest (ROI) extractor is proposed. This method proposes a novel ROI extractor(ROIE), called FL-CI-SE-ROIE. First of all, FL-CI-SE-ROIE can extract ROI at all levels, which can retain the full level features of the target, thus enhancing the multi-scale description capability of the network. Then, FL-CI-SE-ROIE expands the ROI context information, which can gain the context information of targets, thus enhancing the background identification capability. Finally, FL-CI-SE-ROIE introduces a squeeze and excitation(SE) module, which can balance ROI context information in different ranges, thus suppressing background interference, and further improving the accuracy of instance segmentation. The experimental results on the public polygon segmentation SAR ship detection dataset (PSeg-SSDD) show that the SAR ship instance segmentation accuracy of the proposed method is higher than that of the current 9 comparison models.
  • [1] 李健伟, 曲长文, 彭书娟. 基于级联CNN的SAR图像舰船目标检测算法[J]. 控制与决策, 2019, 34(10): 2191-2197. doi:  10.13195/j.kzyjc.2018.0168

    LI J W, QU C W, PENG S J. A ship detection method based on cascade CNN in SAR images[J]. Control and Decision, 2019, 34(10): 2191-2197. doi:  10.13195/j.kzyjc.2018.0168
    [2] ZHANG T W, ZHANG X L, KE X, et al. LS-SSDD-v1.0: A deep learning dataset dedicated to small ship detection from large-scale sentinel-1 SAR images[J]. Remote Sensing, 2020, 12(18): 2997. doi:  10.3390/rs12182997
    [3] ZHANG T W, ZHANG X L. HTC+ for SAR ship instance segmentation[J]. Remote Sensing, 2022, 14(10): 2395.
    [4] ZHANG T W, ZHANG X L, KE X, et al. Quad-FPN: A novel quad feature pyramid network for SAR ship detection[J]. Remote Sensing, 2021, 13(14): 2771. doi:  10.3390/rs13142771
    [5] ZHANG T W, ZHANG X L, SHI J, et al. Balance scene learning mechanism for offshore and inshore ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 4004905.
    [6] LENG X G, JI K F, YANG K, et al. A bilateral CFAR algorithm for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(7): 1536-1540.
    [7] ELDHUSET K. An automatic ship and ship wake detection system for spaceborne SAR images in coastal regions[J]. IEEE Transactions on Geoscience and Remote Sensing, 1996, 34(4): 1010. doi:  10.1109/36.508418
    [8] TOUZI R, CHARBONNEAU F, HAWKINS R K, et al. Ship-Sea contrast optimization when using polarimetric SARs[C]//IGARSS 2001 Scanning the Present and Resolving the Future. Sydney: IEEE, 2001: 426-428.
    [9] SCHWEGMANN C P, KLEYNHANS W, SLAMON B P. Synthetic aperture radar ship detection using haar-like features[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(2): 154-158. doi:  10.1109/LGRS.2016.2631638
    [10] XIE T, ZHANG W K, YANG L N, et al. Inshore ship detection based on level set method and visual saliency for SAR images[J]. Sensors, 2018, 18(11): 3877. doi:  10.3390/s18113877
    [11] LIN H P, CHEN H, JIN K, et al. Ship detection with superpixel-level fisher vector in high-resolution SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(2): 247-251. doi:  10.1109/LGRS.2019.2920668
    [12] ZHANG T W, ZHANG X L, LIU C, et al. Balance learning for ship detection from synthetic aperture radar remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 182: 190-207. doi:  10.1016/j.isprsjprs.2021.10.010
    [13] ZHANG T W, ZHANG X L. Squeeze-and-Excitation Laplacian pyramid network with dual-polarization feature fusion for ship classification in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 4019905.
    [14] 李男, 叶晓东, 王昊, 等. 基于改进YOLOv5的复杂场景下SAR图像船舶检测方法[J]. 信号处理, 2022, 19(5): 4019905. doi:  10.16798/j.issn.1003-0530.2022.05.013

    LI N, YE X D, WANG H, et al. A ship detection method for SAR images in complex scene based on improved YOLO v5[J]. Journal of Signal Processing, 2022, 19(5): 4019905. doi:  10.16798/j.issn.1003-0530.2022.05.013
    [15] WU W T, LIU H, LI L L, et al. Application of local fully convolutional neural network combined with YOLO v5 algorithm in small target detection of remote sensing image [EB/OL]. [2021-10-29]. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0259283.
    [16] SHAO Z K, ZHANG X L, ZHANG T W, et al. RBFA-Net: A rotated balanced feature-aligned network for rotated SAR ship detection and classification[J]. Remote Sensing, 2022, 14(14): 3345.
    [17] ZHANG T W, ZHANG X L. Injection of traditional hand-crafted features into modern CNN-based models for SAR ship classification: What, why, where, and how[J]. Remote Sensing, 2021, 13(11): 2091. doi:  10.3390/rs13112091
    [18] ZHANG T W, ZHANG X L, SHI J, et al. HyperLi-Net: A hyper-light deep learning network for high-accurate and high-speed ship detection from synthetic aperture radar imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 167: 123. doi:  10.1016/j.isprsjprs.2020.05.016
    [19] WEI S J, ZENG X F, QU Q X, et al. HRSID: A high-resolution SAR images dataset for ship detection and instance segmentation[J]. IEEE Access, 2020, 8: 1. doi:  10.1109/ACCESS.2019.2928059
    [20] SU H, WEI S J, LIU S, et al. HQ-ISNet: High-Quality instance segmentation for remote sensing imagery[J]. Remote Sensing, 2020, 12(6): 989. doi:  10.3390/rs12060989
    [21] GAO F, HUO Y Y, WANG J, et al. Anchor-Free SAR ship instance segmentation with centroid-distance based loss[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 11352-11371. doi:  10.1109/JSTARS.2021.3123784
    [22] ZHANG T W, ZHANG X L, Li J W, et al. Contextual squeeze-and-excitation mask R-CNN for SAR ship instance segmentation[C]//2022 IEEE Radar Conference (RadarConf22). New York: IEEE, 2022: 1-6.
    [23] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Italy: IEEE, 2017: 2961-2969.
    [24] ZHANG T W, ZHANG X L. A mask attention interaction and scale enhancement network for SAR ship instance segmentation[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 4511005.
    [25] CHEN K, PANG J M, WANG J Q, et al. Hybrid task cascade for instance segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4969-4978.
    [26] ZHANG T W, ZHANG X L, SHI J, et al. Depthwise separable convolution neural network for high-speed SAR ship detection[J]. Remote Sensing, 2019, 11(21): 2483. doi:  10.3390/rs11212483
    [27] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake: IEEE, 2018: 8759-8768.
    [28] ZHANG T W, ZHANG X L. ShipDeNet-20: An only 20 convolution layers and <1-MB lightweight SAR ship detector[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(7): 1234-1238. doi:  10.1109/LGRS.2020.2993899
    [29] ZHANG T W, ZHANG X L. A full-level context squeeze-and-excitation ROI extractor for SAR ship instance segmentation[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 4506705.
    [30] HU J, SHEN L, SUN G. Squeeze-and-Excitation networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Salt Lake: IEEE, 2018: 7132-7141.
    [31] ZHANG T W, ZHANG X L, LI J W, et al. SAR ship detection dataset (SSDD): Official release and comprehensive data analysis[J]. Remote Sensing, 2021, 13(18): 3690. doi:  10.3390/rs13183690
    [32] ZHANG T W, ZHANG X L. A polarization fusion network with geometric feature embedding for SAR ship classification[J]. Pattern Recognition, 2021, 123: 108365.
    [33] ZHANG T W, ZHANG X L, KE X, et al. HOG-ShipCLSNet: A novel deep learning network with hog feature fusion for SAR ship classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 5210322.
    [34] ZHANG T W, ZHANG X L. High-Speed ship detection in SAR images based on a grid convolutional neural network[J]. Remote Sensing, 2019, 11(10): 1206. doi:  10.3390/rs11101206
    [35] HUANG Z J, HUANG L C, GONG Y C, et al. Mask scoring R-CNN[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6409-6418.
    [36] CAI Z W, VASCONCELOS N. Cascade R-CNN: Delving into high quality object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake: IEEE, 2018: 6154.
    [37] BOLYA D, ZHOU C, XIAO F Y, et al. YOLACT: Real-Time instance segmentation[C]//IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 9156-9165.
    [38] ROSSI L, KARIMI A, PRATI A. A novel region of interest extraction layer for instance segmentation[C]//International Conference on Pattern Recognition. Italy: IEEE, 2021: 2203.
    [39] ZHAO D P, ZHU C B, QI J, et al. Synergistic attention for ship instance segmentation in SAR images[J]. Remote Sensing, 2021, 13(21): 4384. doi:  10.3390/rs13214384
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(9)  / Tables(2)

Article Metrics

Article views(4069) PDF downloads(98) Cited by()

Related
Proportional views

A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation

doi: 10.12178/1001-0548.2022415

Abstract: The current deep-learning based SAR ship instance segmentation models fail to consider the full level information of features and the context information of targets, which leads to low instance segmentation accuracy. In order to address this problem, a SAR ship instance segmentation method based on a full-level context information squeeze-and-excitation region of interest (ROI) extractor is proposed. This method proposes a novel ROI extractor(ROIE), called FL-CI-SE-ROIE. First of all, FL-CI-SE-ROIE can extract ROI at all levels, which can retain the full level features of the target, thus enhancing the multi-scale description capability of the network. Then, FL-CI-SE-ROIE expands the ROI context information, which can gain the context information of targets, thus enhancing the background identification capability. Finally, FL-CI-SE-ROIE introduces a squeeze and excitation(SE) module, which can balance ROI context information in different ranges, thus suppressing background interference, and further improving the accuracy of instance segmentation. The experimental results on the public polygon segmentation SAR ship detection dataset (PSeg-SSDD) show that the SAR ship instance segmentation accuracy of the proposed method is higher than that of the current 9 comparison models.

ZHANG Tianwen, ZHANG Xiaoling, SHAO Zikang, ZENG Tianjiao. A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 357-365. doi: 10.12178/1001-0548.2022415
Citation: ZHANG Tianwen, ZHANG Xiaoling, SHAO Zikang, ZENG Tianjiao. A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 357-365. doi: 10.12178/1001-0548.2022415
  • 合成孔径雷达(synthetic aperture radar, SAR)是一种先进的主动式微波传感器,被广泛应用于地质勘测、灾害救援、海洋监视等领域[1]。作为一种典型海洋监视任务,海面舰船检测在民用和军事领域具有重要应用价值。在民用方面,舰船检测广泛应用于交通调度、舰船搜救等[2]。在军事方面,海面舰船检测广泛应用于战略侦查、敌舰打击等[3]。相比其他遥感系统,SAR能够全天时全天候运行,适合监视气候多变的海洋[4]。因此,近年来,利用SAR实现舰船检测受到广泛关注。

    传统SAR舰船检测方法的显著特点是基于手工提取特征[5]。这些方法可大致分为基于恒虚警的方法[6]、基于全局阈值的方法[7]、基于极化分解的方法[8]、基于变换域的方法[9]、基于视觉显著性的方法[10]以及基于超像素的方法[11]等。然而,这些传统手工提取特征具有设计繁琐、迁移能力差等缺点[12]。近年来,随着深度学习的发展,很多学者开始关注基于深度学习的SAR舰船检测[13-18]。如文献[13]改进了Faster R-CNN和特征金字塔网络(feature pyramid network, FPN),并融合了极化信息进行舰船检测。文献[14]改进了单阶段检测器YOLOv5[15],实现了复杂场景下轻量化SAR舰船检测。文献[16]将水平检测框改进为旋转检测框,减少了近岸密集排列舰船之间检测框重叠,提高了检测精度。文献[17]将SAR传统特征与深度学习相结合,提供了更具有可解释性的检测结果。文献[18]提出一种轻量级的SAR舰船检测网络,能够实现舰船目标快速检测。虽然这些模型都具有良好精度,但仅实现了框等级检测,未能实现SAR舰船像素级精细化表征。

    由于检测框无法实现SAR舰船像素级精细化表征,一些学者将实例分割引入SAR舰船领域中。文献[19]发布了HRSID数据集并提供了一系列研究基准。文献[20]提出了一种可用于高分辨率SAR图像舰船实例分割的网络,但该网络未结合舰船上下文信息,导致了较多虚警。文献[21]提出了质心距离损失以增强舰船实例分割的学习效果,但该方法对小型舰船实例分割的精度较低,未能考虑多尺度特征。文献[22]将Mask R-CNN[23]应用于SAR舰船实例分割,但未考虑上下文信息,影响了实例分割的精度。文献[24]重点研究了SAR图像中的舰船多尺度特性,提高了多尺度舰船的实例分割精度。以上这些方法均未考虑特征全等级信息和目标上下文信息,可能阻碍精度改善。

    本文提出了一种基于全等级上下文压缩激励感兴趣区域提取器(region of interest extractor, ROIE)的SAR舰船实例分割方法(full-level context-information squeeze-excitation region of interest extractor, FL-CI-SE-ROIE),主要创新点如下。

    1)实现全等级ROI提取:ROIE在特征金字塔的所有尺度上提取,从而保留了全等级信息,提高了网络多尺度描述能力。

    2)实现上下文ROI扩充:在ROIE中生成多个尺度的感兴趣区域,从而获取了目标上下文信息,增强了网络背景鉴别能力。

    3)引入压缩激励模块:在ROIE中引入压缩激励(squeeze and excitation, SE)模块来平衡不同范围上下文ROI的贡献,抑制背景干扰,增强重要特征。

    • FL-CI-SE-ROIE网络结构类似于经典双阶段实例分割网络HTC[25],FL-CI-SE-ROIE由骨干网络、FPN、ROIE和检测头构成。输入图像首先由骨干网络和FPN生成多尺度特征图,然后将多尺度特征图输入ROIE提取特征子集,最后将特征子集输入检测头获得实例分割结果。以下详细介绍FL-CI-SE-ROIE各项改进。

    • 经典双阶段实例分割网络,如HTC,常基于以下准则,确定当前特征子集在FPN中所处等级:

      式中,i表示特征子集在FPN中所处等级;i0表示基准等级5;wh表示检测框宽度和高度。

      基于上述原则,经典ROIE仅选择单个特定FPN等级Pi以提取特征子集。图1展示了单等级ROIE提取过程。如图1所示,假设选中FPN的P2等级(实线箭头),则FPN的其他等级将被抛弃[26](虚线箭头)。然而,这种做法会丢失目标在不同等级下不同尺度的差异性特征,如图1中的P3P4P5等级均被丢弃。丢弃FPN的其他等级,会削弱网络的多尺度特征描述能力,从而导致实例分割精度下降[27]

      因此,FL-CI-SE-ROIE未采用式(1)准则,而是在FPN所有等级提取特征子集,从而保留了目标的全等级信息,增强网络对目标的多尺度描述能力。此外,对于不同等级提取到的特征子集,FPN的输出特征图分别为[P2, P3, P4, P5],分别对各等级的特征图提取特征子集,即:

      式中,Pi为特征金字塔的各个等级特征图;Fi为提取的特征子集;ROIAlign(·)是将RPN生成的任意尺寸的提案映射到固定尺寸特征图上的过程[28]图2展示了ROIAlign的过程。

      图2所示,对于一个输入大小为(wp, hp)的提案,对其内部划分成H×W个区域(图2中划分为2×2个区域)。在每个区域采样4个位置A1(a1, b1),A2(a2, b2),A3(a3, b3),A4(a4, b4),其中Ai的值由双线性插值计算:

      式中,Q11=(x1, y1);Q12=(x1, y2);Q21=(x2, y1);Q22=(x2, y2),为距离Ai的最近4个像素的坐标;f (·)为该坐标的值。之后对4个位置A1A2A3A4的值进行最大池化操作得到f (Amaxpool),即:

      对每个区域都进行上述操作即可获得提取到的特征子集Fi。在FPN全等级上使用ROIAlign提取特征子集后,再根据以下特征求和方式实现高低不同等级的特征融合。计算如下:

      式中,F表示特征融合输出,该输出能平衡高等级语义信息和低等级空间位置信息。此外,全等级ROI提取操作不会引入额外的参数量,因为该操作是在FPN的每一个输出级别上均进行ROI提取,不需要引入额外的参数,因此不会改变模型的复杂度。但是,由于引进了额外的ROI提取操作,模型的检测速度会受到一定影响。

    • 上下文ROI扩充指在RPN生成初始候选框的周边生成多个尺度的包含背景上下文的候选框,从而包含更多背景上下文信息。图3展示了不同范围的舰船背景上下文信息。

      初始候选框记为ROI:(w, h),如图3中橙色矩形框所示,其中wh为候选框宽度和高度。另外两个候选框分别记为ROIC1:(w1, h1)和ROIC2:(w2, h2),分别由红色矩形框和蓝色矩形框标记,即:

      式中,k1k2表示两个大于1的扩展系数。外围上下文候选框ROIC2:(w2, h2)比ROIC1:(w1, h1)包含更多背景上下文信息。由图3可知,舰船目标的周围具有多种复杂的背景上下文信息,如舰船的模糊轮廓、旁瓣、舰船尾迹、相干斑噪声、舰载塔式起重机、岸上设施等,这些背景上下文信息都会影响最终的舰船像素预测性能[29]。使用包含更多背景上下文信息的候选框的目的在于增强网络对于这些复杂的背景上下文信息的学习能力。

      经典的双阶段实例分割模型,如Mask R-CNN[23],使用ROIAlign来提取图3中最内部的候选框ROI的特征子集;接着基于特征子集,在候选框中进行舰船像素预测。然而,这会导致以下问题。首先,ROI的提取结果直接影响了像素掩模的结果。如果框检测的结果精度较低,那么像素掩模的结果也将变差。其次,基于ROI的特征子集进行舰船像素预测限制了网络的视野域。由于网络结构设计,ROIE以后的网络可操作空间均限制在ROIE所提取的ROI中,这导致了后端网络对于全局信息的感受能力有限,对舰船目标的细节预测能力降低,最终导致了检测精度的下降。图像背景内容在多种场景下均会对舰船检测的结果产生影响。首先,对于近岸场景的舰船,它们往往受到复杂海岸背景的干扰,导致生成检测框的位置不准确。如图4a所示,紧凑的矩形框所包含的背景信息较少,网络对于复杂背景的学习能力较弱。如图4b所示,当扩大矩形框,像素预测过程中能够考虑更多的背景内容,结合全局信息,提高检测精度。其次,对于离岸场景的舰船,它们常常受到相干斑噪声、旁瓣和尾迹的干扰。如图5a所示,尽管紧凑的矩形框可以消除距离舰船较远的旁瓣,但这也限制了网络对于旁瓣的学习能力,最终导致检测时出现旁瓣导致的虚警。如图5b所示,扩大矩形框,能够增强网络对于背景干扰的鉴别能力,从而减少虚警,提高检测精度。

      经典双阶段网络ROI生成结果如图4图5所示,棕色矩形框表示由经典双阶段网络生成的ROI。由图4a图5a可知,经典双阶段网络生成的ROI感受野有限,这导致了网络对舰船四周的背景信息不敏感。而FL-CI-SE-ROIE在ROIE中扩充了上下文ROI,即在初始中心候选框ROI:(w, h)周围设置了两种包含不同范围背景上下文ROI,即ROIC1:(w1, h1)和ROIC2:(w2, h2),如图4b图5b所示。特别地,为了不增加过多计算成本和不影响检测速度,未设置多种不同范围的上下文ROI。此外,k1被设为经验值2,k2被设为经验值3。过高的k1k2会导致网络引入过多的背景干扰,导致网络因正负样本不平衡而训练难以收敛,最终导致较低的检测精度。因此,引入上下文内容并不是无限制的引入,引入过多的上下文反而会影响检测精度。

      图6展示了FL-CI-SE-ROIE的上下文扩充信息提取和融合过程。

      图6a展示了无上下文ROI扩充的经典ROIE特征子集提取过程,可描述为:

      式中,F表示经典ROIE提取的特征子集;ROIAlign采样尺寸设置为Mask R-CNN默认值14×14,输入通道宽度为FPN每个等级特征图的默认通道宽度256,因此最终F维度为14×14×256。

      图6b中,当加入上下文背景信息扩充时,FL-CI-SEE-ROIE的特征子集提取过程可描述为:

      式中,©表示特征拼接操作;Fcontext表示提取的特征子集。此处特征子集的特征图被直接拼接,输入至一个3×3卷积层来实现降维,从而得到与式(7)中F相同的特征维度。通过上下文ROI的扩充、提取和融合,增加了感受野,增强了网络对背景信息的鉴别能力。

    • 在1.2节中提出的上下文ROI扩充能够有效地扩大网络的感受野,获取目标上下文信息,但同时也增加了一定的背景干扰,限制了检测精度进一步提高。为平衡不同范围上下文ROI的贡献,抑制无用背景干扰,受文献[30]启发,引入SE模块。SE指对输入特征图通道信息进行压缩并对各个通道信息的重要性建模,并根据建立模型对原始特征图通道进行加权输出。SE模块能够抑制部分无用的通道信息,增强激励部分重要的通道信息。

      在FL-CI-SE-ROIE中,SE模块用于平衡ROI:(w, h)、ROIC1:(w1, h1)和ROIC2:(w2, h2)的贡献,关注重要的上下文信息,避免FL-CI-SE-ROIE可能因引入过多上下文信息导致训练震荡的问题。该过程可描述为:

      图7为SE模块的具体结构。

      图7可知,SE模块实现方式类似于文献[30]。输入X的维度为W×H×C,首先使用全局平均池化层(global average pooling, GAP)对输入进行全局平均池化处理,即:

      将GAP的输出GAP(X)输入全连接层(FC1)和线性整流激活函数(linear rectification function, ReLU)中,在FC1层中将输入信息压缩r倍。r设置为3,表示平衡输入ROI、ROIC1和ROIC2 3种不同范围的特征子集贡献。全连接层${\rm{F C}}_{1} \in \mathbb{R}^{(G/r) \times C}$,得到维度为1×1×(C/r)的输出;再使用另一个全连接层(FC2)和sigmoid激活函数得到通道重要性权重S,该激励权重表示ROI、ROIC1和ROIC2的特征子集的通道重要性,同时在FC2层中将通道数还原为C。此处全连接层$\mathrm{FC}_{2} \in \mathbb{R}^{C \times(C/r)}$,得到维度为1×1×C的输出。最终,在通道维度上,将原始输入特征图X和通道重要性权重S使用乘法运算得到输出$ Y \in \mathbb{R}^{W \times H \times C} $

    • 本文在像素级多边形分割SAR舰船检测数据集(polygon segmentation SAR ship detection dataset, PSeg-SSDD)[31]上进行实验以验证所提出方法的有效性。PSeg-SSDD数据集包含1 160张SAR图像样本。SAR图像样本由Radarsat-2,TerraSAR-X和Sentinel-1等卫星采集。SAR图像样本的平均尺寸为500像素×500像素,样本采集位置主要位于中国山东烟台港和印度维萨卡帕特南港,数据集包含复杂靠岸场景的舰船以及简单离岸场景的舰船。PSeg-SSDD数据集内舰船总数量为2 587,其中最大尺寸舰船所占面积为78797像素,最小尺寸舰船所占面积为66像素。

    • FL-CI-SE-ROIE使用ResNet-101-FPN作为骨干网络。为了加速网络收敛,骨干网络在ImageNet数据集上进行了预训练。使用双线性插值算法将SAR图像样本调整尺寸为512像素×512像素。训练优化器选为随机梯度下降优化器(stochastic gradient descent, SGD),学习率设为0.0125,动量设为0.9,权重衰减设为0.0001,总训练迭代次数为12次,学习率在第8次迭代和第11次迭代各降低10倍,训练批次大小设为2。损失函数由分类损失和回归损失组成,分类损失LCLS选择经典交叉熵损失[32],回归损失LREG选择为经典平滑L1[33],即:

      式中,N为预测框的数目;$ \text { smooth }_{L_{1}}\left({\cdot}\right) $为平滑L1损失,定义为:

      定义pi为预测类别概率;$ p_{f}^{*} $为真实类别标签;ti为预测矩形框坐标;$ t_{i}^{*} $为真实矩形框坐标;ti包括$ t_{i, x} $$ t_{i, y} $$ t_{i, w} $$ t_{i, k} $$ t_{i}^{*} $包括$ t_{i, x}^{*} $$ t_{i, y}^{*} $$ t_{i, w}^{*} $$ t_{i_{i}, N}^{*} $

      式中,下标a表示锚框参数。此外,不同于框等级检测,SAR舰船实例分割的分类损失LCLS还包含一个像素预测二分类损失,该二分类损失也使用经典交叉熵损失。总分类损失LCLS为:

      式中,Lclass为类别预测损失;Lpixel为像素预测损失;λ1λ2为权重,分别设置为经验值1和1.5。在测试过程中,非极大值抑制被用来移除多余重复的检测框,模型的IOU阈值设为经验值0.5[34]。实验运行在配备RTX 3090 GPU和Intel i9-9900K CPU的计算机硬件平台上,该计算机的内存为32 G,实验程序语言为Python,实验软件环境平台为Pytorch。

    • 本文采用基于Microsoft COCO数据集的目标分割指标来衡量SAR舰船实例分割性能。记舰船真值掩模为MaskG,舰船预测掩模为MaskP,掩模交并比Mask-IOU的定义为:

      记实例分割平均精度为average precision(AP),AP定义为:

      式中,r表示召回率;p表示准确率;p(r)表示精度−召回率曲线。本文SAR舰船实例分割精度的评估指标为AP50、AP75、APS、APM、APL、AP。其中,AP50表示当Mask-IOU=0.50时,所有尺寸目标的平均精度。AP75表示当Mask-IOU=0.75时,所有尺寸目标的平均精度。APS表示当Mask-IOU=0.50时,像素数小于322的小尺寸目标的平均精度。APM表示当Mask-IOU=0.50时,像素数大于322且小于962的中等尺寸目标的平均精度。APL表示当Mask-IOU=0.50时,像素数大于962的大尺寸目标的平均精度。AP表示当Mask-IOU从0.50到0.95,间隔0.05时,十组平均精度的均值。AP可以反映在不同Mask-IOU阈值条件下的综合检测性能,因此它被选择作为衡量SAR舰船实例分割精度的唯一核心指标,通过以下公式计算得到:

      式中,Mask-IOU∈[0.50:0.05:0.95],共有10组取值。

      此外,本文还在实验中对比了模型复杂度和处理时间。模型复杂度使用模型参数量(parameter, #Para)来衡量,#Para越高,模型越复杂。处理时间指网络检测一张图片所需要的平均时间。

    • 表1可知,对比其他9种模型,本文所提出的FL-CI-SE-ROIE提供了最高的SAR舰船实例分割精度,AP达到了61.0%,相较于次优模型PANet高1.4%,证实了FL-CI-SE-ROIE具有更优越的SAR舰船实例分割性能。尽管FL-CI-SE-ROIE的APL指标低于HQ-ISNet-w40,AP50低于HTC,但FL-CI-SE-ROIE在这两个指标上仍然取得了次优的结果。此外,所提出的FL-CI-SE-ROIE的其他所有评估指标均高于对比方法,因此总体来说FL-CI-SE-ROIE可以实现更准确的舰船目标实例分割,并且能适应不同的舰船尺度,即在AP75、APS和APM指标上的结果均为最优。虽然,FL-CI-SE-ROIE每张图片的处理时间略长,且参数量略大于其他对比模型,不过这换取了更高的检测精度。对比YOLACT模型,虽然它的检测速度较快且模型参数较少,但是它的检测精度远低于本文所提出的FL-CI-SE-ROIE。总之,根据以上定量对比结果,FL-CI-SE-ROIE可以提供更优越的SAR舰船实例分割精度。

      图8图9展示了在像素级PSeg-SSDD数据集上,FL-CI-SE-ROIE和HTC的SAR舰船实例分割定性结果对比。FL-CI-SE-ROIE是在HTC模型基础上进行改进的,因此展示了其与HTC的定性检测结果对比。图8展示了HTC模型的舰船实例分割结果。图9展示了FL-CI-SE-ROIE舰船实例分割结果。由图8图9可知,对比HTC,FL-CI-SE-ROIE漏检更少,如对于图8a,HTC未检测到该靠岸舰船,但是如图9a所示,FL-CI-SE-ROIE成功检测到该靠岸舰船。这是因为FL-CI-SE-ROIE实现了上下文信息扩充,增大了网络的感受野,提高了对复杂海岸背景的鉴别能力,从而成功地区分了海岸背景和舰船。而HTC模型由于对复杂海岸背景内容的学习能力不足,导致其对海岸背景和目标的鉴别能力较差,最终导致漏检。此外,FL-CI-SE-ROIE具有更强的抑制虚警能力。如图8b所示,HTC产生了一个虚假检测(图8b中棕色框标记),但是如图9b所示,FL-CI-SE-ROIE能够抑制该虚警。这是因为FL-CI-SE-ROIE的上下文信息能够增强网络对于噪声的鉴别能力。HTC模型未采用上下文信息扩充,导致图9b误将左上角的噪声当做舰船。而FL-CI-SE-ROIE在学习的过程中扩充了上下文信息,因此网络对于噪声的鉴别能力更强,因此正确地将其区分为噪声背景,未产生虚警。对于多尺度舰船和陆地背景混杂的场景,FL-CI-SE-ROIE具有更好的实例分割性能,如对于图8c,HTC产生了5个虚假检测(图8c中棕色框标记),包括海面虚假检测和陆地虚假检测,而在图9c中,FL-CI-SE-ROIE仅产生了3个虚假检测(图9c中黄色框标记),这也证明了FL-CI-SE-ROIE对多尺度目标具有更强的检测能力,对于复杂背景具有更强的鉴别能力。根据以上结果,FL-CI-SE-ROIE可以提供更优越的SAR舰船实例分割精度。

      方法AP50/%AP75/%APS/%APM/%APL/%AP/%网络推理耗时/s#Para×106
      Mask R-CNN[23]88.572.157.260.827.457.80.09162.74
      Mask Scoring R-CNN[35]89.473.258.061.422.658.60.07879.00
      Cascade Mask R-CNN[36]87.570.556.358.822.656.60.09495.79
      HTC[25]91.773.158.761.634.859.30.08695.92
      PANet[27]91.174.059.361.052.159.60.07366.28
      YOLACT[37]88.052.147.353.540.248.40.06553.72
      GRoIE[38]89.872.758.658.721.858.30.10366.53
      HQ-ISNet-w18[20]89.373.658.260.437.258.60.11662.75
      HQ-ISNet-w32[20]90.475.558.961.137.359.30.12582.55
      HQ-ISNet-w40[20]86.072.656.761.350.257.60.12998.79
      SA R-CNN[39]90.473.359.660.320.259.40.07353.75
      FL-CI-SE-ROIE91.377.660.962.640.361.00.112107.55
    • 表2展示了在FL-CI-SE-ROIE中逐渐加入各种改进手段对SAR舰船实例分割精度的改善情况,包括3项改进:全等级ROI提取、上下文ROI扩充和压缩激励模块。由表2可知,随着改进手段的逐渐加入,实例分割精度被逐渐改善,精度从初始59.3% AP渐进式地上升到了最终61.0% AP。如表2所示,初始实例分割精度AP为59.3%,多尺度舰船的检测精度可以提现网络的多尺度描述能力。在加入全等级ROI提取后,小尺度舰船的检测精度提高了0.6%;中尺度舰船的检测精度提高了1.1%;大尺度舰船的检测精度提高了5.5%;综合检测精度AP提升至59.8%。由此可知,全等级ROI提取增强了网络的多尺度描述能力。在加入上下文ROI扩充后,扩大了感受野,增强了对背景的鉴别能力,AP上升至60.7%。在加入压缩激励模块后,平衡了不同范围上下文信息的贡献,进一步提高了分割精度,AP上升至61.0%。逐渐加入改进手段时,模型虽然复杂度更高且处理时间增加,但复杂度并未提升过多,且处理时间也未增加过多,这对于精度的提升而言是可以接受的。综上,FL-CI-SE-ROIE的各项改进均能提高SAR舰船实例分割的精度。

      全等级上下文压缩激励AP50/%AP75/%APS/%APM/%APL/%AP/%#Para×106推理耗时/s
      91.773.158.761.634.859.395.920.086
      90.474.659.362.740.359.895.920.091
      91.475.560.063.030.360.7106.760.099
      91.377.660.962.640.361.0107.550.112
    • 针对目前深度学习SAR舰船实例分割方法未能考虑特征全等级信息和目标上下文信息的问题,本文提出了一种基于全等级上下文压缩激励感兴趣区域提取器的SAR舰船实例分割方法FL-CI-SE-ROIE。首先,FL-CI-SE-ROIE实现了全等级ROI提取,保留了特征的全等级信息,增强了网络的多尺度描述能力。其次,FL-CI-SE-ROIE实现了上下文ROI扩充,获取了目标上下文信息,增强了网络的背景鉴别能力。最后,FL-CI-SE-ROIE引入压缩激励模块来平衡不同范围上下文ROI,可抑制背景干扰,进一步提高了分割精度。在公开数据集PSeg-SSDD上的实验结果显示,FL-CI-SE-ROIE的检测精度高于其他9种对比模型,高于次优模型1.4%。此外,FL-CI-SE-ROIE在具有高检测精度的同时,没有较大的检测速度牺牲。因此,FL-CI-SE-ROIE虽然速度略慢于部分模型,但获得了最优的检测精度。消融实验证明了FL-CI-SE-ROIE每项改进的有效性。

Reference (39)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return