-
合成孔径雷达(synthetic aperture radar, SAR)是一种先进的主动式微波传感器,被广泛应用于地质勘测、灾害救援、海洋监视等领域[1]。作为一种典型海洋监视任务,海面舰船检测在民用和军事领域具有重要应用价值。在民用方面,舰船检测广泛应用于交通调度、舰船搜救等[2]。在军事方面,海面舰船检测广泛应用于战略侦查、敌舰打击等[3]。相比其他遥感系统,SAR能够全天时全天候运行,适合监视气候多变的海洋[4]。因此,近年来,利用SAR实现舰船检测受到广泛关注。
传统SAR舰船检测方法的显著特点是基于手工提取特征[5]。这些方法可大致分为基于恒虚警的方法[6]、基于全局阈值的方法[7]、基于极化分解的方法[8]、基于变换域的方法[9]、基于视觉显著性的方法[10]以及基于超像素的方法[11]等。然而,这些传统手工提取特征具有设计繁琐、迁移能力差等缺点[12]。近年来,随着深度学习的发展,很多学者开始关注基于深度学习的SAR舰船检测[13-18]。如文献[13]改进了Faster R-CNN和特征金字塔网络(feature pyramid network, FPN),并融合了极化信息进行舰船检测。文献[14]改进了单阶段检测器YOLOv5[15],实现了复杂场景下轻量化SAR舰船检测。文献[16]将水平检测框改进为旋转检测框,减少了近岸密集排列舰船之间检测框重叠,提高了检测精度。文献[17]将SAR传统特征与深度学习相结合,提供了更具有可解释性的检测结果。文献[18]提出一种轻量级的SAR舰船检测网络,能够实现舰船目标快速检测。虽然这些模型都具有良好精度,但仅实现了框等级检测,未能实现SAR舰船像素级精细化表征。
由于检测框无法实现SAR舰船像素级精细化表征,一些学者将实例分割引入SAR舰船领域中。文献[19]发布了HRSID数据集并提供了一系列研究基准。文献[20]提出了一种可用于高分辨率SAR图像舰船实例分割的网络,但该网络未结合舰船上下文信息,导致了较多虚警。文献[21]提出了质心距离损失以增强舰船实例分割的学习效果,但该方法对小型舰船实例分割的精度较低,未能考虑多尺度特征。文献[22]将Mask R-CNN[23]应用于SAR舰船实例分割,但未考虑上下文信息,影响了实例分割的精度。文献[24]重点研究了SAR图像中的舰船多尺度特性,提高了多尺度舰船的实例分割精度。以上这些方法均未考虑特征全等级信息和目标上下文信息,可能阻碍精度改善。
本文提出了一种基于全等级上下文压缩激励感兴趣区域提取器(region of interest extractor, ROIE)的SAR舰船实例分割方法(full-level context-information squeeze-excitation region of interest extractor, FL-CI-SE-ROIE),主要创新点如下。
1)实现全等级ROI提取:ROIE在特征金字塔的所有尺度上提取,从而保留了全等级信息,提高了网络多尺度描述能力。
2)实现上下文ROI扩充:在ROIE中生成多个尺度的感兴趣区域,从而获取了目标上下文信息,增强了网络背景鉴别能力。
3)引入压缩激励模块:在ROIE中引入压缩激励(squeeze and excitation, SE)模块来平衡不同范围上下文ROI的贡献,抑制背景干扰,增强重要特征。
-
本文在像素级多边形分割SAR舰船检测数据集(polygon segmentation SAR ship detection dataset, PSeg-SSDD)[31]上进行实验以验证所提出方法的有效性。PSeg-SSDD数据集包含1 160张SAR图像样本。SAR图像样本由Radarsat-2,TerraSAR-X和Sentinel-1等卫星采集。SAR图像样本的平均尺寸为500像素×500像素,样本采集位置主要位于中国山东烟台港和印度维萨卡帕特南港,数据集包含复杂靠岸场景的舰船以及简单离岸场景的舰船。PSeg-SSDD数据集内舰船总数量为2 587,其中最大尺寸舰船所占面积为78797像素,最小尺寸舰船所占面积为66像素。
-
FL-CI-SE-ROIE使用ResNet-101-FPN作为骨干网络。为了加速网络收敛,骨干网络在ImageNet数据集上进行了预训练。使用双线性插值算法将SAR图像样本调整尺寸为512像素×512像素。训练优化器选为随机梯度下降优化器(stochastic gradient descent, SGD),学习率设为0.0125,动量设为0.9,权重衰减设为0.0001,总训练迭代次数为12次,学习率在第8次迭代和第11次迭代各降低10倍,训练批次大小设为2。损失函数由分类损失和回归损失组成,分类损失LCLS选择经典交叉熵损失[32],回归损失LREG选择为经典平滑L1[33],即:
式中,N为预测框的数目;
$ \text { smooth }_{L_{1}}\left({\cdot}\right) $ 为平滑L1损失,定义为:定义pi为预测类别概率;
$ p_{f}^{*} $ 为真实类别标签;ti为预测矩形框坐标;$ t_{i}^{*} $ 为真实矩形框坐标;ti包括$ t_{i, x} $ 、$ t_{i, y} $ 、$ t_{i, w} $ 和$ t_{i, k} $ ;$ t_{i}^{*} $ 包括$ t_{i, x}^{*} $ 、$ t_{i, y}^{*} $ 、$ t_{i, w}^{*} $ 和$ t_{i_{i}, N}^{*} $ :式中,下标a表示锚框参数。此外,不同于框等级检测,SAR舰船实例分割的分类损失LCLS还包含一个像素预测二分类损失,该二分类损失也使用经典交叉熵损失。总分类损失LCLS为:
式中,Lclass为类别预测损失;Lpixel为像素预测损失;λ1和λ2为权重,分别设置为经验值1和1.5。在测试过程中,非极大值抑制被用来移除多余重复的检测框,模型的IOU阈值设为经验值0.5[34]。实验运行在配备RTX 3090 GPU和Intel i9-9900K CPU的计算机硬件平台上,该计算机的内存为32 G,实验程序语言为Python,实验软件环境平台为Pytorch。
-
本文采用基于Microsoft COCO数据集的目标分割指标来衡量SAR舰船实例分割性能。记舰船真值掩模为MaskG,舰船预测掩模为MaskP,掩模交并比Mask-IOU的定义为:
记实例分割平均精度为average precision(AP),AP定义为:
式中,r表示召回率;p表示准确率;p(r)表示精度−召回率曲线。本文SAR舰船实例分割精度的评估指标为AP50、AP75、APS、APM、APL、AP。其中,AP50表示当Mask-IOU=0.50时,所有尺寸目标的平均精度。AP75表示当Mask-IOU=0.75时,所有尺寸目标的平均精度。APS表示当Mask-IOU=0.50时,像素数小于322的小尺寸目标的平均精度。APM表示当Mask-IOU=0.50时,像素数大于322且小于962的中等尺寸目标的平均精度。APL表示当Mask-IOU=0.50时,像素数大于962的大尺寸目标的平均精度。AP表示当Mask-IOU从0.50到0.95,间隔0.05时,十组平均精度的均值。AP可以反映在不同Mask-IOU阈值条件下的综合检测性能,因此它被选择作为衡量SAR舰船实例分割精度的唯一核心指标,通过以下公式计算得到:
式中,Mask-IOU∈[0.50:0.05:0.95],共有10组取值。
此外,本文还在实验中对比了模型复杂度和处理时间。模型复杂度使用模型参数量(parameter, #Para)来衡量,#Para越高,模型越复杂。处理时间指网络检测一张图片所需要的平均时间。
-
由表1可知,对比其他9种模型,本文所提出的FL-CI-SE-ROIE提供了最高的SAR舰船实例分割精度,AP达到了61.0%,相较于次优模型PANet高1.4%,证实了FL-CI-SE-ROIE具有更优越的SAR舰船实例分割性能。尽管FL-CI-SE-ROIE的APL指标低于HQ-ISNet-w40,AP50低于HTC,但FL-CI-SE-ROIE在这两个指标上仍然取得了次优的结果。此外,所提出的FL-CI-SE-ROIE的其他所有评估指标均高于对比方法,因此总体来说FL-CI-SE-ROIE可以实现更准确的舰船目标实例分割,并且能适应不同的舰船尺度,即在AP75、APS和APM指标上的结果均为最优。虽然,FL-CI-SE-ROIE每张图片的处理时间略长,且参数量略大于其他对比模型,不过这换取了更高的检测精度。对比YOLACT模型,虽然它的检测速度较快且模型参数较少,但是它的检测精度远低于本文所提出的FL-CI-SE-ROIE。总之,根据以上定量对比结果,FL-CI-SE-ROIE可以提供更优越的SAR舰船实例分割精度。
图8和图9展示了在像素级PSeg-SSDD数据集上,FL-CI-SE-ROIE和HTC的SAR舰船实例分割定性结果对比。FL-CI-SE-ROIE是在HTC模型基础上进行改进的,因此展示了其与HTC的定性检测结果对比。图8展示了HTC模型的舰船实例分割结果。图9展示了FL-CI-SE-ROIE舰船实例分割结果。由图8和图9可知,对比HTC,FL-CI-SE-ROIE漏检更少,如对于图8a,HTC未检测到该靠岸舰船,但是如图9a所示,FL-CI-SE-ROIE成功检测到该靠岸舰船。这是因为FL-CI-SE-ROIE实现了上下文信息扩充,增大了网络的感受野,提高了对复杂海岸背景的鉴别能力,从而成功地区分了海岸背景和舰船。而HTC模型由于对复杂海岸背景内容的学习能力不足,导致其对海岸背景和目标的鉴别能力较差,最终导致漏检。此外,FL-CI-SE-ROIE具有更强的抑制虚警能力。如图8b所示,HTC产生了一个虚假检测(图8b中棕色框标记),但是如图9b所示,FL-CI-SE-ROIE能够抑制该虚警。这是因为FL-CI-SE-ROIE的上下文信息能够增强网络对于噪声的鉴别能力。HTC模型未采用上下文信息扩充,导致图9b误将左上角的噪声当做舰船。而FL-CI-SE-ROIE在学习的过程中扩充了上下文信息,因此网络对于噪声的鉴别能力更强,因此正确地将其区分为噪声背景,未产生虚警。对于多尺度舰船和陆地背景混杂的场景,FL-CI-SE-ROIE具有更好的实例分割性能,如对于图8c,HTC产生了5个虚假检测(图8c中棕色框标记),包括海面虚假检测和陆地虚假检测,而在图9c中,FL-CI-SE-ROIE仅产生了3个虚假检测(图9c中黄色框标记),这也证明了FL-CI-SE-ROIE对多尺度目标具有更强的检测能力,对于复杂背景具有更强的鉴别能力。根据以上结果,FL-CI-SE-ROIE可以提供更优越的SAR舰船实例分割精度。
方法 AP50/% AP75/% APS/% APM/% APL/% AP/% 网络推理耗时/s #Para×106 Mask R-CNN[23] 88.5 72.1 57.2 60.8 27.4 57.8 0.091 62.74 Mask Scoring R-CNN[35] 89.4 73.2 58.0 61.4 22.6 58.6 0.078 79.00 Cascade Mask R-CNN[36] 87.5 70.5 56.3 58.8 22.6 56.6 0.094 95.79 HTC[25] 91.7 73.1 58.7 61.6 34.8 59.3 0.086 95.92 PANet[27] 91.1 74.0 59.3 61.0 52.1 59.6 0.073 66.28 YOLACT[37] 88.0 52.1 47.3 53.5 40.2 48.4 0.065 53.72 GRoIE[38] 89.8 72.7 58.6 58.7 21.8 58.3 0.103 66.53 HQ-ISNet-w18[20] 89.3 73.6 58.2 60.4 37.2 58.6 0.116 62.75 HQ-ISNet-w32[20] 90.4 75.5 58.9 61.1 37.3 59.3 0.125 82.55 HQ-ISNet-w40[20] 86.0 72.6 56.7 61.3 50.2 57.6 0.129 98.79 SA R-CNN[39] 90.4 73.3 59.6 60.3 20.2 59.4 0.073 53.75 FL-CI-SE-ROIE 91.3 77.6 60.9 62.6 40.3 61.0 0.112 107.55 -
表2展示了在FL-CI-SE-ROIE中逐渐加入各种改进手段对SAR舰船实例分割精度的改善情况,包括3项改进:全等级ROI提取、上下文ROI扩充和压缩激励模块。由表2可知,随着改进手段的逐渐加入,实例分割精度被逐渐改善,精度从初始59.3% AP渐进式地上升到了最终61.0% AP。如表2所示,初始实例分割精度AP为59.3%,多尺度舰船的检测精度可以提现网络的多尺度描述能力。在加入全等级ROI提取后,小尺度舰船的检测精度提高了0.6%;中尺度舰船的检测精度提高了1.1%;大尺度舰船的检测精度提高了5.5%;综合检测精度AP提升至59.8%。由此可知,全等级ROI提取增强了网络的多尺度描述能力。在加入上下文ROI扩充后,扩大了感受野,增强了对背景的鉴别能力,AP上升至60.7%。在加入压缩激励模块后,平衡了不同范围上下文信息的贡献,进一步提高了分割精度,AP上升至61.0%。逐渐加入改进手段时,模型虽然复杂度更高且处理时间增加,但复杂度并未提升过多,且处理时间也未增加过多,这对于精度的提升而言是可以接受的。综上,FL-CI-SE-ROIE的各项改进均能提高SAR舰船实例分割的精度。
全等级 上下文 压缩激励 AP50/% AP75/% APS/% APM/% APL/% AP/% #Para×106 推理耗时/s — — — 91.7 73.1 58.7 61.6 34.8 59.3 95.92 0.086 √ — — 90.4 74.6 59.3 62.7 40.3 59.8 95.92 0.091 √ √ — 91.4 75.5 60.0 63.0 30.3 60.7 106.76 0.099 √ √ √ 91.3 77.6 60.9 62.6 40.3 61.0 107.55 0.112
A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation
doi: 10.12178/1001-0548.2022415
- Received Date: 2022-12-10
- Rev Recd Date: 2023-03-10
- Available Online: 2023-05-26
- Publish Date: 2023-05-28
-
Key words:
- deep learning /
- instance segmentation /
- ROI extractor /
- synthetic aperture radar
Abstract: The current deep-learning based SAR ship instance segmentation models fail to consider the full level information of features and the context information of targets, which leads to low instance segmentation accuracy. In order to address this problem, a SAR ship instance segmentation method based on a full-level context information squeeze-and-excitation region of interest (ROI) extractor is proposed. This method proposes a novel ROI extractor(ROIE), called FL-CI-SE-ROIE. First of all, FL-CI-SE-ROIE can extract ROI at all levels, which can retain the full level features of the target, thus enhancing the multi-scale description capability of the network. Then, FL-CI-SE-ROIE expands the ROI context information, which can gain the context information of targets, thus enhancing the background identification capability. Finally, FL-CI-SE-ROIE introduces a squeeze and excitation(SE) module, which can balance ROI context information in different ranges, thus suppressing background interference, and further improving the accuracy of instance segmentation. The experimental results on the public polygon segmentation SAR ship detection dataset (PSeg-SSDD) show that the SAR ship instance segmentation accuracy of the proposed method is higher than that of the current 9 comparison models.
Citation: | ZHANG Tianwen, ZHANG Xiaoling, SHAO Zikang, ZENG Tianjiao. A Full-Level Context Squeeze-and-Excitation ROI Extractor for SAR Ship Instance Segmentation[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 357-365. doi: 10.12178/1001-0548.2022415 |