基于改进YOLOv5的小目标检测算法

郭磊; 王邱龙; 薛伟; 郭济

doi:10.12178/1001-0548.2021235

基于改进YOLOv5的小目标检测算法

doi: 10.12178/1001-0548.2021235

郭磊^1, ,,
王邱龙²,
薛伟²,
郭济³

1.
电子科技大学计算机科学与工程学院　成都　611731
2.
新疆大学信息科学与工程学院　乌鲁木齐　830000
3.
西藏民族大学财经学院　陕西咸阳　712082

基金项目: 国家重点研发计划 (2018YFC0831800)

详细信息

作者简介:
郭磊(1971 − )，男，博士，副教授，主要从事机器学习、视频理解、嵌入式系统方面的研究

通讯作者: 郭磊，E-mail：leiguo@uestc.edu.cn

中图分类号: TP39

A Small Object Detection Algorithm Based on Improved YOLOv5

GUO Lei^{1
, ,},
WANG Qiulong²,
XUE Wei²,
GUO Ji³

1.
School of Computer Science and Engineering, University of Electronic Science and Technology of China　Chengdu　611731
2.
School of Information Science and Engineering, Xinjiang University　Urumqi　830000
3.
College of Finance and Economics, Xizang Minzu University　Xianyang Shanxi　712082

摘要: 针对目标检测中小目标误检、漏检及特征提取能力不足等问题，提出一种基于改进YOLOv5的小目标检测算法。该算法使用Mosaic-8方法进行数据增强，通过增加一个浅层特征图、调整损失函数，来增强网络对小目标的感知能力；通过修改目标框回归公式，解决训练过程中梯度消失等问题，提升了小目标的检测精度。将改进后的算法应用在密集人群情景下的防护面具佩戴检测中，实验结果表明，相较于原始YOLOv5算法，该算法在小目标检测上具有更强的特征提取能力和更高的检测精度。
- 数据增强 /
- 深度学习 /
- 小目标检测 /
- YOLOv5
Abstract: For object detection, one immediate problem is the insufficiency of feature extraction on small objects, which is easy to make false detection and miss the inspection on small targets. To solve the problem of small object detection, an improved detection algorithm based on YOLOv5 was proposed. The algorithm uses the method of Mosaic-8 on data augmentation. A shallow feature map is added to the YOLOv5 network and loss function is adjusted to improve the sensibility of network on small targets. The target box regression formula is modified to solve the problem of gradient disappearance in training process, which realized accurate precision on small targets. The improved algorithm is applied to mask wearing detection under crowed environment. Experimental results show that the proposal algorithm has stronger feature extraction ability and higher detection accuracy on small object detection compared to the original YOLOv5 algorithm.
- data augmentation /
- deep learning /
- small object detection /
- YOLOv5
图 1 整体网络结构

下载: 全尺寸图片幻灯片

图 2 Mosaic 数据增强流程

下载: 全尺寸图片幻灯片

图 3 Mosaic-8 数据增强细节

下载: 全尺寸图片幻灯片

图 4 原始YOLOv5特征提取模型

下载: 全尺寸图片幻灯片

图 5 改进后的特征提取模型

下载: 全尺寸图片幻灯片

图 6 改进后的特征融合网络

下载: 全尺寸图片幻灯片

图 7 预测框P与真实框GT

下载: 全尺寸图片幻灯片

图 8 GIoU退化为IoU示例

下载: 全尺寸图片幻灯片

图 9 目标框回归原理图

下载: 全尺寸图片幻灯片

图 10 模型在数据集上的训练过程

下载: 全尺寸图片幻灯片

图 11 检测效果对比图

下载: 全尺寸图片幻灯片

表 1 特征图大小与先验框尺寸对应关系

特征图大小先验框尺寸

13×13 [116,90] [156,198] [373,326]
26×26 [30,61] [62,45] [59,119]
52×52 [10,13] [16,30] [33,23]
104×104 [5,6] [8,14] [15,11]

下载: 导出CSV

表 2 不同算法性能对比结果

算法 AP/% mAP/% Times/s FPS
bad good

文献[23] 83.53 84.17 83.85 0.028 35.3
AIZOO 87.36 86.88 87.12 0.021 47.6
YOLOv5 89.49 91.16 90.33 0.024 41.6
本文
算法 93.21 96.54 94.88 0.033 30.3

下载: 导出CSV

[1]	NAJIBI M, SAMANGOUEI P, CHELLAPPA R, et al. Ssh: Single stage headless face detector[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2017: 4875-4884.
[2]	LIU Y, MA Z, LIU X, et al. Privacy-preserving object detection for medical images with faster R-CNN[J]. IEEE Transactions on Information Forensics and Security, 2019, PP(99): 1.
[3]	JAEGER P F, KOHL S A A, BICKELHAUPT S, et al. Retina U-Net: Embarrassingly simple exploitation of segmentation supervision for medical object detection[C]//Machine Learning for Health Workshop. [S. l. ]: PMLR, 2020: 171-183.
[4]	ZHANG L, LIN L, LIANG X, et al. Is faster R-CNN doing well for pedestrian detection?[C]//European Conference on Computer Vision. Cham: Springer, 2016: 443-457.
[5]	RAGHUNANDAN A, RAGHAV P, ARADHYA H V R. Object detection algorithms for video surveillance applications[C]//2018 International Conference on Communication and Signal Processing (ICCSP). [S.l.]: IEEE, 2018: 0563-0568.
[6]	LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C]//European Conference on Computer Vision. Cham: Springer, 2014: 740-755.
[7]	ZHU Z, LIANG D, ZHANG S, et al. Traffic-sign detection and classification in the wild[C]//Proceedings of the IEEE Conference on Computer Vision And Pattern Recognition. [S.l.]: IEEE, 2016: 2110-2118.
[8]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi: 10.1109/5.726791
[9]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2014: 580-587.
[10]	HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. doi: 10.1109/TPAMI.2015.2389824
[11]	GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2015: 1440-1448.
[12]	REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149.
[13]	REDMON J, DIVVALA S, GIRSHICk R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2016: 779-788.
[14]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[15]	REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2017: 7263-7271.
[16]	REDMON J, FARHADI A. Yolov3: An incremental improvement[EB/OL]. [2021-03-25]. https://arxiv.org/pdf/1804.02767.pdf.
[17]	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[EB/OL]. [2021-04-15]. https://arxiv.org/abs/2004.10934.
[18]	ZHENG Zhaohui, WANG Ping , LIU Wei, et al. Distance-IoU loss: Faster and better learning for bounding box regression[C]//Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2019,
[19]	LIN T Y , DOLLAR P , GIRSHICK R , et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE Computer Society, 2017, DOI: 10.1109/CVPR.2017.106.
[20]	LIU S , QI L , QIN H , et al. Path aggregation network for instance segmentation[EB/OL]. [2020-11-12]. https://arxiv.org/pdf/1803.01534.pdf.
[21]	REZATOFIGHI H, TSOI N, GWAK J Y, et al. Generalized intersection over union: A metric and a loss for bounding box regression[EB/OL]. [2020-11-15]. https://arxiv.org/pdf/1902.09630.pdf.
[22]	NEUBECK A, GOOL L V. Efficient non-maximum suppression[C]//International Conference on Pattern Recognition. Hongkong, China: IEEE Computer Society, 2006,
[23]	肖俊杰. 基于YOLOv3和YCrCb的人脸口罩检测与规范佩戴识别[J]. 软件, 2020, 41(7): 164-169. XIAO J J. Masked face detection and standard wearing mask recognition[J]. Computer Engineering & Software, 2020, 41(7): 164-169.
[24]	XIONG R, YANG Y, HE D, et al. On layer normalization in the transformer architecture[EB/OL]. [2021-10-12]. https://arxiv.org/abs/2002.04745v1.
[25]	LOSHCHILOV I, HUTTER F. SGDR: Stochastic gradient descent with warm restarts[EB/OL]. [2021-05-25].https://arxiv.org/pdf/1608.03983.pdf.

[1]	王奇, 钱伟中, 雷航, 王旭鹏. 基于关键特征增强机制的3D人脸识别 . 电子科技大学学报, 2024, 53(2): 252-258. doi: 10.12178/1001-0548.2023012
[2]	章坚武, 戚可寒, 章谦骅, 孙玲芬. 车辆边缘计算中基于深度学习的任务判别卸载 . 电子科技大学学报, 2024, 53(1): 29-39. doi: 10.12178/1001-0548.2022376
[3]	邵延华, 张兴平, 张晓强, 楚红雨, 吴亚东. 联合结构重参数和YOLOv5的航拍红外目标检测 . 电子科技大学学报, 2024, 53(): 1-8. doi: 10.12178/1001-0548.2022070
[4]	田晟兆, 胡迎茜, 谷成, 陈端兵. 知识与数据联合驱动建模技术综述 . 电子科技大学学报, 2023, 52(6): 932-943. doi: 10.12178/1001-0548.2022289
[5]	周丰丰, 孙燕杰, 范雨思. 基于miRNA组学的数据增强算法 . 电子科技大学学报, 2023, 52(2): 182-187. doi: 10.12178/1001-0548.2023002
[6]	郭峰, 陈中舒, 代久双, 吴云峰, 刘军, 张昌华. 基于动态先验特征的包覆药多类型外观缺陷深度检测框架 . 电子科技大学学报, 2023, 52(6): 872-879. doi: 10.12178/1001-0548.2022326
[7]	李阳, 李春璇, 徐灿飞, 方立梅. 基于残差注意力机制的肺结节数据增强方法 . 电子科技大学学报, 2023, 52(6): 880-886. doi: 10.12178/1001-0548.2022363
[8]	赵云龙, 田生祥, 李岩, 罗龙, 齐鹏文. 基于注意力模型和Soft-NMS的输电线路小目标检测方法 . 电子科技大学学报, 2023, 52(6): 906-914. doi: 10.12178/1001-0548.2022290
[9]	郭磊, 林啸宇, 王勇, 陈正武, 常伟. 基于深度学习的直升机旋翼声信号检测与识别一体化算法 . 电子科技大学学报, 2023, 52(6): 925-931. doi: 10.12178/1001-0548.2023108
[10]	齐鹏文, 李渊, 李岩, 罗龙, 赵云龙. 基于注意力模型的输电线路隐患检测 . 电子科技大学学报, 2023, 52(2): 240-246. doi: 10.12178/1001-0548.2022063
[11]	罗欣, 陈艳阳, 耿昊天, 许文波, 张民. 基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
[12]	郭磊, 王邱龙, 薛伟, 郭济. 基于注意力机制的光线昏暗条件下口罩佩戴检测 . 电子科技大学学报, 2022, 51(1): 123-129. doi: 10.12178/1001-0548.2021222
[13]	杨旺功, 淮永建, 张福泉. 基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
[14]	吴涢晖, 赵子天, 陈晓雷, 邹士亚. 大气低频声信号识别深度学习方法研究 . 电子科技大学学报, 2020, 49(5): 758-765. doi: 10.12178/1001-0548.2019297
[15]	邵杰, 黄茜, 曹坤涛. 基于深度学习的人体解析研究综述 . 电子科技大学学报, 2019, 48(5): 644-654. doi: 10.3969/j.issn.1001-0548.2019.05.001
[16]	邓钰, 雷航, 李晓瑜, 林奕欧. 用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
[17]	李彦冬, 雷航, 郝宗波, 唐雪飞. 基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
[18]	林奕欧, 雷航, 李晓瑜, 吴佳. 自然语言处理中的深度学习：方法及应用 . 电子科技大学学报, 2017, 46(6): 913-919. doi: 10.3969/j.issn.1001-0548.2017.06.021
[19]	陈俊周, 汪子杰, 陈洪瀚, 左林翼. 基于级联卷积神经网络的视频动态烟雾检测 . 电子科技大学学报, 2016, 45(6): 992-996. doi: 10.3969/j.issn.1001-0548.2016.06.020
[20]	陈姝, 梁文章. 结合特征点匹配及深度网络检测的运动跟踪 . 电子科技大学学报, 2016, 45(2): 246-251.

点击查看大图

图(11) / 表(2)

计量

文章访问数: 8298
HTML全文浏览量: 6365
PDF下载量: 372
被引次数: 0

全文HTML

随着人工智能理论和深度学习技术的深入研究，作为计算机视觉领域核心问题之一的目标检测技术也取得了较大进展，已被应用于人脸检测^[1] 、智慧医疗^[2-3] 、行人检测^[4] 、活动识别^[5] 等。目标检测是利用图像处理、深度学习等技术，从图像或视频中定位感兴趣的对象，通过目标分类判断输入图像中是否包含目标，用目标定位找出目标物体位置并框出目标，其任务是锁定图像中的目标，定位目标位置、确定目标类别。作为图像及视频理解的基石，目标检测是解决图片分割、目标跟踪、图像描述、事件检测和场景理解等更高层次视觉任务的基础。

小目标检测长期以来是目标检测中的重点和难点之一。由于小目标具有图像覆盖面积较少、分辨率不足、位置缺乏准确性、特征表达不充分的特点，因而相对于常规目标小目标检测更困难。目标检测中对小目标的定义通常有两种：1)国际光学工程学会对小目标的定义，将256×256像素的图像中成像点小于80个像素点(即目标所占的像素点数与原图总像素点数的比例小于0.12%)的目标定义为小目标；2)根据具体的数据集对小目标进行定义，如在COCO数据集^[6] 中，将尺寸小于32×32像素的目标定义为小目标；文献[7] 在其交通标志数据集中，将宽度占整个图像比例小于20%的目标定义为小目标。一般而言，常规目标特征表达充分，位置准确明了，而小目标的分辨率相对较低，特征表达会相对缺乏。

1. 相关工作

传统的目标检测算法通常由人工提取目标的特征，检测精度低、效果不好。随着深度学习的发展和硬件设备算力的提升，基于深度学习的卷积神经网络(convolutional neural network, CNN)^[8] 崭露头角，人们开始利用卷积神经网络自动提取图像中的特征并将其应用在目标检测中，极大地提升了目标检测效果。目前最通用的两个方法是以R-CNN(region-based CNN)系列为代表的基于候选框的两阶段深度学习算法和以YOLO(you only look once)系列为代表的基于回归的单阶段深度学习目标检测算法。

R-CNN模型^[9]使用CNN提取的特征替代传统视觉特征，并采用大样本的有监督预训练与小样本微调的方式解决模型的过拟合问题，使得模型的检测性能有了较大的提升，但R-CNN需对每个候选区域的CNN特征进行大量重复计算。SPP-Net网络^[10]能产生固定大小的输出，而与输入图像大小无关；由于输入尺寸的灵活性，使得SPP-Net能够提取多个尺度下的特征，且一张图片中候选区域的CNN特征只需要计算一次，在很大程度上能够节省计算资源。在SPP-Net的基础上，文献[11-12] 先后提出Fast R-CNN和Faster R-CNN模型。从R-CNN模型发展到Fast R-CNN模型，进一步发展到Faster R-CNN模型，检测速度不断提高，检测精度也不断增强，但与单阶段目标检测算法在检测速度上相比，仍具有一定差距。

YOLO系列算法和单点多盒检测器(single shot multibox detector, SSD)是典型的单阶段目标检测算法。文献[13] 提出了第一个单阶段目标检测算法YOLO，与YOLO最后采用全连接层提取检测结果不同，SSD^[14]使用不同尺度的特征图来做检测，并直接使用卷积提取检测结果。文献[15-16] 在YOLOv1的基础上继续改进，又提出了YOLOv2和YOLOv3检测算法，其中YOLOv2进行了多种尝试，使用了批标准化(batch normalization, BN)技术，引入了锚框机制；YOLOv3采用darknet-53作为骨干网络，并且使用了3种不同大小的锚框，在逻辑分类器中使用sigmoid函数把输出约束在0～1之间，使得YOLOv3拥有更快的推理速度。文献[17] 在传统的YOLO基础上，加入了一些实用的技巧，提出了YOLOv4算法，将BackBone骨干网络中的ReLU激活函数改为Mish激活函数，与ReLU相比，Mish函数图像更加平滑，实现了检测速度和精度的最佳权衡。从YOLOv1至今，YOLO系列已经发展到了YOLOv5，YOLOv5融合了先前版本的优点，在检测速度和精度上都更胜一筹，在某种程度上YOLOv5已经成为YOLO系列算法中的SOTA(State Of The Art)。

YOLOv5是一个高性能、通用的目标检测模型，能一次性完成目标定位与目标分类两个任务，因此选择YOLOv5作为目标检测的基本骨架是可行的。但是为了实现一些场景下对小目标的独特性检测，就需要对YOLOv5的网络结构进行相应的调整和改进。

4. 结束语

本文在原有YOLOv5算法的基础上，分别从Mosaic数据增强、特征提取器、损失函数和目标框回归4个方面进行改进，有效地增强了YOLOv5网络模型对小目标物体的检测精度，改进后的算法检测速率相较于原始YOLOv5算法有所降低，但仍能满足实时性要求，可以直接应用在医学图像、遥感图像分析和红外图像中的小目标检测等实际场景中。

参考文献 (25)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于改进YOLOv5的小目标检测算法

doi: 10.12178/1001-0548.2021235

作者简介:
郭磊(1971 − )，男，博士，副教授，主要从事机器学习、视频理解、嵌入式系统方面的研究

通讯作者: 郭磊，E-mail：leiguo@uestc.edu.cn

A Small Object Detection Algorithm Based on Improved YOLOv5

计量

基于改进YOLOv5的小目标检测算法

doi: 10.12178/1001-0548.2021235

1. 电子科技大学计算机科学与工程学院　成都　611731

2. 新疆大学信息科学与工程学院　乌鲁木齐　830000

3. 西藏民族大学财经学院　陕西咸阳　712082

作者简介:
郭磊(1971 − )，男，博士，副教授，主要从事机器学习、视频理解、嵌入式系统方面的研究

通讯作者: 郭磊，E-mail：leiguo@uestc.edu.cn

English Abstract

A Small Object Detection Algorithm Based on Improved YOLOv5

1. School of Computer Science and Engineering, University of Electronic Science and Technology of China　Chengdu　611731

2. School of Information Science and Engineering, Xinjiang University　Urumqi　830000

3. College of Finance and Economics, Xizang Minzu University　Xianyang Shanxi　712082

全文HTML

2.1. Mosaic-8数据增强

2.2. 特征提取器

2.3. 损失函数

2.4. 目标框回归

3.1. 数据集

3.2. 实验环境与模型训练

3.3. 评估指标与实验结果分析

目录

期刊在线

编辑办公

友情链接

特征图大小	先验框尺寸
13×13	[116,90]	[156,198]	[373,326]
26×26	[30,61]	[62,45]	[59,119]
52×52	[10,13]	[16,30]	[33,23]
104×104	[5,6]	[8,14]	[15,11]

算法	AP/%		mAP/%	Times/s	FPS
算法	bad	good	mAP/%	Times/s	FPS
文献[23]	83.53	84.17	83.85	0.028	35.3
AIZOO	87.36	86.88	87.12	0.021	47.6
YOLOv5	89.49	91.16	90.33	0.024	41.6
本文算法	93.21	96.54	94.88	0.033	30.3

留言板

基于改进YOLOv5的小目标检测算法

doi: 10.12178/1001-0548.2021235

作者简介: 郭磊(1971 − )，男，博士，副教授，主要从事机器学习、视频理解、嵌入式系统方面的研究

通讯作者: 郭磊，E-mail：leiguo@uestc.edu.cn

A Small Object Detection Algorithm Based on Improved YOLOv5

计量

出版历程

基于改进YOLOv5的小目标检测算法

doi: 10.12178/1001-0548.2021235

1. 电子科技大学计算机科学与工程学院 成都 611731 2. 新疆大学信息科学与工程学院 乌鲁木齐 830000 3. 西藏民族大学财经学院 陕西 咸阳 712082

作者简介: 郭磊(1971 − )，男，博士，副教授，主要从事机器学习、视频理解、嵌入式系统方面的研究

通讯作者: 郭磊，E-mail：leiguo@uestc.edu.cn

English Abstract

A Small Object Detection Algorithm Based on Improved YOLOv5

1. School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731 2. School of Information Science and Engineering, Xinjiang University Urumqi 830000 3. College of Finance and Economics, Xizang Minzu University Xianyang Shanxi 712082

全文HTML

2.1. Mosaic-8数据增强

2.2. 特征提取器

2.3. 损失函数

2.4. 目标框回归

3.1. 数据集

3.2. 实验环境与模型训练

3.3. 评估指标与实验结果分析

目录

期刊在线

编辑办公

友情链接

作者简介:
郭磊(1971 − )，男，博士，副教授，主要从事机器学习、视频理解、嵌入式系统方面的研究

1. 电子科技大学计算机科学与工程学院　成都　611731

2. 新疆大学信息科学与工程学院　乌鲁木齐　830000

3. 西藏民族大学财经学院　陕西咸阳　712082

作者简介:
郭磊(1971 − )，男，博士，副教授，主要从事机器学习、视频理解、嵌入式系统方面的研究