-
随着人工智能技术与机器视觉技术的发展,越来越多的智能产品出现在家居生活中。近年来,家居使用的智能监控球机应用日益广泛,代表性产品有360智能摄像头、萤石智能摄像头等,此类智能球机摄像头侵入检测使用了深度学习技术进行目标识别,识别侵入目标为人体后进行目标跟踪,跟踪过程中发送警报与录取视频[1-2]。该方法抑制了系统的误报警,提高了系统的效率,但仍存在一些问题,如侵入目标的快速移动会造成识别环节的识别失败,侵入目标的暂时遮挡会造成跟踪的丢失。此外,市面上的产品普遍没有利用云台的灵活性进行自动跟随算法的设计,导致无法长期跟随侵入目标。
本文针对室内球机侵入监控的特点与要求,设计了一种高鲁棒性、长期跟踪侵入目标的方法。该方法采用了高性能、高准确率的运动检测算法、目标识别方法、目标跟踪算法,为提高鲁棒性与跟踪的长效性,设计了一种对侵入目标的检测、识别、跟踪的闭环工作机制。并且使用高效控制算法控制舵机云台,使摄像头自动跟随目标,进一步提高对侵入目标的跟踪鲁棒性,延长跟踪时间。
-
该方法首先需检测视频图像中的运动目标。侵入目标检测作为该方法第一个环节,为满足方法的高效与鲁棒性,运动目标的检测需采用运动前景提取高效、检测效果明显的算法[3]。
本文采用vibe算法进行运动目标检测,该算法具备前景检测和背景模型更优的优势。
vibe算法提取运动目标前景分为3个步骤:
1) 初始化单帧图像中每个像素点的背景模型。当输入第一帧图像时,建立像素的背景模型:
$${\rm{BK}}_M^0 = {f^0}({x^i}, {y^i})|({x^i}, {y^i}) \in {N_G}(x, y)$$ (1) 式中,${N_G}(x, y)$表示空域上相邻的像素值;${f^0}({x^i}, {y^i})$表示当前点的像素值。在初始化过程中,选择第一帧图像建立背景模型。
2) 对后续的图像序列进行前景目标分割操作。初始化之后,前景提取由下式决定:
$${f^k}(x,y) = \left\{ \begin{array}{l} {\rm{BK}}_M^{k - 1} = 1|({x^r},{y^r}) > T{\kern 1pt} {\kern 1pt} \quad {\rm{ 前景}}\\ {\rm{BK}}_M^{k - 1} = 0|({x^r},{y^r}) \le T\quad {\rm{背景}} \end{array} \right.$$ (2) 式中,k为当前图像帧;$(x, y)$为像素点;${\rm{BK}}_M^{k - 1}$为背景模型;${f^k}(x, y)$为像素值;$T$为预设阈值,根据当前像素点背景模型和阈值的比较确定其为前景或背景。
3) 背景模型更新。通常背景变化不大,所以每次背景模型更新的次数相近。因此将第一帧背景更新的次数作为比较值,符合式(3)则对背景模型进行重新初始化:
$$|{\rm{Update}} - {\rm{Init}}| > 0.3{\rm{Init}}$$ (3) 式中,${\rm{Update}}$为背景更新次数;${\rm{Init}}$为一帧图像更新次数,以此避免由于大面积的光照变化导致的误判。
图 2为vibe算法对运动目标的前景提取效果。可见,使用vibe算法在视频中能够高效清晰地提取出运动目标前景。
-
在侵入目标识别环节检测出侵入目标中最明显的人脸或人体目标之后,进入侵入目标的跟随环节。
-
本文选取csr-dcf目标跟踪算法,该算法的特点在于跟踪的准确性较高、鲁棒性强、速度较快、综合性能较好[4-6]。
文献[7]给出了最新和经典目标跟踪算法官方数据的比较,如表 1所示。
表 1 目标跟踪算法性能比较
目标跟踪算法 Aav Rav FPS csr-dcf 0.51 0.85 13.0 ccot 0.52 0.85 0.55 srdcf 0.52 1.50 7.3 kcf 0.48 2.03 115.7 dsst 0.48 2.52 18.6 struck 0.42 3.37 8.5 由官方数据可见,csr-dcf在平均准确率(Aav)、平均失败率(Rav)、处理速度(FPS)3项指标上性能最高。适用于对侵入目标的高效、稳定跟踪。
csr-dcf是一种基于相关滤波的跟踪算法,而滤波跟踪算法存在以下两个问题:1)由于FFT算法限定了滤波器尺寸与图像块尺寸必须一致,这样就限制了检测范围;2)由于引入了循环矩阵,导致滤波器的训练数据并不真实,只能支持矩形目标,与真实世界不符。
针对以上问题,csr-dcf算法采用了“空间置信”方法进行改进。其主要思想是利用图像分割方法产生适应能力更好的蒙版(mask),空间置信图通过后验概率的求解得到。
求解目标的后验概率:
$${\rm{prob\_o}} = \frac{{{\rm{p\_o}} * {\rm{forlikehood}}}}{{{\rm{p\_o}} * {\rm{forlikehood}} + {\rm{p\_b}} * {\rm{backlikehood}}}}$$ (4) 式中,p_o是先验概率,可以是固定的数值,与采样数据中的前景/背景区域有关;forlikelihood为似然,在给定的前景图像中,该像素属于目标的概率;prob_o为后验概率,在给定的目标图像条件下,该像素属于前景蒙版的概率。
先验概率p_o为:
$${\rm{p\_o}} = p(y|m = 1, x) * p(x|m = 1) * p(m = 1)$$ (5) 式中,p(x, y)为目标出现的概率函数。
该算法思路为:用先验概率图与似然概率图进行的某种图像卷积而形成的滤波过程,最终实现了对不规则形状的物体的自适应,从而克服和改进了滤波跟踪算法中存在的不足之处[7-8]。
csr-dcf目标跟踪算法对视频中目标跟踪的效果如图 5所示。由图 5可见csr-dcf目标跟踪算法能够对视频指定的跟踪目标进行快速、稳定地跟踪锁定。
-
智能球机的底座为两个数码舵机控制的2自由度云台,本文提取跟踪目标的中心坐标后,分析中心坐标位置与视频中心位置的关系,启动云台跟随目标,让摄像头跟随目标运动,延长捕获目标的时间。因此云台的控制算法需要反应快,跟踪准确,本文采用了模糊自适应pid(proportion-integral- differential)控制算法控制云台。
本文采用的模糊自适应pid控制算法主要由模糊控制器和pid控制器结合而成,模糊控制器以误差e和误差变化率ec作为输入,利用模糊规则对pid控制器的参数Kp、Ki和Kd进行自适应整定,使被控对象保持在良好的动、静态稳定状态。相比传统的pid控制,模糊自适应pid更加灵活稳定,特别是对时变性和非线性较大的被控对象,其优点更加突出[10-12]。
-
实验测试、视频处理硬件环境为:自行搭建的2自由度云台球机平台,intel i7 4核处理器2.5 GHz,8 GB内存,Gforce GT 950M显卡。软件平台使用VS2015+opencv3.4.2+cuda8.0环境。
为验证本文提出方法的有效性,采用云台球机进行完整的功能与性能测试,包括对目标的运动检测、目标的识别以及使用跟踪算法和pid控制算法对目标的跟踪效果,同时测试该方法的闭环结构工作性能以验证该方法的高鲁棒性。
综合测试结果如图 6所示,可以看出球机首先进行运动检测,在存在运动目标的前提下,启动目标识别,其中首要识别目标为人脸,人脸无法检测时进行人体识别,以保证侵入识别的全面性。在识别到侵入目标后进入目标跟踪环节,使用目标跟踪算法提取跟踪目标位于图像中的位置,启动球机云台进行跟随,正对跟踪目标后再次切换到识别模式,验证当前跟随目标为侵入目标,当目标消失后再次进入运动检测模式。
云台实时采集一定时长的(140帧)视频以测试系统的鲁棒性综合性能,测试结果如表 2所示。由表 2的性能分析可见,整个系统在实时采集的140帧视频图像中,各个环节高效切换,闭环工作性能完善,跟随锁定时间长,鲁棒性高。
表 2 系统综合测试性能分析
参数 帧数 0 0 1 16 17 18 60 61 136 138 139 140 模式 运动检测 目标识别 目标跟踪 目标跟踪 目标识别 目标跟踪 目标跟踪 目标识别 目标识别 目标跟踪 目标识别 运动检测 性能 检测出显著运动目标 识别首要目标人脸 启动跟踪人脸 正对锁定跟踪目标 再次识别人脸 启动目标跟踪 正对锁定跟踪目标 再次识别人脸 人脸被遮挡,进行人体识别 正对锁定跟踪目标 目标识别再次识别 再次进行运动检测
A Highly Robust Intrusion Detection Method for Intelligent Ball Machines
-
摘要: 智能监控球机广泛应用于家居室内智能监控。针对智能球机无法长时间检测、识别、跟踪侵入目标的问题,该文设计了一种结合目标检测、识别、跟踪算法的闭环结构,并采用控制算法控制球机云台转向自动跟随侵入目标。在运动目标检测方面采用vibe算法,在目标识别上采用神经网络识别目标,其中采用ssd网络检测人脸,使用yolov3网络识别人体,识别出跟踪目标后,采用csr-dcf目标跟踪算法进行目标跟踪,跟踪模式下启动模糊pid控制算法控制云台跟随目标转动,锁定目标后由跟踪模式再度切换到目标识别模式,形成一个检测、识别、跟踪、控制的闭环。经过测试,该方法提高了侵入跟踪功能的鲁棒性,在侵入目标快速运动、存在遮挡、暂时消失的情况下均可长期跟踪。Abstract: Intelligent monitoring ball machine is widely used in indoor intelligent monitoring. Aiming at the problem of long-term detection, recognition and tracking of intrusive targets, this paper designs and implements a closed-loop structure combining target detection, target recognition and target tracking algorithm, and uses control algorithm to control the ball machine platform to automatically follow the intrusive targets. Vibe algorithm is used for moving target detection and neural network is applied for target recognition, where single shot multi box detector (SSD) network is used to detect face and yolov3 (You only look once) network is used to recognize human body. After recognizing the tracking target, discriminative correlation filter with channel and spatial reliability (csr-dcf) target tracking algorithm is used to track the target. In the tracking mode, the fuzzy pid control algorithm is started to control the platform to follow the target rotation, and after locking the target, the tracking mode is used to track the target. The model is switched to target recognition mode again, forming a closed loop of detection, recognition, tracking and control. The test shows that this method improves the robustness of intrusion tracking function, and can be tracked for a long time in the case of fast movement of the intrusive target, occlusion and temporary disappearance.
-
表 1 目标跟踪算法性能比较
目标跟踪算法 Aav Rav FPS csr-dcf 0.51 0.85 13.0 ccot 0.52 0.85 0.55 srdcf 0.52 1.50 7.3 kcf 0.48 2.03 115.7 dsst 0.48 2.52 18.6 struck 0.42 3.37 8.5 表 2 系统综合测试性能分析
参数 帧数 0 0 1 16 17 18 60 61 136 138 139 140 模式 运动检测 目标识别 目标跟踪 目标跟踪 目标识别 目标跟踪 目标跟踪 目标识别 目标识别 目标跟踪 目标识别 运动检测 性能 检测出显著运动目标 识别首要目标人脸 启动跟踪人脸 正对锁定跟踪目标 再次识别人脸 启动目标跟踪 正对锁定跟踪目标 再次识别人脸 人脸被遮挡,进行人体识别 正对锁定跟踪目标 目标识别再次识别 再次进行运动检测 -
[1] MAITIN-SHEPARD J, CUSUMANO-TOWNER M, LEI J, et al. Clothgrasp point detection based on multiple-view geometric cueswith application to robotic towel folding[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2010: 2308-2315. [2] AHMED M N, YAMANY S M, MOHAMED N, et al. A modified fuzzy means algorithm for bias field estimation and segmentation of MRI data[J]. IEEE Transactions on Medical Imaging, 2002, 21(3):193-199. http://cn.bing.com/academic/profile?id=1a3d707da79aacd7036322bb5d8b224a&encoded=0&v=paper_preview&mkt=zh-cn [3] ZHENG J, ZHANG D H, HUANG K D, et al. An adaptive image segmentation method based on the fuzzy means with spatial information[J]. IET Image Processing, 2017, 12(5):785-792. http://cn.bing.com/academic/profile?id=9b466ec9ba6779742b2ecc461f7b45fd&encoded=0&v=paper_preview&mkt=zh-cn [4] PINNEGAR C R, MANSINHA L. Time-local spectral analysis for non-stationary time series:The S-transform for noisy signals[J]. Fluctuation and Noise Letters, 2003, 3(3):357-364. doi: 10.1142/S0219477503001439 [5] WU Bo, NEVATIA R. Detection and tracking of multiple, partially occluded humans by Bayesian combination of edgelet based part detectors[J]. International Journal of Computer Vision, 2007, 75(2):247-266. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=fc8d3ff17b329dee1b909c4b50a3c108 [6] HENRY L, NEVILLE D, NAN X. Detection of small objects in clutterusing a GA-RBF neural network[J]. IEEE Transactions on Aerospace and Electronic Systems, 2002, 38(1):98-118. doi: 10.1109/7.993232 [7] YANG C J, DURAISWAMI R, DAVIS L. Efficient mean-shift tracking via a new similarity measure[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Pis-cataway, USA: IEEE, 2005: 176-183. https://www.ingentaconnect.com/content/iee/10636919/2005/00000001/00000001/art00024 [8] TAKIGUCHI K, WADA T, TOYAMA S. Human body detection that uses electric field by walking[J]. Journal of Advanced Mechanical Design Systems and Manufacturing, 2007, 1(3):294-305. http://cn.bing.com/academic/profile?id=a5d8a61085cb921ad8103350bc458324&encoded=0&v=paper_preview&mkt=zh-cn [9] HAN Q W, CHEN X, TANG K, et al. A non-contact human-computer interaction application design based on electrostatic current of human body[J]. International Journal of Computer Applications in Technology, 2016, 53(1):23-31. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dae2bfa4bb471632b32ef359f9f76968 [10] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324. doi: 10.1109/5.726791 [11] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9):1904-1916. doi: 10.1109/TPAMI.2015.2389824 [12] LENZ I, LEE H, SAXENA A. Deep learning for detecting robotic grasps[J]. International Journal of Robotics Research, 2015, 34(4-5):705-724. doi: 10.1177/0278364914549607 [13] ERHAN D, SZEGEDY C, TOSHEV A, et al. Scalable object detection using deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2014: 2147-2154. https://dl.acm.org/citation.cfm?id=2679974 [14] HE Si-hua, YANG Shao-qing, SHAO Xiao-fang, et al. Ship target detection on the sea surface based on natural measure feature of image block[J]. Infrared and Laser Engineering, 2011, 40(9):1812-1817. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=hwyjggc201109043 [15] MERLIN P M, FARBER D J. A parallel mechanism for detecting curves in pictures[J]. IEEE Transactions on Computers, 1975, 100(1):96-98. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1111/j.1528-1167.2006.00001_8.x [16] SINGLA N. Motion detection based on frame difference method[J]. International Journal of Information & Computation Technology, 2014, 4(15):1559-1565. http://d.old.wanfangdata.com.cn/OAPaper/oai_doaj-articles_3eda607c983dc5be3310dd3b8a905a0f [17] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision. Amsterdam, Netherlands: [s.n.], 2016: 21-37. doi: 10.1007/978-3-319-46448-0_2 [18] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large scale image recognition[EB/OL].[2018-06-03]. https://arxiv.org/abs/1409.1556. [19] KONG T, YAO A, CHEN Y, et al. HyperNet: Towards accurate region proposal generation and joint object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2016: 845-853. https://ieeexplore.ieee.org/document/7780467