留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应同时稀疏表示的鲁棒性目标追踪

李厚彪 樊庆宇 耿广磊

李厚彪, 樊庆宇, 耿广磊. 基于自适应同时稀疏表示的鲁棒性目标追踪[J]. 电子科技大学学报, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
引用本文: 李厚彪, 樊庆宇, 耿广磊. 基于自适应同时稀疏表示的鲁棒性目标追踪[J]. 电子科技大学学报, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
LI Hou-biao, FAN Qing-yu, GENG Guang-lei. Robust Visual Tracking Based on Adaptive Simultaneous Sparse Representation[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
Citation: LI Hou-biao, FAN Qing-yu, GENG Guang-lei. Robust Visual Tracking Based on Adaptive Simultaneous Sparse Representation[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001

基于自适应同时稀疏表示的鲁棒性目标追踪

doi: 10.3969/j.issn.1001-0548.2018.01.001
基金项目: 

国家自然科学基金 51175443

中央高校基本科研业务费专项资金 ZYGX2016J131

中央高校基本科研业务费专项资金 ZYGX2016J138

四川省科技支撑计划 2015GZX0002

详细信息
    作者简介:

    李厚彪(1976-), 副教授, 主要从事目标追踪与图像处理方面的研究

  • 中图分类号: TN911.73

Robust Visual Tracking Based on Adaptive Simultaneous Sparse Representation

  • 摘要: 综合考虑高斯噪声和拉普拉斯噪声,并通过拉普拉斯噪声的能量大小自适应的选择稀疏模型,该文提出了基于同时稀疏表示的自适应追踪算法。该算法可以更好的解决目标遮挡、姿势改变、光照变化和背景混杂等追踪问题,且具有更强的鲁棒性。其次提出一种基于子空间学习和无监督学习(K-means)相结合的模板更新方法,该方法一方面可以及时有效地反应目标的状态,另一方面也可以避免模板更新过快而引入较大的误差。然后,利用LASSO算法对该模型做了进一步的改进,并将目前较好的9种追踪算法与该文提出的算法进行比较,实验结果表明该算法在鲁棒性、精确性和实时性方面都得到了较好的改善。
  • 图  1  各种不同追踪算法的平均重叠率

    图  2  各种不同追踪算法的平均中心误差

    图  3  各种不同追踪算法的AUC曲线

    图  4  基于快速运动和背景混杂视频下的追踪效果

    图  5  基于姿势改变和旋转视频下的追踪效果

    图  6  基于光照变化视频下的追踪效果

    图  7  基于目标遮挡视频下的追踪效果

    图  8  拉普拉斯噪声对解X的影响

    图  9  几种追踪算法在快速运动和姿势旋转视频中的追踪效果

    表  1  各种不同具有挑战性的追踪视频

    视频序列帧数噪声/s
    Walking2495SV, OCP, LR
    Car4659IV, SV
    Car2913IV, SV, BC
    Girl500OPR, OCC, LR
    FaceOcc2812OCC, OPR, IV
    Football362OCC, OPR, BC
    FaceOcc1892OCC
    Suv945OCC, OV, BC
    CarDark393IV, BC, LR
    Deer71FM, LR, BC
    Singr2366IV, OPR, BC
    Skater2435SV, OPR
    Dudek1145OCC, BC, OV
    Subway175OCC, BC
    下载: 导出CSV

    表  2  基于平均重叠率的各种不同算法性能的对比

    Sequenes CSK L1APG MTT SPT SCM 本文算法
    Walking2 0.47 0.71 0.60 0.75 0.80 0.80
    Car4 0.48 0.22 0.17 0.88 0.87 0.90
    Car2 0.69 0.88 0.89 0.87 0.87 0.90
    Girl 0.38 0.70 0.71 0.27 0.25 0.67
    Football 0.56 0.41 0.65 0.60 0.57 0.65
    FaceOcc1 0.80 0.78 0.66 0.73 0.80 0.75
    FaceOcc2 0.78 0.66 0.70 0.80 0.75 0.75
    Suv 0.52 0.49 0.03 0.51 0.62 0.79
    CarDark 0.75 0.55 0.83 0.86 0.81 0.86
    Deer 0.76 0.68 0.74 0.72 0.66 0.78
    Singr2 0.04 0.03 0.04 0.04 0.27 0.58
    Skater2 0.59 0.28 0.18 0.36 0.25 0.58
    Dudek 0.72 0.78 0.49 0.77 0.78 0.81
    Subway 0.20 0.16 0.07 0.16 0.70 0.77
    AOR 0.55 0.52 0.48 0.59 0.64 0.76
    下载: 导出CSV

    表  3  基于平均局部中心误差的各种不同算法性能的对比

    Sequences CSK L1APG MTT SPT SCM 本文算法
    Walking2 17.78 7.12 11.31 2.42 1.94 2.29
    Car4 19.13 102.26 425.56 3.02 2.92 1.57
    Car2 2.53 1.40 1.50 2.17 1.61 1.79
    Girl 19.34 3.27 3.08 11.38 83.44 4.97
    Football 16.19 27.40 9.41 13.41 14.03 7.48
    FaceOcc1 11.93 13.85 27.74 20.21 12.45 18.16
    FaceOcc2 5.92 12.82 10.40 6.05 9.18 8.53
    Suv 573.23 75.35 529.75 53.41 32.85 6.50
    CarDark 3.23 18.32 1.01 1.21 1.30 0.95
    Deer 4.96 17.50 7.12 7.74 13.16 5.68
    Singer2 185.47 180.07 208.49 170.48 67.15 13.55
    Skater2 16.78 68.32 250.50 40.57 105.90 20.71
    Dudek 13.39 8.63 336.24 10.09 11.44 8.71
    Subway 164.37 147.15 202.94 140.15 3.91 2.70
    ACLE 75.30 48.82 144.65 34.45 25.81 6.40
    下载: 导出CSV

    表  4  基于平均成功率的各种不同算法性能的对比

    Sequences CSK L1APG MTT SPT SCM 本文算法
    Walking2 40.81 97.78 72.32 100.00 100.00 100.00
    Car4 28.22 27.47 19.73 100.00 100.00 100.00
    Car2 100.00 100.00 100.00 99.23 100.00 100.00
    Girl 41.60 95.20 99.40 27.00 33.40 91.60
    Football 67.13 41.16 80.39 81.22 75.14 73.76
    FaceOcc1 100.00 100.00 96.41 94.84 100.00 100.00
    FaceOcc2 100.00 76.35 80.91 100.00 89.41 98.77
    Suv 57.46 53.33 3.39 53.76 70.69 95.56
    CarDark 99.24 67.43 100.00 100.00 98.73 97.96
    Deer 100.00 88.73 94.37 94.37 88.73 100.00
    Singer2 3.83 2.73 3.83 3.83 26.50 71.58
    Skater2 77.01 23.22 4.83 28.28 19.77 59.54
    Dudek 94.67 93.80 58.25 99.56 98.25 98.95
    Subway 22.29 22.29 8.00 21.14 98.86 99.43
    ASR 66.59 63.54 58.70 71.66 78.53 91.94
    下载: 导出CSV

    表  5  比较拉普拉斯对实验结果的影响

    Sequences MTT算法 ASSAT (仅拉普拉斯) ASSAT(拉普拉斯+模板更新)
    Skater2 0.18 0.32 0.58
    Dudek 0.49 0.79 0.81
    SUV 0.03 0.81 0.79
    Walking2 0.60 0.35 0.80
    Subway 0.07 0.71 0.77
    下载: 导出CSV

    表  6  比较模板更新对实验结果的影响

    Sequences 文献[6](IVT) ASSAT (仅模板更新) ASSAT(拉普拉斯+模板更新)
    Skater2 0.24 0.11 0.58
    Dudek 0.80 0.80 0.81
    SUV 0.14 0.32 0.79
    Deer 0.26 0.75 0.75
    Subway 0.16 0.16 0.77
    下载: 导出CSV

    表  7  10种追踪算法的追踪性能的定量分析表

    视频 DFT CSK L1APG ORIA MTT IVT ASLSA SPT SCM 本文算法
    Walking2 0.41 0.47 0.71 0.49 0.60 0.63 0.82 0.75 0.80 0.82
    Walking 0.57 0.55 0.71 0.14 0.58 0.72 0.76 0.74 0.70 0.76
    Car4 0.24 0.48 0.22 0.21 0.17 0.91 0.89 0.88 0.87 0.89
    Car2 0.16 0.69 0.88 0.74 0.89 0.91 0.88 0.87 0.87 0.92
    Girl 0.29 0.38 0.70 0.48 0.71 0.40 0.67 0.27 0.25 0.68
    Gil2 0.37 0.39 0.38 0.36 0.34 0.37 0.42 0.38 0.42 0.73
    Football 0.62 0.56 0.41 0.70 0.65 0.52 0.53 0.60 0.57 0.63
    Football1 0.90 0.58 0.16 0.22 0.68 0.67 0.61 0.68 0.47 0.70
    FaceOcc1 0.69 0.80 0.78 0.62 0.66 0.74 0.31 0.73 0.80 0.75
    FaceOcc2 0.77 0.78 0.66 0.69 0.70 0.75 0.81 0.80 0.75 0.77
    Suv 0.08 0.52 0.49 0.65 0.03 0.14 0.83 0.51 0.62 0.85
    Surfer 0.05 0.11 0.14 0.18 0.45 0.64 0.73 0.65 0.75 0.68
    CarDark 0.38 0.75 0.55 0.42 0.83 0.83 0.81 0.86 0.81 0.80
    Deer 0.26 0.76 0.68 0.12 0.74 0.26 0.68 0.72 0.66 0.75
    Singr2 0.63 0.04 0.03 0.04 0.04 0.04 0.65 0.04 0.27 0.58
    Skater2 0.07 0.59 0.28 0.13 0.18 0.24 0.49 0.36 0.25 0.50
    Dudek 0.69 0.72 0.78 0.70 0.49 0.80 0.79 0.77 0.78 0.79
    RedTeam 0.62 0.62 0.71 0.40 0.62 0.74 0.77 0.76 0.74 0.79
    Subway 0.74 0.20 0.16 0.07 0.07 0.16 0.73 0.16 0.70 0.75
    Car24 0.10 0.41 0.79 0.42 0.79 0.78 0.75 0.50 0.87 0.73
    AOR 0.43 0.52 0.51 0.39 0.51 0.56 0.70 0.60 0.65 0.74
    Fps 5.01 150.94 0.73 3.30 1.45 18.14 3.53 2.58 0.67 9.53
    下载: 导出CSV

    表  8  10种追踪算法的ACLE比较

    视频 DFT CSK L1APG ORIA MTT IVT ASLSA SPT SCM 本文算法
    Walking2 28.8 17.8 7.1 9.57 11.3 2.9 2.1 2.4 1.9 2.4
    Walking 5.9 7.2 3.5 212.4 9.5 2.2 2.1 1.7 2.2 2.9
    Car4 61.9 19.1 102.3 123.6 425.6 1.6 2.0 3.0 2.9 2.2
    Car2 87.7 2.5 1.4 3.2 1.5 1.4 1.2 2.2 1.6 1.5
    Girl 24.0 19.3 3.3 12.7 3.1 17.2 4.6 11.4 83.4 4.6
    Gil2 129.9 157.2 115.6 115.4 204.1 128.1 122.0 119.2 114.4 8.1
    Football 9.29 16.2 27.4 6.4 9.4 15.2 15.8 13.4 14.0 7.4
    Football1 1.52 8.1 48.5 24.1 5.6 5.7 6.9 5.5 14.0 4.7
    FaceOcc1 23.6 11.9 13.9 25.5 27.7 18.0 81.3 20.2 12.5 18.4
    FaceOcc2 7.9 5.9 12.8 12.0 10.4 8.7 5.6 6.1 9.2 7.9
    Suv 111.4 573.2 75.4 38.0 529.8 92.3 4.3 53.4 32.9 2.9
    Surfer 115.7 37.5 29.7 74.4 10.4 3.5 3.2 4.9 3.2 4.6
    CarDark 58.9 3.2 18.3 26.2 1.0 1.9 1.5 1.2 1.3 1.2
    Deer 98.8 5.0 17.5 87.3 7.1 121.0 20.4 7.7 13.2 6.5
    Singer2 21.9 185.5 180.1 185.8 208.5 173.1 10.9 170.5 67.2 17.1
    Skater2 125.0 16.8 68.3 80.1 250.5 77.4 25.0 40.6 105.9 18.9
    Dudek 18.7 13.4 8.6 15.2 336.2 9.4 11.6 10.1 11.4 10.3
    RedTeam 2.9 2.6 3.2 7.8 2.9 2.6 2.6 2.4 2.5 2.3
    Subway 3.3 164.4 147.2 162.8 202.9 147.3 3.7 140.2 3.9 2.8
    Car24 160.5 8.1 2.3 1.5 1.6 1.2 2.4 59.4 1.8 2.9
    ACLE 54.9 63.7 44.3 61.2 113.0 41.5 16.4 33.8 25.0 6.5
    下载: 导出CSV
  • [1] LI A, LIN M, WU Y, et al. NUS-PRO:a new visual tracking challenge[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(2):335-349. http://www.lv-nus.org/pro/nus_pro.html
    [2] YANG H, SHAO L, ZHENG F, et al. Recent advances and trends in visual tracking:a review[J]. Neurocomputing, 2011, 74(18):3823-3831. doi:  10.1016/j.neucom.2011.07.024
    [3] ADAM A, RIVLIN E, SHIMSHONI I. Robust fragments-based tracking using the integral histogram[J]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006, 1:798-805. http://citeseerx.ist.psu.edu/showciting?doi=10.1.1.108.4210
    [4] ROSS D A, LIM J, LIN R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3):125-141. doi:  10.1007/s11263-007-0075-7
    [5] LIWICKI S, ZAFEIRIOU S, TZIMIROPOULOS G, et al. Efficient online subspace learning with an indefinite kernel for visual tracking and recognition[J]. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(10):1624-1636. doi:  10.1109/TNNLS.2012.2208654
    [6] BABENKO B, YANG M H, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8):1619-1632. doi:  10.1109/TPAMI.2010.226
    [7] YANG F, LU H, YANG M H. Robust superpixel tracking[J]. IEEE Transactions on Image Processing, 2014, 23(4):1639-1651. doi:  10.1109/TIP.2014.2300823
    [8] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking by detection with kernels[C]//Computer Vision-ECCV.[S.l.]:Springer, 2012, 7575:702-715.
    [9] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2):210-227. doi:  10.1109/TPAMI.2008.79
    [10] MEI X, LING H. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11):2259-2272. doi:  10.1109/TPAMI.2011.66
    [11] SUN B, LIU Z, SUN Y, et al. Multiple objects tracking and identification based on sparse representation in surveillance video[C]//IEEE International Conference on Multimedia Big Data. Beijing:IEEE Computer Society, 2015.
    [12] WANG D, LU H, BO C. Online visual tracking via two view sparse representation[J]. IEEE Signal Processing Letters, 2014, 21(9):1031-1034. doi:  10.1109/LSP.2014.2322389
    [13] LI Y, HE Z, YI S, et al. The robust patches-based tracking method via sparse representation[C]//International Conference on Security, Pattern Analysis, and Cybernetics. Wuhan:IEEE, 2014.
    [14] DUAN X, LIU J, TANG X. Visual tracking via weighted sparse representation[C]//International Conference on Intelligent Computing and Internet of Things. Harbin:IEEE, 2015.
    [15] BAO C, WU Y, LING H, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//IEEE Conference on Computer Vision and Pattern Recognition. Providence:IEEE, 2012.
    [16] LU X, YAO H, SUN X, et al. Real-time visual tracking using L2 norm regularization based collaborative representation[C]//IEEE International Conference on Image Processing. Melbourne:IEEE, 2013.
    [17] AHUJA N. Robust visual tracking via multi-task sparse learning[C]//Computer Vision and Pattern Recognition. Providence:IEEE, 2012.
    [18] YAN Q, LI L, WANG C, et al. Kernel sparse representation for object tracking[C]//International Conference on Multimedia Information Networking and Security. Beijing:IET, 2013.
    [19] WANG L, YAN H, LV K, et al. Visual tracking via kernel sparse representation with multikernel fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(7):1132-1141. doi:  10.1109/TCSVT.2014.2302496
    [20] WU Y, LIM J, YANG M H. Online object tracking:a benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland:IEEE, 2013.
    [21] ZHONG W, LU H, YANG M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Transactions on Image Processing, 2014, 23(5):2356-2368. doi:  10.1109/TIP.2014.2313227
    [22] MEI X, LING H. Robust visual tracking using L1 minimization[C]//IEEE 12th International Conference on Computer Vision. Kyoto:DBLP, 2009.
    [23] WANG D, LU H, YANG M H. Online object tracking with sparse prototypes[J]. IEEE Transactions on Image Processing, 2013, 22(1):314-325. doi:  10.1109/TIP.2012.2202677
    [24] MAIRAL J, BACH F, PONCE J, et al. Online dictionary learning for sparse coding[C]//International Conference on Machine Learning. Quebec:DBLP, 2009.
    [25] LEARNEDMILLER E, SEVILLALARA L. Distribution fields for tracking[C]//Computer Vision and Pattern Recognition. Providence:IEEE, 2012.
    [26] HE J, ZHANG D, BALZANO L, et al. Iterative Grassmannian optimization for robust image alignment[J]. Image and Vision Computing, 2014, 32(10):800-813. doi:  10.1016/j.imavis.2014.02.015
  • [1] 伍凌川, 史慧芳, 邱枫, 石义官.  基于近似存在性查询的高效图像异常检测方法 . 电子科技大学学报, 2024, 53(): 1-8. doi: 10.12178/1001-0548.2024032
    [2] 周成, 马丛珊, 应涛, 满欣.  存在载频误差下的多普勒频移定位算法 . 电子科技大学学报, 2022, 51(4): 529-534. doi: 10.12178/1001-0548.2022050
    [3] 余荣斌, 蒋沅, 严玉为, 洪成.  考虑相依边负载的相依网络鲁棒性研究 . 电子科技大学学报, 2022, 51(5): 774-785. doi: 10.12178/1001-0548.2021274
    [4] 谢怡燃, 李国华, 杨波.  基于站点线路数的城市公交网络鲁棒性研究 . 电子科技大学学报, 2022, 51(4): 630-640. doi: 10.12178/1001-0548.2021336
    [5] 赵娜, 柴焰明, 尹春林, 杨政, 王剑, 苏适.  基于最大连通子图相对效能的相依网络鲁棒性分析 . 电子科技大学学报, 2021, 50(4): 627-633. doi: 10.12178/1001-0548.2020440
    [6] 刘睿, 邓强强, 冯运, 陈凌, 蒋伟, 殷宏磊, 彭倍.  基于图形路标特征的精确定位研究 . 电子科技大学学报, 2019, 48(2): 233-238. doi: 10.3969/j.issn.1001-0548.2019.02.012
    [7] 陈俊周, 王娟, 龚勋.  基于级联生成对抗网络的人脸图像修复 . 电子科技大学学报, 2019, 48(6): 910-917. doi: 10.3969/j.issn.1001-0548.2019.06.016
    [8] 陈世明, 戴亚明, 程运洪.  提高相依网络鲁棒性的加边策略研究 . 电子科技大学学报, 2019, 48(1): 103-109. doi: 10.3969/j.issn.1001-0548.2019.01.017
    [9] 叶恒舟, 陆湘鹏.  基于离散粒子群优化的鲁棒Web服务组合 . 电子科技大学学报, 2018, 47(3): 443-448. doi: 10.3969/j.issn.1001-0548.2018.03.019
    [10] 陈小龙, 杨春, 李志鹏, 付传技, 杨宏春, 杨宇明, 史晓红, 贾啸.  复杂网络爆炸渗流研究综述 . 电子科技大学学报, 2015, 44(1): 12-21. doi: 10.3969/j.issn.1001-0548.2015.01.002
    [11] 朱亚清, 董君伊, 陈世和, 潘凤萍, 李东海.  基于扩张状态观测器的火电单元机组协调控制 . 电子科技大学学报, 2014, 43(5): 700-705. doi: 10.3969/j.issn.1001-0548.2014.05.012
    [12] 李国颖, 成柏松, 张鹏, 李大庆.  相互依存网络鲁棒性研究综述 . 电子科技大学学报, 2013, 42(1): 23-28. doi: 10.3969/j.issn.1001-0548.2013.01.006
    [13] 陈林林, 魏民祥, 邵金菊.  无人直升机发动机恒转速广义预测控制 . 电子科技大学学报, 2010, 39(3): 475-480. doi: 10.3969/j.issn.1001-0548.2010.03.034
    [14] 琚生根, 周激流, 何坤, 夏欣, 王刚.  频域光照归一化的人脸识别 . 电子科技大学学报, 2009, 38(6): 1021-1025. doi: 10.3969/j.issn.1001-0548.2009.06.027
    [15] 胡东, 刘晓云.  使用频域LSB水印算法的鲁棒性分析 . 电子科技大学学报, 2006, 35(5): 770-773.
    [16] 易翔, 王蔚然.  彩色图像多签名水印算法的研究 . 电子科技大学学报, 2005, 34(5): 665-668.
    [17] 李晓冬, 康戈文.  基于数字滤波器的镀锌板缺陷分割 . 电子科技大学学报, 2005, 34(3): 389-391,406.
    [18] 傅彦, 周俊临.  基于无监督学习的盲信号源分离技术研究 . 电子科技大学学报, 2004, 33(1): 63-66.
    [19] 伍维根, 张小平, 古天祥.  一种新的离散混沌系统的延时反馈控制 . 电子科技大学学报, 2001, 30(2): 139-143.
    [20] 庄圣贤, 李学宁, 李肇基.  内模控制在异步电机矢量变频调速中的应用 . 电子科技大学学报, 1999, 28(5): 502-506.
  • 加载中
图(9) / 表(8)
计量
  • 文章访问数:  4915
  • HTML全文浏览量:  1203
  • PDF下载量:  282
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-05-25
  • 修回日期:  2017-11-01
  • 刊出日期:  2018-01-30

基于自适应同时稀疏表示的鲁棒性目标追踪

doi: 10.3969/j.issn.1001-0548.2018.01.001
    基金项目:

    国家自然科学基金 51175443

    中央高校基本科研业务费专项资金 ZYGX2016J131

    中央高校基本科研业务费专项资金 ZYGX2016J138

    四川省科技支撑计划 2015GZX0002

    作者简介:

    李厚彪(1976-), 副教授, 主要从事目标追踪与图像处理方面的研究

  • 中图分类号: TN911.73

摘要: 综合考虑高斯噪声和拉普拉斯噪声,并通过拉普拉斯噪声的能量大小自适应的选择稀疏模型,该文提出了基于同时稀疏表示的自适应追踪算法。该算法可以更好的解决目标遮挡、姿势改变、光照变化和背景混杂等追踪问题,且具有更强的鲁棒性。其次提出一种基于子空间学习和无监督学习(K-means)相结合的模板更新方法,该方法一方面可以及时有效地反应目标的状态,另一方面也可以避免模板更新过快而引入较大的误差。然后,利用LASSO算法对该模型做了进一步的改进,并将目前较好的9种追踪算法与该文提出的算法进行比较,实验结果表明该算法在鲁棒性、精确性和实时性方面都得到了较好的改善。

English Abstract

李厚彪, 樊庆宇, 耿广磊. 基于自适应同时稀疏表示的鲁棒性目标追踪[J]. 电子科技大学学报, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
引用本文: 李厚彪, 樊庆宇, 耿广磊. 基于自适应同时稀疏表示的鲁棒性目标追踪[J]. 电子科技大学学报, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
LI Hou-biao, FAN Qing-yu, GENG Guang-lei. Robust Visual Tracking Based on Adaptive Simultaneous Sparse Representation[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
Citation: LI Hou-biao, FAN Qing-yu, GENG Guang-lei. Robust Visual Tracking Based on Adaptive Simultaneous Sparse Representation[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
  • 目标追踪在计算机视觉领域占据着重要的地位。目标追踪的主要任务包括:感兴趣运动目标的检测、视频帧到帧之间的连续追踪和追踪目标的行为分析等[1-2]

    当前目标追踪所面临的一些挑战主要包括光照变化、背景混杂、部分遮挡、完全遮挡以及它们的混合。为了解决这些问题,各种不同的追踪算法相继被提出来,如在线学习方法(online learning)和基于稀疏表示(sparse representation)的追踪算法。在线学习方法大致又可分为:生成方法(generative approaches, GA)和判别方法(discriminative approaches, DA)。GA是一种搜索与追踪目标最相似的区域方法,如文献[3]使用积分直方图的健壮片段跟踪,减弱了部分遮挡和姿势变化等因素对追踪效果的影响,有效降低了计算代价;另外,为更好地实现鲁棒性追踪,基于增量学习的目标追踪算法[4]和基于核的目标追踪算法[5]相继被提出来。尽管生成方法在一定程度上能实现追踪,但是不能有效解决长时间部分遮挡、完全遮挡、目标外形剧烈变化等追踪问题。DA可看作是一种二分类问题,主要利用已知的训练样本训练出一个分类器,用于判别目标和背景。文献[6]提出在线多实例学习的目标追踪算法,该方法不同于传统的监督学习方法,主要区别为用于训练时的阳性样本(positive sample)数量大于阴性样本(negative sample)数量;文献[7]提出超像素追踪方法,该法使用超像素特征的结构信息能更好判别目标和背景,在一定程度上适应姿势改变、运动模糊及短时间的部分遮挡等情况,但该方法的计算代价较高且只用了简单的HIS颜色特征并未考虑更好的颜色特征;文献[8]提出基于核空间的稠密采样追踪算法,使用循环矩阵和快速傅里叶变换在核空间里实现了快速学习,大大提高了追踪系统的实时性。

    文献[9]提出稀疏表示在人脸识别中的应用(sparse representation based classification, SRC),对噪声污染和人脸部分遮挡获得较好的识别率,相比之前提出的SVM、KNN、PCA和LDA等线性分类器,不仅表现出更优的识别效果,且有更强的抗干扰能力。受其启发,文献[10]提出稀疏表示在目标追踪方面的应用,此后不断得到发展,如稀疏表示追踪[10-15](L1 Tracker)、联合表示追踪[16](L2 Tracker)、同时稀疏表示追踪[17](Lp, qTracker)、核稀疏表示追踪[18-19](KSR Tracker)和混合稀疏表示追踪[20-21]等。

    本文提出了同时稀疏表示的自适应追踪算法,该算法采用子空间学习(subspace learning)和无监督学习(K-means)相结合的模板更新方法, 避免了模板更新太快而引入较大的误差;另外算法使用同时稀疏表示来刻画粒子之间的关系,克服了传统稀疏表示假设粒子之间是相互独立的缺陷;最后根据噪声(如遮挡,光照变化等)能量的大小自适应的选择模型。大量的实验结果表明该算法可实现鲁棒性追踪。

    • 目前,粒子滤波方法已被成功应用到目标追踪中:若追踪过程中第(t-1) 帧的追踪目标状态为粒子${q_{t - 1}}$,则第t帧的追踪目标可能的状态记为$p({q_t}|{q_{t - 1}})$,且第t帧的观测为$p({y_t}|{q_t})$,其中${y_t}$为第t帧的观测值。稀疏表示追踪给出了$p({y_t}|{q_t})$的具体形式,并根据最小重构误差得到目标的追踪结果${y_t}$。

      对于一个给定目标模板的图像集合${\mathit{\boldsymbol{T}}} = [{{\mathit{\boldsymbol{T}}}_1},{{\mathit{\boldsymbol{T}}}_2}, \cdots ,{{\mathit{\boldsymbol{T}}}_n}] \in {{\mathit{\boldsymbol{R}}}^{d \times n}}(d > > n)$($d$表示图像的维数,$n$表示模板基向量的个数),T的每一列都是通过零均值化后得到的向量,因此对于一个候选目标${\mathit{\boldsymbol{y}}}$可以近似通过模板的线性组合表示为:

      $${\mathit{\boldsymbol{y}}} = {\mathit{\boldsymbol{Tz}}} + {\mathit{\boldsymbol{e}}} = [{\mathit{\boldsymbol{T}}},{\mathit{\boldsymbol{I}}}]\left( {\begin{array}{*{20}{c}} {\mathit{\boldsymbol{z}}}\\ {\mathit{\boldsymbol{e}}} \end{array}} \right)$$ (1)

      式中,e表示高斯噪声;I表示琐碎模板。文献[15, 22]提出的稀疏表示追踪模型为:

      $$\begin{array}{c} \mathop {\min }\limits_x \left\| {{\mathit{\boldsymbol{Dx}}} - {\mathit{\boldsymbol{y}}}} \right\|_2^2 + \lambda {\left\| {\mathit{\boldsymbol{x}}} \right\|_1}\\ {\rm{s}}{\rm{.t}}{\rm{.}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\mathit{\boldsymbol{x}}} \ge 0 \end{array}$$ (2)

      式中,${\mathit{\boldsymbol{D}}} = [{\mathit{\boldsymbol{T}}},{\mathit{\boldsymbol{I}}}]$表示追踪模板;${\mathit{\boldsymbol{x}}} = {[{\mathit{\boldsymbol{z}}},{\mathit{\boldsymbol{e}}}]^{\rm{T}}}$;$\lambda $表示正则参数,用来平衡保真项和正则项。若考虑粒子之间的关系,则可给出稀疏追踪模型[17]

      $$\mathop {\min }\limits_X \left\| {{\mathit{\boldsymbol{DX}}} - {\mathit{\boldsymbol{Y}}}} \right\|_{\rm{F}}^2 + \lambda {\left\| {\mathit{\boldsymbol{X}}} \right\|_{p,q}}$$ (3)

      式中,${\mathit{\boldsymbol{Y}}} = [{{\mathit{\boldsymbol{y}}}_1},{{\mathit{\boldsymbol{y}}}_2}, \cdots ,{{\mathit{\boldsymbol{y}}}_m}]$表示所有侯选目标;$\left\| {\mathit{\boldsymbol{X}}} \right\|_{p,q}^q = \sum\nolimits_{i = 1}^{n + d} {{{({{\left\| {{{\mathit{\boldsymbol{X}}}_i}} \right\|}_p})}^q}} (p \ge 1,q \le 1)$;${\left\| \cdot \right\|_p}$是LP范数;正则项${\left\| {\mathit{\boldsymbol{X}}} \right\|_{p,q}}$能更好地提取粒子之间的相似性并能有效去除模板的冗余信息。

      尽管上述模型在一定程度上解决了部分遮挡、光照变化、姿势改变和背景混杂等影响,但太过简单地考虑噪声的分布情况,因此面对一些复杂的噪声分布情况可能会出现跟踪失败。为此下面假设噪声服从高斯拉普拉斯分布,即:

      $${\mathit{\boldsymbol{Y}}} = {\mathit{\boldsymbol{TZ}}} + {\mathit{\boldsymbol{S}}} + {\mathit{\boldsymbol{E}}}$$ (4)

      式中,S表示拉普拉斯噪声;E表示高斯噪声。给出同时稀疏追踪模型:

      $$\begin{array}{c} \mathop {\min }\limits_{X,S} \left\| {{\mathit{\boldsymbol{Y}}} - {\mathit{\boldsymbol{DX}}} - {\mathit{\boldsymbol{S}}}} \right\|_{\rm{F}}^2 + {\lambda _1}{\left\| {\mathit{\boldsymbol{X}}} \right\|_{1,1}} + {\lambda _2}{\left\| {\mathit{\boldsymbol{S}}} \right\|_{1,1}}\\ {\rm{s}}{\rm{.t}}{\rm{.}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\mathit{\boldsymbol{X}}} \ge 0 \end{array}$$ (5)

      式中,${\mathit{\boldsymbol{X}}} = {\left[ {{\mathit{\boldsymbol{Z}}},{\mathit{\boldsymbol{E}}}} \right]^{\rm{T}}}$。但对于一个给定的视频序列,目标并不总处于被污染状态,设已追踪到目标对应的拉普拉斯噪声为${{\mathit{\boldsymbol{S}}}_t}$(表示S的第$t$列),因此可给出自适应的同时稀疏追踪模型为:

      1) 噪声${\left\| {{{\mathit{\boldsymbol{S}}}_t}} \right\|_2} \le \tau $时,模型变为:

      $$\begin{array}{c} \mathop {\min }\limits_{X,S} \left\| {{\mathit{\boldsymbol{Y}}} - {\mathit{\boldsymbol{DX}}}} \right\|_{\rm{F}}^2 + {\lambda _1}{\left\| {\mathit{\boldsymbol{X}}} \right\|_{1,1}}\\ {\rm{s}}{\rm{.t}}{\rm{.}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\mathit{\boldsymbol{X}}} \ge 0 \end{array}$$ (6)

      2) 噪声${\left\| {{{\mathit{\boldsymbol{S}}}_t}} \right\|_2} > \tau $则模型变为:

      $$\begin{array}{c} \mathop {\min }\limits_X \left\| {{\mathit{\boldsymbol{Y}}} - {\mathit{\boldsymbol{DX}}} - {\mathit{\boldsymbol{S}}}} \right\|_{\rm{F}}^2 + {\lambda _1}{\left\| {\mathit{\boldsymbol{X}}} \right\|_{1,1}} + {\lambda _2}{\left\| {\mathit{\boldsymbol{S}}} \right\|_{1,1}}\\ {\rm{s}}{\rm{.t}}{\rm{.}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\mathit{\boldsymbol{X}}} \ge 0 \end{array}$$ (7)

      式中,$\tau $为给定噪声能量的阈值;${\lambda _1}$和${\lambda _2}$为模型的正则参数,分别用来控制表示系数X的稀疏程度以及噪声S的能量大小。

      模型求解:式(6) 和式(7) 的目标函数是一个凸优化。使用交替方向乘子方法(alternating direction method multipliers, ADMM)求解优化问题(7) 如下:

      首先,将约束问题变为无约束问题:

      $$\mathop {\min }\limits_X \left\| {{\mathit{\boldsymbol{Y}}} - {\mathit{\boldsymbol{DX}}} - {\mathit{\boldsymbol{S}}}} \right\|_{\rm{F}}^2 + {\lambda _1}{\left\| {\mathit{\boldsymbol{X}}} \right\|_{1,1}} + {\lambda _2}{\left\| {\mathit{\boldsymbol{S}}} \right\|_{1,1}} + {\tau _ + }({\mathit{\boldsymbol{X}}})$$ (8)

      式中,${\tau _ + }({\mathit{\boldsymbol{X}}}) = \sum\limits_{i = 1}^d {{\tau _ + }({{\mathit{\boldsymbol{x}}}_i})} $是一个指示函数。因此优化问题(7) 有如下的等价形式:

      $$\begin{array}{c} \mathop {\min }\limits_{X,S,{V_1},{V_2},{V_3}} \frac{1}{2}\left\| {{\mathit{\boldsymbol{Y}}} - {{\mathit{\boldsymbol{V}}}_1} - {\mathit{\boldsymbol{S}}}} \right\|_{\rm{F}}^2 + {\lambda _1}{\left\| {{{\mathit{\boldsymbol{V}}}_2}} \right\|_{1,1}} + {\lambda _2}{\left\| {\mathit{\boldsymbol{S}}} \right\|_{1,1}} + {\tau _ + }({{\mathit{\boldsymbol{V}}}_3})\\ {\rm{s}}{\rm{.t}}{\rm{.}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\mathit{\boldsymbol{DX}}} = {{\mathit{\boldsymbol{V}}}_1},{\mathit{\boldsymbol{X}}} = {{\mathit{\boldsymbol{V}}}_2},{\mathit{\boldsymbol{X}}} = {{\mathit{\boldsymbol{V}}}_3} \end{array}$$ (9)

      式中,${{\mathit{\boldsymbol{V}}}_1},{{\mathit{\boldsymbol{V}}}_2},{{\mathit{\boldsymbol{V}}}_3}$为对偶变量,式(9) 进一步优化为:

      $$\begin{array}{c} \mathop {\min }\limits_{V,X,S} g({\mathit{\boldsymbol{V}}},{\mathit{\boldsymbol{X}}},{\mathit{\boldsymbol{S}}})\\ {\rm{s}}{\rm{.t}}{\rm{.}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\mathit{\boldsymbol{G\hat X}}} + {\mathit{\boldsymbol{BV}}} = 0 \end{array}$$ (10)

      式中,

      $${\rm{g}}({\mathit{\boldsymbol{V}}},{\mathit{\boldsymbol{X}}},{\mathit{\boldsymbol{S}}}) = \frac{1}{2}\left\| {{\mathit{\boldsymbol{Y}}} - {{\mathit{\boldsymbol{V}}}_1} - {\mathit{\boldsymbol{S}}}} \right\|_{\rm{F}}^2 + {\lambda _1}{\left\| {{{\mathit{\boldsymbol{V}}}_2}} \right\|_{1,1}} + {\lambda _2}{\left\| {\mathit{\boldsymbol{S}}} \right\|_{1,1}} + {\tau _ + }({{\mathit{\boldsymbol{V}}}_3})$$
      $${\mathit{\boldsymbol{G}}} = \left( {\begin{array}{*{20}{c}} {\mathit{\boldsymbol{D}}}&{}&{}\\ {}&{\mathit{\boldsymbol{I}}}&{}\\ {}&{}&{\mathit{\boldsymbol{I}}} \end{array}} \right){\rm{, }}{\mathit{\boldsymbol{B}}} = \left( {\begin{array}{*{20}{c}} { - {\mathit{\boldsymbol{I}}}}&0&0\\ 0&{ - {\mathit{\boldsymbol{I}}}}&0\\ 0&0&{ - {\mathit{\boldsymbol{I}}}} \end{array}} \right),{\mathit{\boldsymbol{\hat X}}} = \left( {\begin{array}{*{20}{c}} {\mathit{\boldsymbol{X}}}\\ {\mathit{\boldsymbol{X}}}\\ {\mathit{\boldsymbol{X}}} \end{array}} \right){\rm{,}}{\mathit{\boldsymbol{V}}} = \left( {\begin{array}{*{20}{c}} {{{\mathit{\boldsymbol{V}}}_1}}\\ {{{\mathit{\boldsymbol{V}}}_2}}\\ {{{\mathit{\boldsymbol{V}}}_3}} \end{array}} \right)$$

      式(10) 的增广拉格朗日函数为:

      $$L({\mathit{\boldsymbol{X}}},{\mathit{\boldsymbol{S}}},{\mathit{\boldsymbol{U}}},{\mathit{\boldsymbol{V}}}) = g({\mathit{\boldsymbol{X}}},{\mathit{\boldsymbol{S}}},{\mathit{\boldsymbol{V}}}) + \frac{\beta }{2}\left\| {{\mathit{\boldsymbol{GX}}} + {\mathit{\boldsymbol{BV}}} - {\mathit{\boldsymbol{U}}}} \right\|_{\rm{F}}^2$$ (11)

      式中,$\beta $表示拉格朗日乘子;${\mathit{\boldsymbol{U}}} = {[{{\mathit{\boldsymbol{U}}}_1},{{\mathit{\boldsymbol{U}}}_2},{{\mathit{\boldsymbol{U}}}_3}]^{\rm{T}}}$。式(11) 可分解为3个子优化问题:

      $$\begin{array}{c} {{\mathit{\boldsymbol{V}}}_{1*}} = \mathop {\arg \min }\limits_{{V_1}} \frac{1}{2}\left\| {{\mathit{\boldsymbol{Y}}} - {{\mathit{\boldsymbol{V}}}_1} - {\mathit{\boldsymbol{S}}}} \right\|_{\rm{F}}^2 + \frac{\beta }{2}\left\| {{\mathit{\boldsymbol{DX}}} - {{\mathit{\boldsymbol{V}}}_1} - {{\mathit{\boldsymbol{U}}}_1}} \right\|_{\rm{F}}^2\\ {{\mathit{\boldsymbol{V}}}_{2*}} = \mathop {\arg \min }\limits_{{V_2}} {\lambda _1}{\left\| {{{\mathit{\boldsymbol{V}}}_2}} \right\|_{1,1}} + \frac{\beta }{2}\left\| {{\mathit{\boldsymbol{X}}} - {{\mathit{\boldsymbol{V}}}_2} - {{\mathit{\boldsymbol{U}}}_2}} \right\|_{\rm{F}}^2\\ {{\mathit{\boldsymbol{V}}}_{3*}} = \mathop {\arg \min }\limits_{{V_3}} {\tau _ + }({{\mathit{\boldsymbol{V}}}_3}) + \frac{\beta }{2}\left\| {{\mathit{\boldsymbol{X}}} - {{\mathit{\boldsymbol{V}}}_3} - {{\mathit{\boldsymbol{U}}}_3}} \right\|_{\rm{F}}^2\\ {{\mathit{\boldsymbol{S}}}_*} = \mathop {\arg \min }\limits_S \frac{1}{2}\left\| {{\mathit{\boldsymbol{Y}}} - {{\mathit{\boldsymbol{V}}}_1} - {\mathit{\boldsymbol{S}}}} \right\|_{\rm{F}}^2 + {\lambda _2}{\left\| {\mathit{\boldsymbol{S}}} \right\|_{1,1}}\\ {{\mathit{\boldsymbol{X}}}_*} = \mathop {\arg \min }\limits_X \frac{\beta }{2}(\left\| {{\mathit{\boldsymbol{DX}}} - {{\mathit{\boldsymbol{V}}}_1} - {{\mathit{\boldsymbol{U}}}_1}} \right\|_{\rm{F}}^2 + \\ \left\| {{\mathit{\boldsymbol{X}}} - {{\mathit{\boldsymbol{V}}}_2} - {{\mathit{\boldsymbol{U}}}_2}} \right\|_{\rm{F}}^2 + \left\| {{\mathit{\boldsymbol{X}}} - {{\mathit{\boldsymbol{V}}}_3} - {{\mathit{\boldsymbol{U}}}_3}} \right\|_{\rm{F}}^2) \end{array}$$

      因此根据极值原理,只需要对上述子问题求一阶导数,可获得式(11) 的最优解:

      $$\begin{matrix} {{\mathit{\boldsymbol{V}}}_{1*}}={[\beta (\mathit{\boldsymbol{DX}}-{{\mathit{\boldsymbol{U}}}_{1}})+(\mathit{\boldsymbol{Y}}-\mathit{\boldsymbol{S}})]}/{(1+\beta )}\; \\ {{\mathit{\boldsymbol{V}}}_{2*}}=\rm{shrink}(\mathit{\boldsymbol{X}}-{{\mathit{\boldsymbol{U}}}_{2}},{{{\lambda }_{1}}}/{\beta }\;) \\ {{\mathit{\boldsymbol{V}}}_{3*}}=\max (0,\mathit{\boldsymbol{X}}-{{\mathit{\boldsymbol{U}}}_{3}}) \\ {{\mathit{\boldsymbol{S}}}_{*}}=\rm{shrink}(\mathit{\boldsymbol{Y}}-{{\mathit{\boldsymbol{V}}}_{2}},{{\lambda }_{2}}) \\ {{\mathit{\boldsymbol{X}}}_{*}}={{({{\mathit{\boldsymbol{D}}}^{\rm{T}}}\mathit{\boldsymbol{D}}+2\mathit{\boldsymbol{I}})}^{-1}}[{{\mathit{\boldsymbol{D}}}^{\rm{T}}}({{\mathit{\boldsymbol{V}}}_{1}}+{{\mathit{\boldsymbol{U}}}_{1}})+{{\mathit{\boldsymbol{V}}}_{2}}+{{\mathit{\boldsymbol{U}}}_{2}}+{{\mathit{\boldsymbol{V}}}_{3}}+{{\mathit{\boldsymbol{U}}}_{3}}] \\ \end{matrix}$$

      同理,对于式(6) 得到以下解:

      $$\begin{matrix} {{V}_{1*}}={[\beta (\mathit{\boldsymbol{DX}}-{{\mathit{\boldsymbol{U}}}_{1}})+\mathit{\boldsymbol{Y}}]}/{(1+\beta )}\; \\ {{V}_{2*}}=\rm{shrink}(\mathit{\boldsymbol{X}}-{{\mathit{\boldsymbol{U}}}_{2}},{{{\lambda }_{1}}}/{\beta }\;) \\ {{V}_{3*}}=\max (0,\mathit{\boldsymbol{X}}-{{\mathit{\boldsymbol{U}}}_{3}}) \\ {{X}_{*}}={{({{\mathit{\boldsymbol{D}}}^{\rm{T}}}\mathit{\boldsymbol{D}}+2\mathit{\boldsymbol{I}})}^{-1}}[{{\mathit{\boldsymbol{D}}}^{\rm{T}}}({{\mathit{\boldsymbol{V}}}_{1}}+{{\mathit{\boldsymbol{U}}}_{1}})+{{\mathit{\boldsymbol{V}}}_{2}}+{{\mathit{\boldsymbol{U}}}_{2}}+{{\mathit{\boldsymbol{V}}}_{3}}+{{\mathit{\boldsymbol{U}}}_{3}}] \\ \end{matrix}$$

      这样通过对子问题的分析与求解,获得了式(6) 和式(7) 解的一般形式,数值求解见算法1和2。

      算法1:问题(6) 的ADMM求解算法

      初始化:$k=0$,${{\mathit{\boldsymbol{X}}}^{(0)}}$,Y,正则参数${\lambda _1}$,${\lambda _2}$,对偶变量${{\mathit{\boldsymbol{V}}}_1}^{(0)}$,${{\mathit{\boldsymbol{V}}}_2}^{(0)}$,${{\mathit{\boldsymbol{V}}}_3}^{(0)}$,拉格朗日乘子${{\mathit{\boldsymbol{U}}}_1}^{(0)}$,${{\mathit{\boldsymbol{U}}}_2}^{(0)}$${{\mathit{\boldsymbol{U}}}_3}^{(0)}$,收敛误差$\varepsilon $,惩罚因子$\beta $。

      1) 迭代

      2) ${{\mathit{\boldsymbol{V}}}_{1}}^{(k+1)}\leftarrow {[\beta (\mathit{\boldsymbol{D}}{{\mathit{\boldsymbol{X}}}^{(k)}}-\mathit{\boldsymbol{U}}_{1}^{(k)})+\mathit{\boldsymbol{Y}}]}/{(1+\beta )}\;$

      3) ${{\mathit{\boldsymbol{V}}}_{2}}^{(k+1)}\leftarrow \rm{shrink}({{\mathit{\boldsymbol{X}}}^{(k)}}-\mathit{\boldsymbol{U}}_{2}^{(k)},{{{\lambda }_{1}}}/{\beta }\;)$

      4) ${{\mathit{\boldsymbol{V}}}_{3}}^{(k+1)}\leftarrow \max (0,{{\mathit{\boldsymbol{X}}}^{(k)}}-\mathit{\boldsymbol{U}}_{3}^{(k)})$

      5) ${{\mathit{\boldsymbol{U}}}_{1}}^{(k+1)}\leftarrow {{\mathit{\boldsymbol{U}}}_{1}}^{(k)}-(\mathit{\boldsymbol{D}}{{\mathit{\boldsymbol{X}}}^{(k+1)}}-\mathit{\boldsymbol{V}}_{1}^{(k+1)})$

      6) ${{\mathit{\boldsymbol{U}}}_{2}}^{(k+1)}\leftarrow {{\mathit{\boldsymbol{U}}}_{2}}^{(k)}-({{\mathit{\boldsymbol{X}}}^{(k+1)}}-\mathit{\boldsymbol{V}}_{2}^{(k+1)})$

      7) ${{\mathit{\boldsymbol{U}}}_{3}}^{(k+1)}\leftarrow {{\mathit{\boldsymbol{U}}}_{3}}^{(k)}-({{\mathit{\boldsymbol{X}}}^{(k+1)}}-\mathit{\boldsymbol{V}}_{3}^{(k+1)})$

      8) ${{\mathit{\boldsymbol{X}}}^{(k+1)}}\leftarrow {{({{\mathit{\boldsymbol{D}}}^{\rm{T}}}\mathit{\boldsymbol{D}}+2\mathit{\boldsymbol{I}})}^{-1}}[{{\mathit{\boldsymbol{D}}}^{\rm{T}}}(\mathit{\boldsymbol{V}}_{1}^{(k+1)}+\mathit{\boldsymbol{U}}_{1}^{(k+1)}\rm{+}\mathit{\boldsymbol{V}}_{2}^{(k+1)}+\mathit{\boldsymbol{U}}_{2}^{(k+1)}+\mathit{\boldsymbol{V}}_{3}^{(k+1)}+\mathit{\boldsymbol{U}}_{3}^{(k+1)}]$

      9) 直到$\left\| \mathit{\boldsymbol{G}}{{\mathit{\boldsymbol{X}}}^{(k+1)}}+\mathit{\boldsymbol{B}}{{\mathit{\boldsymbol{V}}}^{(k+1)}} \right\|\le \varepsilon $

      输出:最优解${{\mathit{\boldsymbol{X}}}^{(k+1)}}$

      算法2:问题(7) 的ADMM求解算法

      初始化:$k=0$,${{\mathit{\boldsymbol{X}}}^{(0)}}$,${{\mathit{\boldsymbol{S}}}^{(0)}}$,Y,正则参数${{\lambda }_{1}}$,${{\lambda }_{2}}$,对偶变量${{\mathit{\boldsymbol{V}}}_{1}}^{(0)}$,${{\mathit{\boldsymbol{V}}}_{2}}^{(0)}$,${{\mathit{\boldsymbol{V}}}_{3}}^{(0)}$、拉格朗日乘子${{\mathit{\boldsymbol{U}}}_{1}}^{(0)}$,${{\mathit{\boldsymbol{U}}}_{2}}^{(0)}$,${{\mathit{\boldsymbol{U}}}_{3}}^{(0)}$,收敛误差$\varepsilon $,惩罚因子$\beta $。

      1) 迭代

      2) ${{\mathit{\boldsymbol{V}}}_{1}}^{(k+1)}\leftarrow {[\beta (\mathit{\boldsymbol{D}}{{\mathit{\boldsymbol{X}}}^{(k)}}-\mathit{\boldsymbol{U}}_{1}^{(k)})+\mathit{\boldsymbol{Y}}-{{\mathit{\boldsymbol{S}}}^{(k)}}]}/{(1+\beta )}\;$

      3) ${{\mathit{\boldsymbol{V}}}_{2}}^{(k+1)}\leftarrow \rm{shrink}({{\mathit{\boldsymbol{X}}}^{(k)}}-\mathit{\boldsymbol{U}}_{2}^{(k)},{{{\lambda }_{1}}}/{\beta }\;)$

      4) ${{\mathit{\boldsymbol{V}}}_{3}}^{(k+1)}\leftarrow \max (0,{{\mathit{\boldsymbol{X}}}^{(k)}}-\mathit{\boldsymbol{U}}_{3}^{(k)})$

      5) ${{\mathit{\boldsymbol{S}}}^{(k+1)}}\leftarrow \rm{shrink}(\mathit{\boldsymbol{Y}}-\mathit{\boldsymbol{V}}_{1}^{(k)},{{\lambda }_{2}})$

      6) ${{\mathit{\boldsymbol{U}}}_{1}}^{(k+1)}\leftarrow {{\mathit{\boldsymbol{U}}}_{1}}^{(k)}-(\mathit{\boldsymbol{D}}{{\mathit{\boldsymbol{X}}}^{(k+1)}}-\mathit{\boldsymbol{V}}_{1}^{(k+1)})$

      7) ${{\mathit{\boldsymbol{U}}}_{2}}^{(k+1)}\leftarrow {{\mathit{\boldsymbol{U}}}_{2}}^{(k)}-({{\mathit{\boldsymbol{X}}}^{(k+1)}}-\mathit{\boldsymbol{V}}_{2}^{(k+1)})$

      8) ${{\mathit{\boldsymbol{U}}}_{3}}^{(k+1)}\leftarrow {{\mathit{\boldsymbol{U}}}_{3}}^{(k)}-({{\mathit{\boldsymbol{X}}}^{(k+1)}}-\mathit{\boldsymbol{V}}_{3}^{(k+1)})$

      9) ${{\mathit{\boldsymbol{X}}}^{(k+1)}}\leftarrow {{({{\mathit{\boldsymbol{D}}}^{\rm{T}}}\mathit{\boldsymbol{D}}+2\mathit{\boldsymbol{I}})}^{-1}}[{{\mathit{\boldsymbol{D}}}^{\rm{T}}}(\mathit{\boldsymbol{V}}_{1}^{(k+1)}+\mathit{\boldsymbol{U}}_{1}^{(k+1)}+\mathit{\boldsymbol{V}}_{2}^{(k+1)}+\mathit{\boldsymbol{U}}_{2}^{(k+1)}+\mathit{\boldsymbol{V}}_{3}^{(k+1)}+\mathit{\boldsymbol{U}}_{3}^{(k+1)}]$

      10) 直到$\left\| \mathit{\boldsymbol{G}}{{\mathit{\boldsymbol{X}}}^{(k+1)}}+\mathit{\boldsymbol{B}}{{\mathit{\boldsymbol{V}}}^{(k+1)}} \right\|\le \varepsilon $

      输出:最优解${{\mathit{\boldsymbol{X}}}^{(k+1)}}$, ${{\mathit{\boldsymbol{S}}}^{(k+1)}}$

    • 模板更新的好坏直接影响追踪的性能。在稀疏追踪模型中提出了用目标模板和琐碎模板相结合的模板更新方法,对于每一个追踪的目标y,如果y与模板的相似性很高,则不更新,否则将y引入模板中并剔除模板中权重较小的向量。引入琐碎模板是为了更好地解决目标遮挡问题,这种模板更新方法虽然在一定程度上可以减弱跟踪漂移现象,但是模板维数较高,提高了模型的计算代价,从而降低了追踪系统的实时性。下面用子空间学习和无监督学习相结合的模板更新方法来降低模板的维数,并且能避免模板更新过快而引入较大的误差。

      若给定当前模板T,已追踪到的目标y以及噪声能量相似度$\tau $,则拉普拉斯噪声$\mathit{\boldsymbol{S}}=\mathit{\boldsymbol{Y}}-\mathit{\boldsymbol{TZ}}-\mathit{\boldsymbol{E}}$。如果${{\left\| \mathit{\boldsymbol{s}} \right\|}_{2}}\le \tau $,则对模板T进行更新:首先分别对Ty进行奇异值分解:

      $$\mathit{\boldsymbol{T}}=\mathit{\boldsymbol{US}}{{\mathit{\boldsymbol{V}}}^{\rm{T}}},\mathit{\boldsymbol{y}}=\mathit{\boldsymbol{us}}{{\mathit{\boldsymbol{v}}}^{\rm{T}}}$$ (12)

      进一步给出$\tau $的等价定义, 令$c=\rm{mean}(\mathit{\boldsymbol{T}})$,则:

      $${{\left\| \tau \right\|}_{2}}\propto \rm{ar}\cos \left\langle \frac{(\mathit{\boldsymbol{c}},\mathit{\boldsymbol{y}})}{\sqrt{(\mathit{\boldsymbol{c}},\mathit{\boldsymbol{c}})}\sqrt{(\mathit{\boldsymbol{y}},\mathit{\boldsymbol{y}})}} \right\rangle $$ (13)

      式中,$\tau $等价为目标与模板均值的反余弦,即余弦夹角。文献[4]提出增量子空间学习追踪算法,同理可使用奇异向量$\mathit{\boldsymbol{u}},\mathit{\boldsymbol{s}},\mathit{\boldsymbol{v}}$去增量更新$\mathit{\boldsymbol{U}},\mathit{\boldsymbol{S}},\mathit{\boldsymbol{V}}$,从而得到新的奇异向量${{\mathit{\boldsymbol{U}}}_{*}},{{\mathit{\boldsymbol{S}}}_{*}},{{\mathit{\boldsymbol{V}}}_{*}}$。新的模板可表示为:

      $${{\mathit{\boldsymbol{T}}}_{*}}={{\mathit{\boldsymbol{U}}}_{*}}{{\mathit{\boldsymbol{S}}}_{*}}{{\mathit{\boldsymbol{V}}}_{*}}^{T}$$ (14)

      考虑模板的维数较大,给定初始类个数为k,使用无监督学习K-means方法训练模板:

      $$\mathit{\boldsymbol{J}}=\sum\limits_{i=1}^{n+1}{\sum\limits_{k=1}^{K}{{{r}_{ik}}}}{{\left\| {{\mathit{\boldsymbol{T}}}_{i*}}-{{\mathit{\boldsymbol{u}}}_{k}} \right\|}^{2}},{{\mathit{\boldsymbol{u}}}_{k}}=\frac{\sum\nolimits_{n+1}{{{r}_{ik}}{{\mathit{\boldsymbol{T}}}_{i*}}}}{\sum\nolimits_{n+1}{{{r}_{ik}}}}$$ (15)

      式中,$i$表示第$i$个样本;当${{\mathit{\boldsymbol{T}}}_{i*}}$属于类$k$时,${{r}_{ik}}=1$,否则${{r}_{ik}}=0$;${{\mathit{\boldsymbol{u}}}_{k}}$为所有属于类$k$的样本的平均值。因此新的模板变为${{\mathit{\boldsymbol{T}}}_{\rm{new}}}=[{{\mathit{\boldsymbol{u}}}_{1}},{{\mathit{\boldsymbol{u}}}_{2}},\cdots ,{{\mathit{\boldsymbol{u}}}_{k}}]$。

      本文提出的模板更新不同于传统的模板更新,它强调选择对目标追踪具有重要贡献的模板,而避免使用琐碎模板,并通过K-means算法对模板进行无监督训练,大大剔除了模板的冗余信息,从而提高了追踪的实时性。

    • 在目标追踪过程中,假设第(t-1) 帧的目标状态为${{q}_{t-1}}$,第t帧的所有观测为${{\mathit{\boldsymbol{Y}}}_{t}}$。目标状态更新和观测更新可以表示为:

      $$p({{q}_{t}}|{{q}_{t-1}})\propto {{w}_{t}}G({{q}_{t-1}},{{\delta }^{2}})$$ (16)
      $$p({{Y}_{t}}|{{q}_{t}})\propto \exp (-\left\| {{\mathit{\boldsymbol{Y}}}_{t}}-\mathit{\boldsymbol{DX}}-\gamma (\mathit{\boldsymbol{S}}) \right\|)$$ (17)

      式中,状态${{q}_{t}}$由6个仿射参数决定且彼此之间相互独立,即${{q}_{t}}=[{{t}_{x}},{{t}_{y}},\theta ,\varepsilon ,\mu ,\rho ]$,$\theta $、$\varepsilon $、$\mu $、$\rho $分别表示旋转角度、规模大小、长宽比和倾斜度;$[{{t}_{x}},{{t}_{y}}]$表示二维旋转参数;${{w}_{t}}$表示第t帧的粒子权重;$G({{q}_{t-1}},{{\delta }^{2}})$表示第t帧的目标状态,可以由服从均值为${{q}_{t-1}}$、方差为${{\delta }^{2}}$的高斯分布函数决定;而$p({{Y}_{t}}|{{q}_{t}})$可由同时稀疏L(p, q)的最小重构误差得到:

      $$\gamma (\mathit{\boldsymbol{S}})=\left\{ \begin{matrix} \mathit{\boldsymbol{S}} & {{\left\| {{\mathit{\boldsymbol{S}}}_{t}} \right\|}_{2}}\le \tau \\ 0 & {{\left\| {{\mathit{\boldsymbol{S}}}_{t}} \right\|}_{2}}>\tau \\ \end{matrix} \right.$$ (18)

      在实际中${{w}_{t}}$通过粒子滤波算法自适应更新得到,细节见文献[15];方差$\delta $=0.05,仿射参数由仿射矩阵逆变换得到。对应的自适应同时追踪算法,见算法3。

      算法3:自适应同时稀疏追踪算法

      输入:第t帧所有侯选粒子${{\mathit{\boldsymbol{Y}}}_{t}}=[\mathit{\boldsymbol{y}}_{t}^{1},\mathit{\boldsymbol{y}}_{t}^{2},\cdots ,\mathit{\boldsymbol{y}}_{t}^{m}]$、初始追踪目标$\mathit{\boldsymbol{y}}_{t}^{(0)}$、模板${{\mathit{\boldsymbol{D}}}_{t}}$、最大迭代次数Loop、收敛误差tol、余弦夹角阈值$\alpha $、正则参数${{\lambda }_{1}}$, ${{\lambda }_{2}}$。

      1) 根据式(13) 计算追踪目标${{y}_{t}}$与模板均值的相似性,记为sim

      2) 判断sim与$\alpha $的大小,并自适应地选择模型进行追踪

      3) IF $\text{sim}<\alpha $

      4) 选择算法1进行求解并获得稀疏系数矩阵X

      5) ELSE $\text{sim}\ge \alpha $

      6) 选择算法2求解得到稀疏系数X和噪声S

      7) 根据式(12),式(14) ~式(15) 自适应更新模板

      8) 追踪目标$\mathit{\boldsymbol{y}}_{t}^{j}=\underset{1\le j\le m}{\mathop{\arg \max }}\,p(y_{t}^{j}|{{q}_{t}})$

      输出:追踪目标$\mathit{\boldsymbol{y}}_{t}^{j}$和新的模板${{\mathit{\boldsymbol{D}}}_{\rm{new}}}$。

    • 下面通过数值试验把本文提出的算法与其他5种具有很好追踪性能的算法进行比较,这5种追踪算法分别为核技巧的循环矩阵追踪(circulant structure of kernels, CSK)[8]、加速梯度追踪(accelerated proximal gradient, L1APG)[14]、多任务追踪(multi-task tracking, MTT)[17]、稀疏原型追踪(sparse prototype tracking, SPT)[23]以及稀疏联合追踪(sparse collaborative method, SCM)[21]。所有的实验均基于Matlab 2012a,计算机内存为2 GB,CPU为Intel(R) Core(TM)i3。实验数据来源于文献[20]。

      本次实验选择了14种不同的具有追踪挑战性的视频,其中包括遮挡、光照变化、背景混杂、姿势改变、低分辨率和快速运动等影响追踪结果的因素,如表 1所示。其中OV表示目标丢失,BC表示背景混杂,OCC表示完全遮挡,OCP表示部分遮挡,OPR表示旋转出平面,LR表示低分辨率,FM表示快速运动,SV表示大小变化。

      表 1  各种不同具有挑战性的追踪视频

      视频序列帧数噪声/s
      Walking2495SV, OCP, LR
      Car4659IV, SV
      Car2913IV, SV, BC
      Girl500OPR, OCC, LR
      FaceOcc2812OCC, OPR, IV
      Football362OCC, OPR, BC
      FaceOcc1892OCC
      Suv945OCC, OV, BC
      CarDark393IV, BC, LR
      Deer71FM, LR, BC
      Singr2366IV, OPR, BC
      Skater2435SV, OPR
      Dudek1145OCC, BC, OV
      Subway175OCC, BC

      在实验中参数设置如下:正则参数${{\lambda }_{1}}=0.1$,${{\lambda }_{2}}=0.1$,惩罚因子$\beta =0.1$,余弦角度阈值${{\alpha }_{\min }}=20$,${{\alpha }_{\max }}=35$,模板最大基向量个数为15,粒子采样数为600,图像块的大小为$25\times 25$,实验最大迭代次数Loop=20。参数${{\lambda }_{1}}$, ${{\lambda }_{2}}$均通过交叉验证方法得到,且${{\lambda }_{2}}$参数的调节满足如下规则,若噪声S的能量较大(即目标遭受较大的遮挡、外形变化或光照变化),此时${{\lambda }_{2}}$的值应该较小,反之则较大。

    • 本文实验采用的评价方法有3种,且每种评价方法都能在一定程度上解释追踪性能的好坏,分别为局部中心误差(center local error)、重叠率(overlap ratio)、曲线下的面积(area under curve, AUC)。

      给定帧的真实目标框${{R}_{g}}$(ground truth)和追踪目标框${{R}_{t}}$(tracked target bounding),设它们的中心位置分别为:${{p}_{g}}=({{x}_{g}},{{y}_{g}})$和${{p}_{t}}=({{x}_{t}},{{y}_{t}})$,则局部中心误差为$\text{CLE}={{\left\| {{p}_{g}}-{{p}_{t}} \right\|}_{2}}$,重叠率为:

      $$\text{OR}=\frac{\text{area}({{R}_{t}}\bigcap {{R}_{g}})}{\text{area}({{R}_{t}}\bigcup {{R}_{g}})}$$

      式中,$\text{area}(\cdot )$表示在该区域的所有像素;AUC每一点的值表示重叠率大于给定阈值$\eta $时该视频追踪的成功率。特别地设定$\eta =0.5$,当重叠率$\text{OR}>0.5$时则认为该帧追踪成功。相关追踪结果如表 2~4所示,表 2中AOR表示总的平均重叠率,表 3中ACLE表示总的平均中心误差,表 4中ASR表示总的平均成功率,表中最好的两个结果分别用红色和蓝色表示。各算法追踪性能如图 1~3所示,图 1中平均重叠率越大表示追踪性能越好,图 2中平均中心误差越小表示追踪性能越好,图 3中曲线与x轴围成的面积越大表示追踪性能越好。

      表 2  基于平均重叠率的各种不同算法性能的对比

      Sequenes CSK L1APG MTT SPT SCM 本文算法
      Walking2 0.47 0.71 0.60 0.75 0.80 0.80
      Car4 0.48 0.22 0.17 0.88 0.87 0.90
      Car2 0.69 0.88 0.89 0.87 0.87 0.90
      Girl 0.38 0.70 0.71 0.27 0.25 0.67
      Football 0.56 0.41 0.65 0.60 0.57 0.65
      FaceOcc1 0.80 0.78 0.66 0.73 0.80 0.75
      FaceOcc2 0.78 0.66 0.70 0.80 0.75 0.75
      Suv 0.52 0.49 0.03 0.51 0.62 0.79
      CarDark 0.75 0.55 0.83 0.86 0.81 0.86
      Deer 0.76 0.68 0.74 0.72 0.66 0.78
      Singr2 0.04 0.03 0.04 0.04 0.27 0.58
      Skater2 0.59 0.28 0.18 0.36 0.25 0.58
      Dudek 0.72 0.78 0.49 0.77 0.78 0.81
      Subway 0.20 0.16 0.07 0.16 0.70 0.77
      AOR 0.55 0.52 0.48 0.59 0.64 0.76

      表 3  基于平均局部中心误差的各种不同算法性能的对比

      Sequences CSK L1APG MTT SPT SCM 本文算法
      Walking2 17.78 7.12 11.31 2.42 1.94 2.29
      Car4 19.13 102.26 425.56 3.02 2.92 1.57
      Car2 2.53 1.40 1.50 2.17 1.61 1.79
      Girl 19.34 3.27 3.08 11.38 83.44 4.97
      Football 16.19 27.40 9.41 13.41 14.03 7.48
      FaceOcc1 11.93 13.85 27.74 20.21 12.45 18.16
      FaceOcc2 5.92 12.82 10.40 6.05 9.18 8.53
      Suv 573.23 75.35 529.75 53.41 32.85 6.50
      CarDark 3.23 18.32 1.01 1.21 1.30 0.95
      Deer 4.96 17.50 7.12 7.74 13.16 5.68
      Singer2 185.47 180.07 208.49 170.48 67.15 13.55
      Skater2 16.78 68.32 250.50 40.57 105.90 20.71
      Dudek 13.39 8.63 336.24 10.09 11.44 8.71
      Subway 164.37 147.15 202.94 140.15 3.91 2.70
      ACLE 75.30 48.82 144.65 34.45 25.81 6.40

      表 4  基于平均成功率的各种不同算法性能的对比

      Sequences CSK L1APG MTT SPT SCM 本文算法
      Walking2 40.81 97.78 72.32 100.00 100.00 100.00
      Car4 28.22 27.47 19.73 100.00 100.00 100.00
      Car2 100.00 100.00 100.00 99.23 100.00 100.00
      Girl 41.60 95.20 99.40 27.00 33.40 91.60
      Football 67.13 41.16 80.39 81.22 75.14 73.76
      FaceOcc1 100.00 100.00 96.41 94.84 100.00 100.00
      FaceOcc2 100.00 76.35 80.91 100.00 89.41 98.77
      Suv 57.46 53.33 3.39 53.76 70.69 95.56
      CarDark 99.24 67.43 100.00 100.00 98.73 97.96
      Deer 100.00 88.73 94.37 94.37 88.73 100.00
      Singer2 3.83 2.73 3.83 3.83 26.50 71.58
      Skater2 77.01 23.22 4.83 28.28 19.77 59.54
      Dudek 94.67 93.80 58.25 99.56 98.25 98.95
      Subway 22.29 22.29 8.00 21.14 98.86 99.43
      ASR 66.59 63.54 58.70 71.66 78.53 91.94

      图  1  各种不同追踪算法的平均重叠率

      图  2  各种不同追踪算法的平均中心误差

      图  3  各种不同追踪算法的AUC曲线

    • 为了方便描述,将本文提出的追踪算法简记为ASSAT算法(adaptive simultaneous sparse representation appearance tracking algorithm)。

      1) 背景混杂和快速运动情形:图 4分别给出了快速运动和背景混杂的追踪效果,视频Deer包含快速运动因素。从Singer2可看到大部分算法都无法有效追踪到结果,在帧240时,有很多算法的追踪框偏离目标,漂移现象很严重,如SCM,CSK,MTT,L1APG,SPT等,只有ASSAT算法可以有效追踪到目标。在帧366时(视频结束)本文提出的依然可以有效追踪到目标,大大减弱了追踪漂移现象。在视频SUV中,开始时所有追踪算法均能有效追踪到目标,在帧560时,只有SCM, CSK和ASSAT算法可以追踪到目标,在第945帧时只有ASSAT可以有效追踪到目标。对于视频Deer而言,可以看到除了MTT算法大部分算法均能有效追踪到目标,另外可以看到SCM算法不太稳定,因在帧40时SCM算法偏离了追踪目标,出现跟踪漂移现象。ASSAT算法可以有效追踪背景混杂的视频序列是因为其采用了同时稀疏表示方法,该方法通过模板基的选择来刻画粒子之间的关系,对噪声污染较大的粒子给与了较低的稀疏权重,因此具有很强的噪声抗干扰性。

      图  4  基于快速运动和背景混杂视频下的追踪效果

      2) 姿势改变和光照变化情形:图 5图 6分别给出了姿势改变和光照变化的追踪效果。从图 5中的Deduk视频可以看出所有的追踪算法都能有效追踪到目标(人脸),但是ASSAT可以更加准确地追踪到人脸目标,而对于Skater2视频,大部分算法都无法准确跟踪到目标,因为目标姿势改变的太过频繁且改变的幅度较大,在第90帧时只有LIAPG, CSK和ASSAT算法可较为准确的追踪的目标,但在帧435时只有ASSAT和CSK能够追踪到目标,尽管追踪的不太精确。图 6可以看到几乎所有算法都可以对光照变化产生一定的抗干扰性,除了LIAPG和CSK算法有一些不太稳定。因此对于姿势改变不大的情况ASSAT算法还是可以有效的追踪到目标。

      图  5  基于姿势改变和旋转视频下的追踪效果

      图  6  基于光照变化视频下的追踪效果

      3) 目标遮挡情形:图 7展示了目标遮挡对跟踪性能的影响,在Girl视频序列中可看到在帧458和帧500时,大部分算法都出现了跟踪漂移现象,不能有效追踪到目标,除了ASSAT,LIAPG和MTT算法,从Subway也可看到在帧41时,只有SCM, L1APG和ASSAT算法可有效追踪到目标,而在帧175时,除了SCM和ASSAT算法其他算法都出现了很大的跟踪漂移。通过比较可看出ASSAT算法能更好的解决目标遮挡问题,这是因为该算法考虑了遮挡对追踪的影响,它就像一个滤波器在追踪之前对噪声进行了有效剔除,去除了可能对追踪效果产生影响的不稳定的因素(遮挡、光照变化、背景混杂和姿势改变等)。

      图  7  基于目标遮挡视频下的追踪效果

    • 下面详细介绍模型中提到的拉普拉斯噪声和模板更新准则对追踪效果的具体影响。

      传统的模板更新方法是直接通过追踪目标与模板的相似度进行更新,若相似度大于给定的阈值,则认为目标遭遇了较大的噪声污染,因此需要将追踪目标替代原始权值较小的模板向量,这样替换其实是比较粗糙的,因为引入了较大的噪声误差,这样就给下一帧目标的追踪造成了很多不确定性,而本文提出的新的模板更新方法则削弱了噪声影响。具体表现如下:

      1) 新的模板更新方法有效权衡原始模板向量和新的追踪目标之间的权重,通过遗忘因子实现模板更新(具体见文献[4]);

      2) 新的模板更新方法引入了K-means方法,可以有效地降低冗余模板向量,提高追踪的实时性,通过式(18) 可看到类中心的计算是通过加权平均得到的,因此也可有效地减弱噪声。

      下面给出具体实验分别比较模板更新和拉普拉斯对实验效果的影响。实验数据选择序列Skater2,Dudek, SUV,Walking2,Subway,Deer等。

      表 5可以看出除了Walking2序列,加入拉普拉斯噪声后其追踪效果要优于MTT算法。但是原始模板更新的方法限制了它的追踪性能,而提出的新模板更新方法促进了ASSAT算法的追踪性能。

      表 5  比较拉普拉斯对实验结果的影响

      Sequences MTT算法 ASSAT (仅拉普拉斯) ASSAT(拉普拉斯+模板更新)
      Skater2 0.18 0.32 0.58
      Dudek 0.49 0.79 0.81
      SUV 0.03 0.81 0.79
      Walking2 0.60 0.35 0.80
      Subway 0.07 0.71 0.77

      表 6中可以看出仅使用模板更新的ASSAT方法和IVT方法的追踪效果差不多,对于Skater2,Subway序列两种方法效果都不好,原因是这两种序列含有较大的遮挡,对于仅考虑模板更新而没有考虑拉普拉斯噪声的ASSAT算法是无法有效追踪到目标的,IVT也是一样。但两者结合会取得更好的追踪效果。事实上,对于这种含有较大遮挡的情况,若不考虑拉普拉斯噪声,可归结到噪声因素影响了式(5) 中解X的稀疏结构,如图 8所示。

      表 6  比较模板更新对实验结果的影响

      Sequences 文献[6](IVT) ASSAT (仅模板更新) ASSAT(拉普拉斯+模板更新)
      Skater2 0.24 0.11 0.58
      Dudek 0.80 0.80 0.81
      SUV 0.14 0.32 0.79
      Deer 0.26 0.75 0.75
      Subway 0.16 0.16 0.77

      图  8  拉普拉斯噪声对解X的影响

      图 8表示目标在遮挡情况不同的情况下噪声选择对解的影响。图 8的第一行表示考虑拉普拉斯噪声时所得到的解,可以看到解是稀疏的,此时解是最优的;图 8的第二行表示未考虑拉普拉斯噪声时所得到解,此时解是稠密的,非最优解,因此保持解的稀疏结构直接影响算法的追踪性能。

    • 为了提高追踪系统的实时性,下面考虑自适应${{\text{L}}_{p}}$稀疏表示目标追踪算法,该算法与前面提出的算法一样,也考虑了噪声分布的影响,且模板更新采用在线增量学习与K-means相结合的模板更新方法,唯一不同的是,模型中认为粒子之间的影响是相互独立的,可以分别通过稀疏模型进行求解,且使用了LASSO求解算法,根据粒子滤波框架理论和最大后验概率求出最优追踪结果。数值试验结果表明该算法相对于目前存在的较好的追踪算法取得了更好的追踪效果,表现为精确性更高、实时性更好。

    • 假设噪声分布服从高斯拉普拉斯分布:噪声$n$服从高斯分布($n\tilde{\ }N(0,\sigma _{N}^{2})$),噪声$s$服从拉普拉斯分布($s\tilde{\ }N(0,{{\sigma }_{L}})$),侯选目标$y$可以写成:

      $$y=Tx+n+s$$ (19)

      通常在噪声污染较小的情况下,认为侯选目标$y$可由模板$T$的少量基的线性组合来表示,这就意味着求解系数$x$是稀疏的,因此稀疏表示模型变为:

      $${{x}_{\text{opt}}}=\underset{x}{\mathop{\arg \min }}\,\left\| y-Tx-s \right\|_{2}^{2}+{{\lambda }_{1}}{{\left\| x \right\|}_{1}}+{{\lambda }_{2}}{{\left\| s \right\|}_{1}}$$ (20)

      同前面分析一样,令:

      $$\chi (s)=\left\{ \begin{matrix} 0 & {{\left\| s \right\|}_{2}}\le \tau \\ s & {{\left\| s \right\|}_{2}}>\tau \\ \end{matrix} \right.$$

      式中,$\tau $是一个阈值,当噪声能量大于$\tau $时,此时需要考虑拉普拉斯噪声的影响,反之则忽略拉普拉斯噪声的影响。因此最终模型如下:

      $$\begin{align} & \underset{x,s}{\mathop{\min }}\,\left\| y-Tx-\chi (s) \right\|_{2}^{2}+{{\lambda }_{1}}{{\left\| x \right\|}_{1}}+{{\lambda }_{2}}{{\left\| \chi (s) \right\|}_{1}} \\ & \text{s}\text{.t}\text{.}x\ge 0 \\ \end{align}$$ (21)

      式(21) 的求解可以采用交替迭代的方法,每一次迭代都使用一次LASSO算法,令:

      $$L(x,s)=\left\| y-Tx-\chi (s) \right\|_{2}^{2}+{{\lambda }_{1}}{{\left\| x \right\|}_{1}}+{{\lambda }_{2}}{{\left\| \chi (s) \right\|}_{1}}$$

      即:

      $$L(x,s)=\left\| y-Tx-\chi (s) \right\|_{2}^{2}+{{\lambda }_{1}}{{\left\| x \right\|}_{1}}+{{\lambda }_{2}}{{\left\| \chi (s) \right\|}_{1}}$$
      $$\begin{array}{c} {x^{k + 1}} = \mathop {\arg \min }\limits_{{s^k}} {\mkern 1mu} L(x,{s^k})\\ {s^{k + 1}} = \mathop {\arg \min }\limits_{{s^k}} {\mkern 1mu} L({x^{k + 1}},{s^k}) = {\rm{shrink}}(T{x^{k + 1}} - y,1/{\lambda _2}) \end{array}$$

      式中,shrink是一个紧缩算子。

    • 目标状态的更新和预测是目标追踪算法的核心问题。前面介绍了增量学习与K-means相结合的模板更新方法,本节提出的算法依然采用这种模板更新机制。类似的给出了自适应Lp模型的追踪算法4。

      算法4:自适应Lp模型追踪算法

      输入:第t帧侯选粒子${{\mathit{\boldsymbol{Y}}}_{t}}=[\mathit{\boldsymbol{y}}_{t}^{1},\mathit{\boldsymbol{y}}_{t}^{2},\cdots ,\mathit{\boldsymbol{y}}_{t}^{m}]$、最大迭代次数Loop、收敛误差tol、阈值区间$[\alpha ,\beta ]$、正则参数${{\lambda }_{1}}$、${{\lambda }_{2}}$。

      1) 初始化$i=0$,$j\in [1,m]$,拉普拉斯噪声$s_{t}^{i}=0$

      2) 根据式(13) 计算追踪目标${{y}_{t}}$与模板均值的相似性,记为sim

      3) 迭代

      $$\begin{matrix} x_{t}^{i+1}=\arg \min \left\| y_{t}^{i}-Tx_{t}^{i}-\chi (s_{t}^{i}) \right\|_{2}^{2}+ \\ {{\lambda }_{1}}{{\left\| x_{t}^{i} \right\|}_{1}}+{{\lambda }_{2}}{{\left\| \chi (s_{t}^{i}) \right\|}_{1}}x_{t}^{i}\ge 0 \\ \end{matrix}$$
      $$\chi (s_{t}^{i+1})=\text{shrink}(Tx_{t}^{i+1}-y_{t}^{i},1/{{\lambda }_{2}})$$
      $$i\leftarrow i+1$$

      4) 迭代直到$i>\text{Loop}$或者

      $$\left| L(x_{t}^{i+1},\chi (s_{t}^{i+1}))-L(x_{t}^{i},\chi (s_{t}^{i})) \right|<\text{tol}$$

      5) 获得最好追踪目标${{y}_{\text{opt}}}=\underset{1\le j\le m}{\mathop{\arg \max }}\,p(y_{t}^{j}|{{q}_{t}})$

      6) 通过式(12) ~式(15) 更新目标模板T,并得到新模板${{T}^{*}}$

      输出:追踪目标${{y}_{\text{opt}}}$和新的模板${{T}^{*}}$

    • 选取20种不同的视频序列(http://cvlab.hanyang.ac.kr/trackerbenchmark/datasets.html),实验中模板基的个数设定为15,最大迭代次数和收敛误差分别为$\text{Loop}=5$,$\text{tol}=0.001$,阈值区间$\alpha =20$, $\beta =28$。使用LASSO算法[24]求解${{L}_{1}}$模型,在默认的情况下正则参数${{\lambda }_{1}}=0.2$,${{\lambda }_{2}}=0.1$,实际中通过交叉验证的方法可以设置参数${{\lambda }_{2}}\in (0.000\text{ }5,0.5)$。

      将算法4和目前9种比较好的算法进行比较,除了前面的CSK算法[8]、L1APG算法[14]、MTT算法[17]、SPT算法[23]和SCM算法[21]、再增加DFT算法[25]、ORIA算法[26]、IVT算法[4]、ASLSA算法[7]

      表 7表 8给出了在20种不同情境下的定量数据展示。表 7中AOR表示平均重叠得分,Fps表示每秒追踪的帧数,Fps越大表示追踪的越快即说明该算法的实时性越好。本文提出的算法AOR=0.74和ACLE=6.5是最好的,而Fps=9.53排名第三,这表明算法4在保证追踪精度的同时实时性也较好。

      表 7  10种追踪算法的追踪性能的定量分析表

      视频 DFT CSK L1APG ORIA MTT IVT ASLSA SPT SCM 本文算法
      Walking2 0.41 0.47 0.71 0.49 0.60 0.63 0.82 0.75 0.80 0.82
      Walking 0.57 0.55 0.71 0.14 0.58 0.72 0.76 0.74 0.70 0.76
      Car4 0.24 0.48 0.22 0.21 0.17 0.91 0.89 0.88 0.87 0.89
      Car2 0.16 0.69 0.88 0.74 0.89 0.91 0.88 0.87 0.87 0.92
      Girl 0.29 0.38 0.70 0.48 0.71 0.40 0.67 0.27 0.25 0.68
      Gil2 0.37 0.39 0.38 0.36 0.34 0.37 0.42 0.38 0.42 0.73
      Football 0.62 0.56 0.41 0.70 0.65 0.52 0.53 0.60 0.57 0.63
      Football1 0.90 0.58 0.16 0.22 0.68 0.67 0.61 0.68 0.47 0.70
      FaceOcc1 0.69 0.80 0.78 0.62 0.66 0.74 0.31 0.73 0.80 0.75
      FaceOcc2 0.77 0.78 0.66 0.69 0.70 0.75 0.81 0.80 0.75 0.77
      Suv 0.08 0.52 0.49 0.65 0.03 0.14 0.83 0.51 0.62 0.85
      Surfer 0.05 0.11 0.14 0.18 0.45 0.64 0.73 0.65 0.75 0.68
      CarDark 0.38 0.75 0.55 0.42 0.83 0.83 0.81 0.86 0.81 0.80
      Deer 0.26 0.76 0.68 0.12 0.74 0.26 0.68 0.72 0.66 0.75
      Singr2 0.63 0.04 0.03 0.04 0.04 0.04 0.65 0.04 0.27 0.58
      Skater2 0.07 0.59 0.28 0.13 0.18 0.24 0.49 0.36 0.25 0.50
      Dudek 0.69 0.72 0.78 0.70 0.49 0.80 0.79 0.77 0.78 0.79
      RedTeam 0.62 0.62 0.71 0.40 0.62 0.74 0.77 0.76 0.74 0.79
      Subway 0.74 0.20 0.16 0.07 0.07 0.16 0.73 0.16 0.70 0.75
      Car24 0.10 0.41 0.79 0.42 0.79 0.78 0.75 0.50 0.87 0.73
      AOR 0.43 0.52 0.51 0.39 0.51 0.56 0.70 0.60 0.65 0.74
      Fps 5.01 150.94 0.73 3.30 1.45 18.14 3.53 2.58 0.67 9.53

      表 8  10种追踪算法的ACLE比较

      视频 DFT CSK L1APG ORIA MTT IVT ASLSA SPT SCM 本文算法
      Walking2 28.8 17.8 7.1 9.57 11.3 2.9 2.1 2.4 1.9 2.4
      Walking 5.9 7.2 3.5 212.4 9.5 2.2 2.1 1.7 2.2 2.9
      Car4 61.9 19.1 102.3 123.6 425.6 1.6 2.0 3.0 2.9 2.2
      Car2 87.7 2.5 1.4 3.2 1.5 1.4 1.2 2.2 1.6 1.5
      Girl 24.0 19.3 3.3 12.7 3.1 17.2 4.6 11.4 83.4 4.6
      Gil2 129.9 157.2 115.6 115.4 204.1 128.1 122.0 119.2 114.4 8.1
      Football 9.29 16.2 27.4 6.4 9.4 15.2 15.8 13.4 14.0 7.4
      Football1 1.52 8.1 48.5 24.1 5.6 5.7 6.9 5.5 14.0 4.7
      FaceOcc1 23.6 11.9 13.9 25.5 27.7 18.0 81.3 20.2 12.5 18.4
      FaceOcc2 7.9 5.9 12.8 12.0 10.4 8.7 5.6 6.1 9.2 7.9
      Suv 111.4 573.2 75.4 38.0 529.8 92.3 4.3 53.4 32.9 2.9
      Surfer 115.7 37.5 29.7 74.4 10.4 3.5 3.2 4.9 3.2 4.6
      CarDark 58.9 3.2 18.3 26.2 1.0 1.9 1.5 1.2 1.3 1.2
      Deer 98.8 5.0 17.5 87.3 7.1 121.0 20.4 7.7 13.2 6.5
      Singer2 21.9 185.5 180.1 185.8 208.5 173.1 10.9 170.5 67.2 17.1
      Skater2 125.0 16.8 68.3 80.1 250.5 77.4 25.0 40.6 105.9 18.9
      Dudek 18.7 13.4 8.6 15.2 336.2 9.4 11.6 10.1 11.4 10.3
      RedTeam 2.9 2.6 3.2 7.8 2.9 2.6 2.6 2.4 2.5 2.3
      Subway 3.3 164.4 147.2 162.8 202.9 147.3 3.7 140.2 3.9 2.8
      Car24 160.5 8.1 2.3 1.5 1.6 1.2 2.4 59.4 1.8 2.9
      ACLE 54.9 63.7 44.3 61.2 113.0 41.5 16.4 33.8 25.0 6.5

      图 9展示了目标遭受快速运动、尺度变化和姿势旋转等噪声影响的追踪实验结果。对于视频Football,很明显本文算法可成功追踪到目标,其他算法都丢失了目标(见帧318和帧362);对于视频Skater2,大部分算法都不能准确追踪到目标,在帧10时,每一种追踪算法都可以捕捉到目标,但在帧200时,因为目标形态改变太多,此时已经没有算法可以准确捕捉到目标了,在帧435时,只有本文的算法、CSK和ASLSA算法可以捕捉到目标的一部分;对于视频Deer和Surfer,可很清楚地看到本文的算法,SCM, SPT, ASLSA和L1APG算法可有效捕捉到目标。其原因归结于本文的算法综合考虑了噪声的影响,且将噪声部分进行很好地剔除,使得目标可以被模板稀疏表示,因而追踪成功。

      图  9  几种追踪算法在快速运动和姿势旋转视频中的追踪效果

      在实验中所有的参数都通过交叉验证的方法得到,在追踪过程中参数${{\lambda }_{1}}$不灵敏,一般可据经验设置在区间0.05~0.5,本文设置为0.1。难点是参数${{\lambda }_{2}}$的调整,因参数${{\lambda }_{2}}$直接影响拉普拉斯噪声能量的大小,一般相对来说,${{\lambda }_{2}}$越大拉普拉斯噪声能量越小。本文只给出了参数${{\lambda }_{2}}$的经验调整范围,当目标遭受较大的噪声污染时,如完全遮挡,此时${{\lambda }_{2}}$通常取较小的值一般在0.000 5~0.01之间,反之参数${{\lambda }_{2}}$取值在0.01~0.5之间。

    • 本文提出了同时稀疏表示的自适应追踪算法,该方法考虑了拉普拉斯噪声的影响,并根据噪声的能量大小自适应的选择稀疏模型。另外,模型使用了2种稀疏表示:同时稀疏(Lp, q)法,综合考虑了粒子之间的关系,使用ADMM方法对模型进行求解;对${{L}_{p}}$模型,认为粒子之间的影响是相互独立的,可以分别通过LASSO算法分别求解;不同情境下的大量实验表明,这两种方法均得到了稳定的结果。

参考文献 (26)

目录

    /

    返回文章
    返回