-
随着计算机技术的发展和人工智能技术的日益成熟,通过计算机视觉来替代人类视觉系统对视频数据进行分析理解的趋势愈加明显。多目标跟踪(multiple object tracking, MOT)是视频分析理解的热门问题之一,其结合了模式识别、机器学习、计算机视觉、图像处理以及计算机应用等多个学科,构成了一种多目标定位和运动轨迹预测的技术。在智能监控、行为分析、人机交互、体育分析、智能驾驶系统等领域中,多目标跟踪技术有着广泛的应用前景及巨大的潜在经济价值。
在过去数十年里,多目标跟踪技术取得了极大的发展,也涌现出很多优秀的方法。早期的一些工作[1-3]尝试将多目标跟踪建模成多个单目标跟踪任务独立进行,这是一种很直观的解决方法。然而,在多目标跟踪场景中会面临着更加复杂的问题,如目标的频繁遮挡、目标突然出现或消失、目标具有相似的外观等,仅依靠单目标跟踪器很难在该场景下实现鲁棒的跟踪。随着深度学习的发展和高性能检测器的出现,文献[4-9]发现基于检测的多目标跟踪(tracking-by-detection)在各个场景都可以取得更好的鲁棒性。这类方法将多目标跟踪任务分为两个单独的子任务,即检测和数据关联。第一步是通过高性能的检测器[10-13]获得每一个目标的目标框预测。第二步是基于重识别(re-identificaion, ReID)[14-15]、运动预测[16-18]等方法,构建与目标相关的信息来实现帧间匹配,以形成轨迹。这类方法至今依然在多目标跟踪算法中占据着“统治”地位。虽然基于检测的多目标跟踪方法性能优异,但是堆叠多个模块构成的系统也带来巨大的计算量,并不利于实际应用。为了平衡速度与精度,文献[19-24]将注意力转移到如何构建一体化的多目标跟踪模型上,这也是目前多目标跟踪研究的新趋势。
随着多目标跟踪研究的推进,近年来也有不少工作对多目标跟踪研究进行综述。已有综述可分为3类:第一类主要从多目标跟踪的模块组成出发,探讨多目标跟踪各组成部分的研究进展[25-27];第二类梳理了已有的多目标跟踪算法,并进行分类概述[28-29];第三类主要围绕多目标跟踪中的数据关联方法[30-31]进行讨论。不同于先前的工作,本文聚焦于多目标跟踪一体化研究进展,对近年来广受关注的一体化多目标跟踪算法进行了系统性地综述。从不同的一体化构建思路出发,梳理包括构建出发点、框架设计、方法优缺点、研究趋势等方面的内容,并结合公开数据集[32-34]对比分析已有的一体化多目标跟踪方法的优势和局限性,为相关领域做进一步研究提供参考。
-
随着研究进一步深入,近年来很多工作关注于如何联合上述两个或多个模块来构建一体化多目标跟踪算法。这些方法无论在处理速度还是性能上都表现优异,受到了广泛关注。下面,将从不同的一体化构建思路出发展开论述。
-
该类方法的出发点是构建一个可以同时输出目标定位和外观匹配信息的模型。具体来说,对于第
$ t $ 帧的图像输入$ {x_t} $ ,仅通过一个统一的模型$ \psi $ 进行处理就可以输出两种任务信息,其具体操作如下:$$ {D_t}= \psi ({x_t}) ,\;\;\;{E_t} = \psi ({x_t})$$ (1) 式中,
$ {D_t} $ 为第$ t $ 帧目标框的集合;$ {E_t} $ 表示$ {D_t} $ 中目标框所对应的匹配信息集合。由于减少了反复调用外观模型对每个目标单独提取特征所带来的巨额计算量,该类一体化方法极大地提高了推理速度,甚至在一些非密集场景用单张GPU可以实现实时推理。联合检测和外观建模的一体化方法[41]在两阶段检测器Faster R-CNN[10]的基础上添加额外的全连接层来提取用于匹配的外观信息。JDE[19]通过重新设计一阶段检测器YOLOv3[11]的输出模块,实现定位和匹配信息的同步输出。上述两个工作通过输出结构的改进,简单有效地将匹配特征提取融入到不同检测框架中,后续方法均参考该构建思路进行进一步扩展或改进。RetinaTrack[42]在上述思路的基础上设计了多分支头,在不同分辨率的特征图上安排K个锚点框,减少目标重叠带来的歧义。FairMOT[43]认为密集的锚点(anchor)设置会带来多目标跟踪性能的下降,为此基于无锚框检测器CenterNet[35]搭建了一体化网络。文献[20]分析了一体化模型中检测和ReID任务所存在的本质矛盾,指出了这种矛盾导致特征学习存在歧义而造成性能下降。为了解决该问题,CSTrack[20]引入了互相关网络,通过共性和差异性学习促使网络生成与任务相关的特征,有效提高了一体化方法的性能。文献[44]提出了QDTrack,通过在真实标签附近密集采样上百个目标框用于相似性学习,以提高所提取外观特征的匹配能力。
总的来看,该类方法巧妙地统一检测和外观建模,有效地提高了多目标跟踪的效率。然而,当前方法依然强依赖于检测器所获得的检测结果。如果检测结果不可靠,出现漏检、误检的情况,往往会造成轨迹断裂或错误匹配。
-
联合检测和运动建模的一体化方法本质是赋予检测器运动建模的能力。在模型输入上,除了当前帧的图像
$ {x_t} $ 之外,还需将上一帧的目标定位$ {D_{t - 1}} $ 一起输入到模型$ \psi $ 之中,通过模型的运动建模能力实现已有目标的跨帧传播。其操作可总结为:$$ {D_t} = \psi ({x_t},{D_{t - 1}}) ,\;\;\; {D_t} = (D_t^{{\rm{pro}}},D_t^{{\rm{new}}}) $$ (2) 式中,
$ {D_{t - 1}} $ 和$ {D_t} $ 分别表示第$ t - 1 $ 帧和第$ t $ 帧的目标框集合。当前帧的结果$ {D_t} $ 由两部分组成,一部分是运动建模获得的迁移结果$ D_t^{{\rm{pro}}} $ ,另一部分是由检测器检测到的新出现目标$ D_t^{{\rm{new}}} $ 。Tracktor[23]首次采用上述思路将检测器转换为跟踪器,利用Faster R-CNN[10]第二阶段网络的回归能力实现将上一帧目标框传播到当前帧,以一种简单高效的方式将检测器转化为跟踪器。受到Tracktor的启发,文献[24]基于无锚框检测器CenterNet[35]搭建了跟踪器CenterTrack,把目标逐帧传播设定为中心点跟踪问题,通过预测点逐帧的偏移量实现多目标跟踪。虽然上述框架十分简洁,基于检测器的一次前向传播就可完成多目标跟踪,但是其缺点也很明显,即在一些长距离跟踪或者遮挡场景并不鲁棒。针对该问题,基于CenterTrack的框架引入卷积门控循环单元[45],文献[46]提出了PermaTrack。通过编码输入视频中目标的时空演化,PermaTrack可以推断部分或完全遮挡目标的位置,提高了多目标跟踪在遮挡场景的鲁棒性。随着Transformer网络[47]的兴起,文献[48]提出了TransTrack,将Transformer检测框架Dert[49]扩展成为一种基于键值(Key)查询的运动预测模型,实现了目标的迁移传播。
除了直接利用检测器的回归能力之外,另一种思路是考虑将先进的单目标跟踪融入到检测器之中构建一体化网络。如文献[50]提出了SOTMOT,在CenterNet[35]的基础上增加一个额外的单目标跟踪分支,通过先进的岭回归目标跟踪方式[51]实现多个目标的运动传播。文献[52]提出了SiamMOT,在Faster-RCNN[10]的基础上引入了孪生网络跟踪[17]。通过候选区域生成网络,SiamMOT可直接在编码后的特征上获取每个目标的特征和对应检索区域,并利用互相关操作预测目标在帧间的移动情况。
上述方法高效地将运动建模融入到检测器中,提高了目标一致性预测的鲁棒性,然而在长时或复杂的跟踪场景中,目标运动无法提供可靠的匹配信息,依然存在目标漂移的风险。
-
虽然上述两种一体化思路无论在精度还是处理速度上都取得了SOTA的性能,但是其局限性也很明显。可见,运动建模和外观特征是人类观测和跟踪一个物体必须考虑的两方面信息,仅考虑其中一者难以应对复杂多变的实际场景。因此,为了进一步提高多目标跟踪的性能,后续工作将检测、外观建模和运动建模集成到一个网络中。
文献[53]提出CorrTrack,在联合检测和外观建模的一体化方法FairMOT[43]的基础上融入了时空信息,通过局部自注意力的方式建模了目标与周围环境之间的时空拓扑关系,提高了一体化模型的跟踪性能。文献[54]提出了FUFET,采用金字塔光流法[55]预估目标在场景中的运动情况,弥补了单一外观特征带来的局限,进一步提高了不同帧目标匹配的一致性。文献[56]将CenterTrack[24]预测目标偏移量的思路融入到联合检测和外观建模的方法中,提出了TraDeS。TraDeS利用跟踪线索增强了模型目标检测和分割的性能。文献[57]设计了一种轻量化的再查询网络,巧妙地扩展用于匹配的外观特征,以一种极低的开销建模多个目标的时序线索。在当前广受欢迎的联合检测和外观建模的一体化方法上(如FairMOT[43]和CSTrack[20]),该模块以极小的代价显著提高其跟踪性能。虽然这类方法的已有成果较少,但是其高性能和优异的实时性也正吸引着越来越多的学者投入到其研究中。
-
随着基于视频的目标检测技术的发展,一些研究者也关注于是否可以基于视频片段输入来构建端到端的多目标跟踪框架。该类方法目的是通过自动处理一段视频序列输入,直接生成多个目标的运动轨迹和定位信息,不再需要引入额外的数据关联模型或步骤。其具体操作可被总结为:
$$ T = \psi (S) $$ (3) 式中,
$ \psi $ 表示端到端的一体化模型;$ S $ 表示视频片段输入;$ T $ 为所输出的目标定位和匹配结果的集合。TubeTK[22]引入3D卷积对视频输入进行编码,直接预测目标的时空位置和运动轨迹。由于全局的信息引入,TubeTK在克服遮挡方面表现出色。CTracker[21]构建了一种链式的跟踪方法,将目标检测、特征提取、数据关联3个模块集成到单个网络中。具体来说,CTracker将相邻两帧图像建模为一个节点,并将整个视频序列拆分为通过重复帧链接的节点链。通过对节点进行处理,模型可以直接预测相邻帧目标的两两匹配关系和目标定位信息,并通过链接结构完成长时轨迹的预测。虽然该类方法的已有工作较少且性能较低,但是其简单高效的多目标跟踪实现方式,也提供了一种一体化训练和跟踪的新思路。
-
本章通过实验定量且定性地分析不同一体化方法的性能表现。在比较不同方法的性能之前,本章首先介绍测试所用的数据集以及评价指标。
-
为了公平比较,采用权威的MOT Challenge系列数据集进行测评。MOT Challenge系列数据集虽然不是最早的一个数据集,但是因为其提供了更丰富的测试场景和更公平的测评环境,自2015年后提出的多目标跟踪方法普遍在该数据集上做横向或纵向比较。目前,MOT Challenge官方针对于行人类别共发布了4个数据集供研究者进行研究,分别为MOT15[32]、MOT16[33]、MOT17[33]、MOT20[34],其详细情况如表1所示。
-
多目标跟踪是一项需要精确定位和长时间关联的任务,评价非常复杂,往往很难用单个指标概括整个系统的性能。目前,在MOT Challenge的线上评估系统中有一套公认的指标来评价多目标跟踪系统,主要由CLEAR MOT指标[58]和ID指标[59]构成。本文采用当前研究中最常用的多目标跟踪精度(multiple object tracking accuracy, MOTA)[58]和目标识别准确度(identification F1 score, IDF1)[59]作为主要评价指标。此外,考虑到不同一体化方法构建的出发点存在差异,为了更直观地评价,本文采用了更多指标,如引入最多跟踪目标数(mostly tracked, MT)、最多丢失目标数(mostly lost, ML)、漏检数量(false negatives, FN)和误检数量(false positives, FP)来补充评价跟踪器的召回能力;引入ID切换数(identification switch, ID Sw.)来综合评价生成轨迹的连贯性;引入帧率(Hz)来评价跟踪器处理速度。
-
当前所提出基于私有检测(private detection, PD)的一体化方法广泛采用MOT16、MOT17和近年来提出的MOT20进行测试及横向比较。因此,为了保证实验的权威和公平性,采用上述3个基准进行实验数据分析。表2~表4根据MOTA排序,列举了当前主流的一体化方法和一些经典的多模型堆叠方法在私有检测赛道的性能指标。其中,表2的多模型方法用黑体标识。
表 2 MOT16上基于私有检测的方法性能比较
方法 发布情况 MOTA↑ IDF1↑ MT↑ ML↓ FP↓ FN↓ IDS↓ Hz↑ SORT_POI[4] ICIP 2016 59.8 53.8 25.4 22.7 8698 63245 1423 <8.6 DeepSORT[6] ICIP 2017 61.4 62.2 32.8 18.2 12852 56668 781 <6.7 RAN[8] WACV 2018 63.0 63.8 39.9 22.1 13663 53248 482 <1.5 TubeTK[22] CVPR 2020 64.0 59.4 33.5 19.4 10962 53626 1117 1.0 JDE[19] ECCV 2020 64.4 55.8 35.4 20.0 10642 52523 1544 22.2 POI[7] ECCV 2016 66.1 65.1 34.0 21.3 5061 55915 805 <5.2 CTracker[21] ECCV 2020 67.6 57.2 32.9 23.1 8934 48305 1897 6.8 QDTrack[44] CVPR 2021 69.8 67.1 41.7 19.8 9861 44050 1097 14.0~30.0 TraDeS[56] CVPR 2021 70.1 64.7 37.3 20.0 8091 45210 1144 17.5 SOTMOT[50] CVPR 2021 72.1 72.3 44.0 13.2 14344 34784 1681 16.0 FairMOTv2[43] IJCV 2021 74.9 72.8 44.7 15.9 − − − 25.9 CSTrack[20] Arxiv 2020 75.6 73.3 42.8 16.5 9646 33777 1121 15.8 OMC[57] AAAI2022 76.4 74.1 46.1 13.3 10821 31044 1296 12.8 FUFET[54] Arxiv2020 76.5 68.6 52.8 12.3 12878 28982 1026 − CorrTrack[53] CVPR 2021 76.6 74.3 47.8 13.3 10860 30756 979 14.8 表 3 MOT17上基于私有检测的方法性能比较
方法 发布情况 MOTA↑ IDF1↑ MT↑ ML↓ FP↓ FN↓ IDS↓ Hz↑ TubeTK[22] CVPR 2020 63.0 58.6 31.2 19.9 27060 177483 4137 1.0 CTracker[21] ECCV 2020 66.6 57.4 32.2 24.2 22284 160491 5529 6.8 CenterTrack[24] ECCV 2020 67.8 64.7 34.6 24.6 18498 160332 3039 22.0 QDTrack[44] CVPR 2021 68.7 66.3 40.6 21.8 26589 146643 3378 14.0~30.0 TraDeS[56] CVPR 2021 69.1 63.9 36.4 21.5 20892 150060 3555 17.5 PermaTrack[46] ICCV 2021 69.5 68.2 46.3 17.7 − − − 10.0 SOTMOT[50] CVPR 2021 71.0 71.9 42.7 15.3 39537 118983 5184 16.0 FairMOTv2[43] IJCV 2021 73.7 72.3 43.2 17.3 27507 117477 3303 25.9 TransTrack[48] Arxiv 2021 74.5 63.9 46.8 11.3 28323 112137 3663 10.0 CSTrack[20] Arxiv 2020 74.9 72.6 41.5 17.5 23847 114303 3567 15.8 FUFET[54] Arxiv2020 76.2 68.0 51.1 13.6 32796 98475 3237 − OMC[57] AAAI2022 76.3 73.8 44.7 13.6 28894 101022 3858 12.8 CorrTrack[53] CVPR 2021 76.5 73.6 47.6 12.7 29808 99510 3369 14.8 根据不同的探究方向,本小节的对比分析可分为如下几个方面:
1)多模型与一体化进行比较。本文在MOT16的基准上比较多模型堆叠方法和已有的一体化方法,其中用于比较的多模型方法包括经典的SORT[4](使用POI检测结果的版本)、DeepSORT[6]、POI[7]和RAN[8]。从表2的数据可以分析得到,较早提出的一体化方法(即TubeTK[22]、JDE[19]和CTracker[21])虽然可以取得与多模型堆叠相近的MOTA分数,但是在匹配指标IDF1和ID Sw.上依然有较大差距。随着进一步深入研究,从2020年开始,基于检测的一体化方法无论是跟踪精度还是匹配性能都获得了巨大提高,取得了绝对的“统治”地位。如现在性能最高的一体化方法CorrTrack[53]在多项多目标跟踪指标上已经远远超过了先前最先进的多模型跟踪方法POI[7]。而在推理速度上,大多数一体化方法基本上都能保证10~30 FPS的运行速度,极大地缓解了多模型堆叠方法处理速度慢,不适应实际应用场景的问题。
表 4 MOT20上基于私有检测的方法性能比较
方法 发布情况 MOTA↑ IDF1↑ MT↑ ML↓ FP↓ FN↓ IDS↓ Hz↑ FairMOTv2[43] IJCV 2021 61.8 67.3 68.8 7.6 103440 88901 5243 13.2 TransTrack[48] Arxiv 2021 64.5 59.2 49.1 13.6 28566 151377 3565 − CorrTrack[54] CVPR 2021 65.2 69.1 66.4 8.9 79429 95855 5183 8.5 CSTrack[20] Arxiv 2020 66.6 68.6 50.4 15.5 25404 144358 3196 4.5 SOTMOT[50] CVPR 2021 68.6 71.4 64.9 9.7 57064 101154 4209 8.5 OMC[57] AAAI2022 70.7 67.8 56.6 13.3 22689 125039 4041 6.7 2)不同一体化方法的性能分析。在MOT16和MOT17的基准上,评估了基于检测的不同一体化方法的性能。所比较的方法可分为4类:第一类是联合检测和外观建模的方法,包括JDE[19]、QDTrack[44]、FairMOTv2[43]和CSTrack[20];第二类是联合检测和运动建模的方法,包括CenterTrack[24]、PermaTrack[46]、SOTMOT[50]和TransTrack[48];第三类是联合检测、外观和运动建模的方法,包括TraDeS[56]、FUFET[54]、OMC[57]和CorrTrack[53];第四类为基于视频输入的端到端方法,包括TubeTK[22]和CTracker[21]。如表2和表3的结果所示,单独融合外观或运动信息均可构建出高性能的多目标跟踪器,无论在MOTA和IDF1上均可取得优异的性能。而对于同时进行外观和运动建模的第三类方法来说,其性能相比于单独考虑一种信息的方法获得进一步提高,取得当前最先进的水平。其性能优异的原因可总结为以下两点,一是有效融合了外观和运动信息以提高模型对物体的感知定位能力,极大地减少了漏检(FN)且增强了轨迹的连贯性(均取得了极高的MT指标);二是在匹配能力上的提高,由于同时考虑了外观和运动信息进行匹配, 这类方法相较于其基准模型在IDF1指标上取得提升(如CSTrack[20]对比于OMC[57],FairMOTv2[43]对比于CorrTrack[53])。第四类方法虽然取得了与多模型堆叠方法相近的MOTA分数,但是其IDF1指标与其他方法相比,依然存在较大差距,还有很大发展空间。
3)模型对场景适应能力分析。为了分析一体化方法在不同场景的跟踪鲁棒性,本文在以目标密集著称的基准MOT20上进行进一步测试。如表4所示,联合检测、外观和运动建模的一体化方法(OMC[57])依然取得了最先进的跟踪性能,即MOTA分数最高。而对于目标定位能力来说,基于无锚框检测器CenterNet[35]的方法,即FairMOTv2[43]、CorrTrack[53]和SOTMOT[50]可以在密集场景中生成更多的检测框,漏检(FN)更少,使得其MT的指标远高于其他方法。虽然无锚框检测相对于其他检测思路在密集场景可以获得更高的召回,但同样也带来了误检(FP)的急剧增加。大量误检会增加目标漂移发生的可能性,即ID Sw.增加,同时也会损害多目标跟踪器的性能。此外,受到检测后处理及数据关联策略的影响,在MOT20上一体化方法的处理速度基本比MOT17要下降50%。因此,一种针对密集场景的实时一体化方法有待被研究。
A Survey on One-Shot Multi-Object Tracking Algorithm
-
摘要: 视觉多目标跟踪算法(MOT)一直是计算机视觉与视频图像智能分析领域的一个研究热点。近年来,随着深度学习的发展及实际应用需要,越来越多性能优异的一体化多目标跟踪算法被提出,受到研究者的青睐。对近年来广受关注的一体化多目标跟踪算法进行了系统性的综述。从不同的一体化构建思路出发,梳理包括构建出发点、框架设计、方法优缺点、研究趋势等方面的内容,并在权威的MOT Challenge系列数据集上进行性能比较,定量地分析不同的一体化方法的优势和局限性。最后,结合研究现状,提出了一体化多目标跟踪需要重点关注的若干问题及未来展望。Abstract: Visual multiple object tracking (MOT) has become a hot issue in computer vision and intelligent analysis of video images. In recent years, with the development of deep learning and practical application needs, more and more one-shot MOT algorithms with outstanding performance have been proposed, attracting much attention from researchers. This paper systematically reviews the popular one-shot MOT algorithms. From different construction ideas, the paper summarizes the motivation, framework design, strengths and weaknesses of methods, research trends, etc. Afterwards, we compare the performances of the one-shot MOT algorithms on the public testing set MOT Challenge, and quantitatively analyze the advantages and limitations of different one-shot methods. Finally, some future thoughts, foresight, and key issues that need to be focused on are introduced based on the research status.
-
表 1 MOT Challenge系列数据集
表 2 MOT16上基于私有检测的方法性能比较
方法 发布情况 MOTA↑ IDF1↑ MT↑ ML↓ FP↓ FN↓ IDS↓ Hz↑ SORT_POI[4] ICIP 2016 59.8 53.8 25.4 22.7 8698 63245 1423 <8.6 DeepSORT[6] ICIP 2017 61.4 62.2 32.8 18.2 12852 56668 781 <6.7 RAN[8] WACV 2018 63.0 63.8 39.9 22.1 13663 53248 482 <1.5 TubeTK[22] CVPR 2020 64.0 59.4 33.5 19.4 10962 53626 1117 1.0 JDE[19] ECCV 2020 64.4 55.8 35.4 20.0 10642 52523 1544 22.2 POI[7] ECCV 2016 66.1 65.1 34.0 21.3 5061 55915 805 <5.2 CTracker[21] ECCV 2020 67.6 57.2 32.9 23.1 8934 48305 1897 6.8 QDTrack[44] CVPR 2021 69.8 67.1 41.7 19.8 9861 44050 1097 14.0~30.0 TraDeS[56] CVPR 2021 70.1 64.7 37.3 20.0 8091 45210 1144 17.5 SOTMOT[50] CVPR 2021 72.1 72.3 44.0 13.2 14344 34784 1681 16.0 FairMOTv2[43] IJCV 2021 74.9 72.8 44.7 15.9 − − − 25.9 CSTrack[20] Arxiv 2020 75.6 73.3 42.8 16.5 9646 33777 1121 15.8 OMC[57] AAAI2022 76.4 74.1 46.1 13.3 10821 31044 1296 12.8 FUFET[54] Arxiv2020 76.5 68.6 52.8 12.3 12878 28982 1026 − CorrTrack[53] CVPR 2021 76.6 74.3 47.8 13.3 10860 30756 979 14.8 表 3 MOT17上基于私有检测的方法性能比较
方法 发布情况 MOTA↑ IDF1↑ MT↑ ML↓ FP↓ FN↓ IDS↓ Hz↑ TubeTK[22] CVPR 2020 63.0 58.6 31.2 19.9 27060 177483 4137 1.0 CTracker[21] ECCV 2020 66.6 57.4 32.2 24.2 22284 160491 5529 6.8 CenterTrack[24] ECCV 2020 67.8 64.7 34.6 24.6 18498 160332 3039 22.0 QDTrack[44] CVPR 2021 68.7 66.3 40.6 21.8 26589 146643 3378 14.0~30.0 TraDeS[56] CVPR 2021 69.1 63.9 36.4 21.5 20892 150060 3555 17.5 PermaTrack[46] ICCV 2021 69.5 68.2 46.3 17.7 − − − 10.0 SOTMOT[50] CVPR 2021 71.0 71.9 42.7 15.3 39537 118983 5184 16.0 FairMOTv2[43] IJCV 2021 73.7 72.3 43.2 17.3 27507 117477 3303 25.9 TransTrack[48] Arxiv 2021 74.5 63.9 46.8 11.3 28323 112137 3663 10.0 CSTrack[20] Arxiv 2020 74.9 72.6 41.5 17.5 23847 114303 3567 15.8 FUFET[54] Arxiv2020 76.2 68.0 51.1 13.6 32796 98475 3237 − OMC[57] AAAI2022 76.3 73.8 44.7 13.6 28894 101022 3858 12.8 CorrTrack[53] CVPR 2021 76.5 73.6 47.6 12.7 29808 99510 3369 14.8 表 4 MOT20上基于私有检测的方法性能比较
方法 发布情况 MOTA↑ IDF1↑ MT↑ ML↓ FP↓ FN↓ IDS↓ Hz↑ FairMOTv2[43] IJCV 2021 61.8 67.3 68.8 7.6 103440 88901 5243 13.2 TransTrack[48] Arxiv 2021 64.5 59.2 49.1 13.6 28566 151377 3565 − CorrTrack[54] CVPR 2021 65.2 69.1 66.4 8.9 79429 95855 5183 8.5 CSTrack[20] Arxiv 2020 66.6 68.6 50.4 15.5 25404 144358 3196 4.5 SOTMOT[50] CVPR 2021 68.6 71.4 64.9 9.7 57064 101154 4209 8.5 OMC[57] AAAI2022 70.7 67.8 56.6 13.3 22689 125039 4041 6.7 -
[1] XIANG Y, ALAHI A, SAVARESE S. Learning to track: Online multi-object tracking by decision making[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE Computer Society, 2015: 4705-4713. [2] YAN X, WU X Q, KAKADIARIS I A, et al. To track or to detect? An ensemble framework for optimal selection[C]//European Conference on Computer Vision. Florence: Springer, 2012: 594-607. [3] ZHANG L, VAN D M L. Structure preserving object tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society, 2013: 1838-1845. [4] BEWLEY A, GE Z Y, OTT L, et al. Simple online and realtime tracking[C]//2016 IEEE International Conference on Image Processing (ICIP). Phoenix: IEEE, 2016: 3464-3468. [5] BOCHINSKI E, ISELEIN V, SIKORA T. High-speed tracking-by-detection without using image information[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Lecce: IEEE, 2017: 1-6. [6] WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric[C]//2017 IEEE International Conference on Image Processing (ICIP). Beijing: IEEE, 2017: 3645-3649. [7] YU F W, LI W B, LI Q Q, et al. Poi: Multiple object tracking with high performance detection and appearance feature[C]//European Conference on Computer Vision. Amsterdam: Springer, 2016: 36-42. [8] FANG K, XIANG Y, LI X C, et al. Recurrent autoregressive networks for online multiobject tracking[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe: IEEE Computer Society, 2018: 466-475. [9] ZHOU Z W, XING J L, ZHANG M D, et al. Online multi target tracking with tensor based high order graph matching[C]//2018 24th International Conference on Pattern Recognition (ICPR). Beijing: IEEE, 2018: 1809-1814. [10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149. [11] REDMON J, FARHADI A. Yolov3: An incremental improvement[EB/OL]. [2021-12-24]. https://arxiv.org/pdf/ 1804.02767.pdf. [12] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 32(9): 1627-1645. [13] YANG F, CHOI W, LIN Y Q. Exploit all the layers: Fast and accurate cnn object detector with scale dependent pooling and cascaded rejection classifiers[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Computer Society, 2016: 2129-2137. [14] ZAGORUYKO S, KOMODAKIS N. Wide residual networks[EB/OL]. [2021-12-24]. https://arxiv.org/pdf/1605.07146.pdf. [15] LUO H, GU Y Z, LIAO X Y, et al. Bag of tricks and a strong baseline for deep person re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach: IEEE Computer Society, 2019: 1487-1495. [16] WELCH G, BISHOP G. An introduction to the Kalman filter[EB/OL]. [2021-12-25]. https://www.cs.unc.edu/~wel ch/media/pdf/kalman_intro.pdf. [17] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional siamese networks for object tracking[C]//European Conference on Computer Vision. Amsterdam: Springer, 2016: 850-865. [18] DANELLJAN M, BHAT G, SHAHBAZ K F, et al. Eco: Efficient convolution operators for tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE Computer Society, 2017: 6638-6646. [19] WANG Z D, ZHENG L, LIU Y X, et al. Towards real-time multi-object tracking[C]//European Conference on Computer Vision. Glasgow: Springer, 2020: 107-122. [20] LIANG C, ZHANG Z P, LU Y, et al. Rethinking the competition between detection and reid in multi-object tracking[EB/OL]. [2021-12-25]. https://arxiv.org/pdf/2010.12138.pdf. [21] PENG J L, WANG C G, WAN F B, et al. Chained-tracker: Chaining paired attentive regression results for end-to-end joint multiple-object detection and tracking[C]//European Conference on Computer Vision. Glasgow: Springer, 2020: 145-161. [22] PANG B, LI Y Z, ZHANG Y F, et al. Tubetk: Adopting tubes to track multi-object in a one-step training model[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2020: 6307-6317. [23] BERGMANN P, MEINHARDT T, LEAL-TAIXE L. Tracking without bells and whistles[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE Computer Society, 2019: 941-951. [24] ZHOU X Y, KOLTUN V, KRÄHENBÜHL P. Tracking objects as points[C]//European Conference on Computer Vision. Glasgow: Springer, 2020: 474-490. [25] LUO W H, XING J L, MILAN A, et al. Multiple object tracking: A literature review[J]. Artificial Intelligence, 2021, 293: 103448. doi: 10.1016/j.artint.2020.103448 [26] CIAPARRONE G, SÁNCHEZ F L, TABIK S, et al. Deep learning in video multi-object tracking: A survey[J]. Neurocomputing, 2020, 381: 61-88. doi: 10.1016/j.neucom.2019.11.023 [27] 徐涛, 马克, 刘才华. 基于深度学习的行人多目标跟踪方法[J]. 吉林大学学报(工学版), 2021, 51(1): 27-38. XU T, MA K, LIU C H. Multi object pedestrian tracking based on deep learning[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51(1): 27-38. [28] 张瑶, 卢焕章, 张路平, 等. 基于深度学习的视觉多目标跟踪算法综述[J]. 计算机工程与应用, 2021, 57(13): 55-66. doi: 10.3778/j.issn.1002-8331.2102-0260 ZHANG Y, LU H Z, ZHANG L P, et al. Overview of visual multi-object tracking algorithms with deep learning[J]. Computer Engineering and Applications, 2021, 57(13): 55-66. doi: 10.3778/j.issn.1002-8331.2102-0260 [29] 李志华, 于杨. 基于检测的多目标跟踪算法综述[J]. 物联网技术, 2021, 11(4): 20-24. doi: 10.16667/j.issn.2095-1302.2021.04.006 LI Z H, YU Y. Overview of multi-object tracking algorithms with detection[J]. Internet of Things Technologies, 2021, 11(4): 20-24. doi: 10.16667/j.issn.2095-1302.2021.04.006 [30] 龚轩, 乐孜纯, 王慧, 等. 多目标跟踪中的数据关联技术综述[J]. 计算机科学, 2020, 47(10): 136-144. doi: 10.11896/jsjkx.200200041 GONG X, LE Z C, WANG H, et al. Survey of data association technology in multi-target tracking[J]. Computer Science, 2020, 47(10): 136-144. doi: 10.11896/jsjkx.200200041 [31] 蔡秀梅, 王妍, 卞静伟, 等. 多目标跟踪数据关联算法综述[J]. 西安邮电大学学报, 2021, 26(2): 77-86. CAI X M, WANG Y, BIAN J W, et al. Overview of multi-target tracking data association algorithms[J]. Journal of Xi’an University of Posts and Telecommunications, 2021, 26(2): 77-86. [32] LEAL-TAIXÉ L, MILAN A, REID I, et al. Motchallenge 2015: Towards a benchmark for multi-target tracking [EB/OL]. [2021-12-26]. https://arxiv.org/pdf/1504.01942.pdf. [33] MILAN A, LEAL-TAIXÉ L, REID I, et al. MOT16: A benchmark for multi-object tracking[EB/OL]. [2021-12-26]. https://arxiv.org/pdf/1603.00831.pdf. [34] DENDORFER P, REZATOFIGHI H, MILAN A, et al. Mot20: A benchmark for multi object tracking in crowded scenes[EB/OL]. [2021-12-26]. https://arxiv.org/pdf/2003.09 003.pdf. [35] ZHOU X Y, WANG D Q, KRÄHENBÜHL P. Objects as points[EB/OL]. [2021-12-27]. https://arxiv.org/pdf/1904.07850.pdf. [36] GE Z, LIU S T, WANG F, et al. Yolox: Exceeding yolo series in 2021[EB/OL]. [2021-12-27]. https://arxiv.org/pdf/2107.08430v2.pdf. [37] MILAN A, REZATOFIGHI S H, DICK A, et al. Online multi-target tracking using recurrent neural networks[C]//Thirty-First AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 4225-4232. [38] CHU Q, OUYANG W L, LIU B, et al. Dasot: A unified framework integrating data association and single object tracking for online multi-object tracking[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 10672-10679. [39] KUHN H W. The Hungarian method for the assignment problem[J]. Naval Research Logistics Quarterly, 1955, 2(1-2): 83-97. doi: 10.1002/nav.3800020109 [40] SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2008, 20(1): 61-80. [41] XIAO T, LI S, WANG B C, et al. Joint detection and identification feature learning for person search[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE Computer Society, 2017: 3376-3385. [42] LU Z C, RATHOD V, VOTEL R, et al. Retinatrack: Online single stage joint detection and tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2020: 14656-14666. [43] ZHANG Y F, WANG C Y, WANG X G, et al. Fairmot: On the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 3069-3087. doi: 10.1007/s11263-021-01513-4 [44] PANG J M, QIU L L, LI X, et al. Quasi-dense similarity learning for multiple object tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 164-173. [45] BALLAS N, YAO L, PAL C, et al. Delving deeper into convolutional networks for learning video representations [EB/OL]. [2021-12-27]. https://arxiv.org/pdf/1511.06432.pdf. [46] TOKMAKOV P, LI J, BURGARD W, et al. Learning to track with object permanence[EB/OL]. [2021-12-26]. https://arxiv.org/pdf/2103.14258v1.pdf. [47] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach: NIPS, 2017: 5999-6009. [48] SUN P Z, CAO J K, JIANG Y, et al. Transtrack: Multiple-object tracking with transformer[EB/OL]. [2021-12-26]. https://arxiv.org/pdf/2012.15460v1.pdf. [49] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]//European Conference on Computer Vision. Glasgow: Springer, 2020: 213-229. [50] ZHENG L Y, TANG M, CHEN Y Y, et al. Improving multiple object tracking with single object tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 2453-2462. [51] ZHENG L Y, TANG M, CHEN Y Y, et al. Learning feature embeddings for discriminant model based tracking[C]//European Conference on Computer Vision. Glasgow: Springer, 2020: 759-775. [52] SHUAI B, BERNESHAWI A, LI X Y, et al. SiamMOT: Siamese multi-object tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 12372-12382. [53] WANG Q, ZHENG Y, PAN P, et al. Multiple object tracking with correlation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 3876-3886. [54] SHAN C B, WEI C B, DENG B, et al. Tracklets predicting based adaptive graph tracking[EB/OL]. [2021-12-26]. https://arxiv.org/pdf/2010.09015.pdf. [55] BOUGUET J Y. Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm [EB/OL]. [2021-12-26]. http://robots.stanford.edu/cs223b04/algo_tracking.pdf. [56] WU J L, CAO J L, SONG L C, et al. Track to detect and segment: An online multi-object tracker[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 12352-12361. [57] LIANG C, ZHANG Z P, ZHOU X, et al. One more check: Making "fake background" be tracked again[EB/OL]. [2021-12-26]. https://arxiv.org/pdf/2104.09 441v1.pdf. [58] BERNARDIN K, STIEFELHAGEN R. Evaluating multiple object tracking performance: The clear mot metrics[J]. EURASIP Journal on Image and Video Processing, 2008, 10: 246309. [59] RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]//European Conference on Computer Vision. Amsterdam: Springer, 2016: 17-35.