-
由于超像素具有计算高效、富含语义、保持边界等优点,近年来被广泛应用于目标跟踪领域[1-3]。当应用于基于水平集的主动轮廓跟踪,该类方法需要一个有效的速度函数来引导轮廓进化,采用超像素作为图像描述和表达的基本单元来建模取得了比像素表达更显著的跟踪效果[3]。
越来越多的基于水平集的方法尽可能多地从数据自身挖掘更多的信息用于建模速度函数,因此,融合多种特征对提高方法的鲁棒性十分重要[4-5]。如果一种特征被干扰失效,剩下的仍然能够继续提供有效的特征保证跟踪可以稳定持续下去。文献[4]在像素级的水平集跟踪框架中融合了颜色、形状和运动信息。运动信息主要体现在检测突然运动,并采用粒子群优化算法提取全局运动信息初始化当前帧轮廓。类似地,除了表观特征(如颜色、纹理等),运动特征作为一种有效的补充特征在水平集跟踪方法中提供了有关目标多一层的信息。文献[5]直接考虑特征层面的融合,将颜色、纹理和运动特征串成一个特征向量,通过建立联合概率密度函数在贝叶斯框架下对问题进行建模。这类方法通常建立的是产生式模型,只关注目标信息,缺乏对背景信息的考虑,通常不具有判别性,而且不同特征的权重一般通过标定好的数据集获得。为了构建更加具有判别性的速度函数,本文引入以超像素为基本单元的图像描述方式,考虑在决策层对表观特征(包含颜色和纹理)和运动特征进行融合,同时引入背景信息建立判别式模型。即在表观和运动的联合决策空间,同时具有较高的属于目标的置信值并且较低的属于背景的置信值,获得最终的更高的决策值。该决策融合思想反映了目标和背景的竞争机制。
在上述研究动机启发下,本文也同时考虑颜色、纹理和运动3种特征,提出一个融合多特征的基于超像素的主动轮廓跟踪方法。该工作的主要创新点存在于以下3个方面:
1) 提出了一个超像素驱动的判别式表观模型构建方法,该方法基于非参数核密度估计,不需要任何模型先验假设,直接利用已有样本来估计每个超像素与目标或背景的相似程度;
2) 利用运动目标光流场的统计特性,提出一个自适应选择阈值机制,通过该阈值区分并加强目标区域和背景区域的相对运动,得到一个更适合轮廓进化的光流速度场;
3) 在半朴素贝叶斯框架下,在决策层融合表观和运动信息,获得具有更显著判别性的速度场用于引导水平集轮廓进化。
-
一般来说,水平集跟踪可以看作是一个迭代轮廓进化问题,其中轮廓$C$通常建模成与能量函数相关,在数学上通过采用变分的方法最小化能量函数进行求解,即基于下述的梯度下降法指导轮廓进化:
$$ \frac{{\partial C}}{{\partial t}} = - \frac{{\partial E(C)}}{{\partial C}} $$ (1) 式中,$E(C)$是关于轮廓$C$的能量函数,轮廓采用隐式的水平集描述方式,即一个n维的轮廓以n+1维的水平集函数$\mathit{\Phi} $的零值代表[6]:$C = \{ x, y \in \mathit{\Omega} |$ $\mathit{\Phi} (x, y) = 0\} $。水平集函数通常用一个带符号的距离函数$\mathit{\Phi} $来表达:
$$\mathit{\Phi} (x, y) = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {}&0&{} \end{array}}&{(x, y) \in C} \end{array}} \\ {\begin{array}{*{20}{c}} {d(x, y, C)}&{(x, y) \in {R_{{\rm{out}}}}} \end{array}} \\ {\begin{array}{*{20}{c}} { - d(x, y, C)}&{(x, y) \in {R_{{\rm{in}}}}} \end{array}} \end{array}} \right.$$ (2) 式中,${R_{{\rm{in}}}}$和${R_{{\rm{out}}}}$分别代表轮廓$C$的内部和外部区域;$d(x, y, C)$是像素点$(x, y)$距离轮廓$C$最短的欧式距离。根据欧拉—拉格朗日理论,水平集进化方程为:
$$\frac{{\partial \mathit{\Phi} }}{{\partial t}} = - \frac{{\partial E(\mathit{\Phi} )}}{{\partial \mathit{\Phi} }} = - F|\nabla \mathit{\Phi} |$$ (3) 式中,$F$代表速度函数;$\boldsymbol{n} = {{\nabla \mathit{\Phi} } \mathord{\left/ {\vphantom {{\nabla \mathit{\Phi} } {|\nabla \mathit{\Phi} |}}} \right. } {|\nabla \mathit{\Phi} |}}$为单位法线向量。速度函数$F$通常由两部分组成:内部能量速度项${F_{{\rm{curv}}}}$(与轮廓曲率相关,有平滑轮廓和防止尖点振荡的作用)和外部能量速度项${F_{{\rm{data}}}}$。${F_{{\rm{data}}}}$依赖于图像数据,通常建模成反映目标区域和背景区域竞争关系的能量项,通过不同的符号引导轮廓朝不同方向进化,因此它在引导轮廓进化过程中起着十分重要的作用。本文重点关注如何融合表观和运动信息,产生更具有判别性的速度项${F_{{\rm{data}}}}$。
-
本文采用以超像素为图像描述基本单元建模目标表观模型。为了更有效提取超像素的判别信息,提出了一个基于非参数核密度估计的超像素分类决策,在不需要仔细选择模型的条件下同时将类间可分性考虑进来。基于计算效率,类似于文献[1],只考虑目标周围的感兴趣区域,并对该区域进行SLIC (simple linear iterative cluster)超像素分割[7]。
已知来自于测试图像中的一个分割好的超像素${\rm{sp}}$,定义一个基于目标表观似然函数比$l({\rm{sp}})$的对称的置信分数为:
$$S_c^{{\rm{sp}}} = \frac{{1 - l({\rm{sp}})}}{{1 + l({\rm{sp}})}}$$ (4) 式中,似然函数比$l({\rm{sp}}) = \frac{{P({\rm{sp}}|{\rm{bac}})}}{{P({\rm{sp}}|{\rm{obj}})}}$代表超像素${\rm{sp}}$属于背景$({\rm{bac}})$的似然函数与属于目标$({\rm{obj}})$的似然函数的比值。$S_c^{{\rm{sp}}}$的取值范围在$( - 1, 1)$之间,具有如下性质:
$$\left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} { - 1 < S_c^{{\rm{sp}}} < 0}&{P({\rm{sp}}|{\rm{bac}}) > P({\rm{sp}}|{\rm{obj}})} \end{array}} \\ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {}&0 \end{array}}&{\begin{array}{*{20}{c}} {}&{} \end{array}}&{P({\rm{sp}}|{\rm{bac}}) = P({\rm{sp}}|{\rm{obj}})} \end{array}} \\ {\begin{array}{*{20}{c}} {0 < S_c^{{\rm{sp}}} < 1}&{P({\rm{sp}}|{\rm{bac}}) < P({\rm{sp}}|{\rm{obj}})} \end{array}} \end{array}} \right.$$ (5) 本文基于训练样本集${T_{{\rm{obj}}}}$和${T_{{\rm{bac}}}}$应用核密度估计来评估似然函数比$l({\rm{sp}})$。采用高斯核函数$K( \cdot )$并考虑$k$个最近邻估计[8],近似的似然函数比表达式为:
$$l({\rm{sp}}) = \frac{{(1/|{T_{{\rm{bac}}}}|)\sum\limits_{{\rm{s}}{{\rm{p}}_j} \in {T_{{\rm{bac}}}}} {K({\rm{sp}} - {\rm{s}}{{\rm{p}}_j})} }}{{(1/|{T_{{\rm{obj}}}}|)\sum\limits_{{\rm{s}}{{\rm{p}}_j} \in {T_{{\rm{obj}}}}} {K({\rm{sp}} - {\rm{s}}{{\rm{p}}_j})} }} \approx $$ $$\frac{{(1/|T_{{\rm{bac}}}^ * |)\sum\limits_{{\rm{s}}{{\rm{p}}_j} \in T_{{\rm{bac}}}^ * } {K({\rm{sp}} - {\rm{s}}{{\rm{p}}_j})} }}{{(1/|T_{{\rm{obj}}}^ * |)\sum\limits_{{\rm{s}}{{\rm{p}}_j} \in T_{{\rm{obj}}}^ * } {K({\rm{sp}} - {\rm{s}}{{\rm{p}}_j})} }}$$ (6) 式中,$K(x) = \exp \left( { - \frac{{{D^2}(x)}}{{2\sigma _1^2}}} \right)$是带宽参数为${\sigma _1}$的高斯核函数,$D( \cdot )$是欧式距离测度;$| \cdot |$代表样本集的容量大小;$T_{{\rm{bac}}}^ * $和$T_{{\rm{obj}}}^ * $包含了超像素${\rm{sp}}$的前$k$个最近邻的集合,分别是集合$T_{{\rm{bac}}}^{}$和$T_{{\rm{obj}}}^{}$的子集。
在本文的方法中,直接采用置信分数$S_c^{{\rm{sp}}}$作为基于表观特征的水平集速度函数,即:$F_a^{{\rm{sp}}} = S_c^{{\rm{sp}}}$,它的符号能有效表征目标和背景之间的竞争关系。由于水平集是在像素级别进化的,因此需要把以超像素为基本单元的速度函数扩展到像素级别。感兴趣区域内属于同一个超像素的像素具有和该超像素相同的速度函数$F_a^{{\rm{sp}}}$,感兴趣区域之外的像素速度函数都赋值为—1。最终,得到整幅图像的基于表观特征的速度场,用符号${F_a}$表示。
-
当表观特征单独作用容易被噪音干扰时,用光流刻画的运动信息能够作为其有效的补充[9-10]。因此在表观特征的基础上继续引入运动信息,设计了一个基于光流运动场的水平集速度函数以此区分和增强目标和背景的相对运动。
-
首先,对感兴趣区域进行稠密光流计算[9],产生的光流速度场中每个像素的速度分量用向量$(u, v)$表示。采用孟塞尔颜色系统将光流场可视化,不同的颜色代表不同的运动方向,颜色的深浅则代表运动的幅度大小,即颜色越深,代表运动越快,反之越慢,如图 1a、图 1b所示。
然后,对光流场彩色图像采用SLIC方法进行超像素分割[7],具有相同运动属性的像素被聚集成一个超像素单元。为了获取更精准的目标运动场并去除来自背景的噪音干扰,采取一个分层的局部到全局的策略获取光流方向直方图。通过光流的统计信息获取可能的目标区域模板。
1) 局部光流方向直方图统计。类似于HOG (histogram of gradient)对梯度进行方向直方图统计[11],统计每个超像素内所有像素的光流方向直方图,将方向区间(—180°~180°)划分成12个bin子区间,每个子区间依次增加30°,将落入每个方向bin子区间内的像素光流幅值进行累加作为直方图的纵坐标,归一化后得到每个超像素的局部光流方向直方图。选取幅值最大的bin所在的方向和幅值作为该超像素的速度主方向。图 1c为超像素的光流主方向结果,每个超像素用质心点的一个主方向代表,箭头所指的方向即为光流主方向,箭头的长短代表幅值的大小,即箭头越长,幅值越大。具有较小光流幅值的超像素则忽略不计。
2) 全局光流方向直方图统计。由于运动目标具有较明显且方向一致性的光流场。因此根据这一特性,在得到了每个超像素主光流的基础上,对所有超像素统计其全局光流方向直方图,仍然按照12个bin子方向划分,统计落入每个子区间的超像素的光流幅值累加和。将所有bin的幅值累加和从大到小排序,取前70%所对应的超像素为可能的目标区域,其他超像素对应的区域为可能的背景区域,形成一个二值目标模板Mask(用$M$标记,目标用1代表,背景则用0)。图 1d为包含了前70%最大运动幅值的目标模板,从图中可以看出,该方法计算得到的模板确实以较高的精度实现了目标和背景区域的分割。
-
基于得到的可能目标区域模板$M$,可以得到一个粗糙的分割结果。为了提高目标和背景可分性,提出了一个基于自适应选择阈值的灰度级调整机制。首先将光流彩色图转换成灰度图:${I_{{\rm{gray}}}} = $ $0.298\;9R + 0.587\;0G + 0.114\;0B$,其中R、G和B分别代表彩色空间3个通道的值。将$M$与$1 - M$分别和光流灰度图${I_{{\rm{gray}}}}$做点乘运算,可以得到目标区域和背景区域的光流灰度值向量。假定服从正态分布,对目标区域和背景区域光流灰度采用最大似然估计分别估计出两个正态分布($P({I_{{\rm{gray}}}}|{\rm{obj}})$和$P({I_{{\rm{gray}}}}|{\rm{bac}})$)的参数(即均值和方差)。在等先验概率条件下以及服从贝叶斯公式[12],最大化后验概率可以由最大化似然函数近似:
$$c = \mathop {\arg \max }\limits_{c \in \{ {\rm{obj}}, {\rm{bac}}\} } P(c|{I_{{\rm{gray}}}}) \propto \mathop {\arg \max }\limits_{c \in \{ {\rm{obj}}, {\rm{bac}}\} } P({I_{{\rm{gray}}}}|c)$$ (7) 式中,$c$为类别标记,来自${\rm{obj}}$或者${\rm{bac}}$。因此,根据最小错误率贝叶斯准则[15],决策的分界线是两个似然函数的交点,即目标区域和背景区域的分割阈值$T$。样本$x$落在分界线$T$左右两侧分别归为目标${\rm{obj}}$类或背景${\rm{bac}}$类。距离阈值越远的样本说明它们属于某个类别的置信度越高,反之如果位于阈值近邻的样本点,则本身具有极大的不确定性。根据这一思想,提出了一种动态调整灰度级、提高目标类和背景类差异性的方法。调整的方向(增加或减小)由样本与阈值的差值的符号决定,调整的幅度则由样本离阈值的远近决定。因此,设计了如下的动态调整系数${C_{{\rm{adjust}}}}$:
$${C_{{\rm{adjust}}}} = \exp \left( {{\rm{sign}}({I_{{\rm{gray}}}} - T)\frac{{{{({I_{{\rm{gray}}}} - T)}^2}}}{{r\sigma _2^2}}} \right)$$ (8) 式中,${\rm{sign}}( \cdot )$为符号函数;$r$为控制指数函数变化幅度的参数。对于分别位于阈值两边的样本,为了使调整的幅度平滑变化,并且更加符合原始分布,${\sigma _2}$根据${I_{{\rm{gray}}}}$位于$T$的两端分别取其对应的原始分布的方差[15],即:
$${\sigma _2} = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {{\sigma _{{\rm{obj}}}}} \\ {{\sigma _{{\rm{bac}}}}} \end{array}}&{\begin{array}{*{20}{c}} {{I_{{\rm{gray}}}} \leqslant T} \\ {{I_{{\rm{gray}}}} > T} \end{array}} \end{array}} \right.$$ (9) 式中,${\sigma _{{\rm{obj}}}}$和${\sigma _{{\rm{bac}}}}$分别对应目标和背景正态似然函数的方差参数。得到了灰度级调整系数以后,对原始光流灰度值乘以调整系数${C_{{\rm{adjust}}}}$,得到改变后的光流灰度值${I_{{\rm{adjust}}}} = {I_{{\rm{gray}}}}{C_{{\rm{adjust}}}}$。图 1e、图 1f为根据分割阈值动态调整光流灰度级与未改变之前的对比示意图,可以看出,通过调整灰度级,目标和背景的区分度更加明显,分界处更加清晰准确。这样,可以得到的改变后的光流灰度图标记为${I_{{\rm{adjust}}}}$。
-
为了使得到的速度场更适合水平集进化,需要对${I_{{\rm{adjust}}}}$做归一化和尺度上的调整操作。首先将调整后的灰度级范围约束到区间$[\min ({I_{{\rm{adjust}}}}), max({I_{{\rm{adjust}}}})]$,有:
$${\tilde I_{{\rm{adjust}}}} = \left\{ {\begin{array}{*{20}{c}} {\max ({I_{{\rm{adjust}}}}, \min ({I_{{\rm{adjust}}}}))}&{{I_{{\rm{gray}}}} \leqslant T} \\ {\min ({I_{{\rm{adjust}}}}, \max ({I_{{\rm{adjust}}}}))}&{{I_{{\rm{gray}}}} > T} \end{array}} \right.$$ (10) 然后再将其归一化到[—1, 1]区间内,并令其等于基于运动信息的水平集进化速度函数${F_m}$,即:
$${F_m} = \frac{{T - {{\tilde I}_{{\rm{adjust}}}}}}{{T + {{\tilde I}_{{\rm{adjust}}}}}}$$ (11) -
在分别得到基于表观的速度函数${F_a}$和基于运动信息的速度函数${F_m}$以后,本文提出在决策层进行两种特征的融合。${F_a}$和${F_m}$可以看成是分别在表观和运动通道的置信决策值。融合策略同时兼顾目标类和背景类,即在表观和运动联合置信空间,具有较高的属于目标的置信度同时较低的属于背景的置信值,该样本则具有更高的置信度,是来自于目标的。
定义带符号的最终的置信值${F_{{\rm{final}}}}$为:
$$F_{{\rm{final}}}^i = \log \frac{{P({\rm{obj}}|F_a^i, F_m^i)}}{{P({\rm{bac}}|F_a^i, F_m^i)}}$$ (12) 式中,上标$i$代表第$i$个样本;后验概率$P(\operatorname{obj} |F_a^i, F_m^i)$反映了已知样本$i$在表观和运动通道的置信值,其最终属于目标类的概率;同理类推$P({\rm{bac}}|F_a^i, F_m^i)$。
图 2为基于随机蕨框架的决策层融合示意图。
根据贝叶斯准则以及等先验概率假设,后验概率正比于似然函数。因此问题最终归结为求取联合似然函数$P(F_a^i, F_m^i|{\rm{obj}})$和$P(F_a^i, F_m^i|{\rm{bac}})$。由于表观和运动两个特征空间可以看作是独立的,借鉴随机蕨方法中的思想[13]将每棵蕨独立看待,最终在一个半朴素贝叶斯框架下融合多棵蕨的似然概率值。训练样本按照结构($F_a^i, F_m^i, {\rm{labe}}{{\rm{l}}_i}$)输入到每棵蕨中。${F_a}$和${F_m}$的取值范围都在[—1, 1]之间,将该区间等间隔分成10个小区间。${F_a}$作为第一棵蕨,${F_m}$作为第二棵蕨,分别在每一棵蕨上用直方图统计样本属于目标${\rm{obj}}$类或背景${\rm{bac}}$类的似然概率。因此,基于半朴素贝叶斯框架,最终的置信值为:
$$ F_{{\rm{final}}}^i = \log \frac{{P(F_a^i, F_m^i|{\rm{obj}})}}{{P(F_a^i, F_m^i|{\rm{bac}})}} = \log \frac{{P(F_a^i|{\rm{obj}})P(F_m^i|{\rm{obj}})}}{{P(F_a^i|{\rm{bac}})P(F_m^i|{\rm{bac}})}} $$ (13) 最终,将${F_{{\rm{final}}}}$赋值给${F_{{\rm{data}}}}$,迭代更新水平集函数。初始轮廓在基于数据驱动的速度分量${F_{{\rm{data}}}}$和基于曲率的速度分量${F_{{\rm{curv}}}}$的联合作用下,逐渐收敛到目标的边缘处,完成对目标轮廓的跟踪,有:
$$\frac{{\partial \mathit{\Phi} }}{{\partial t}} + ({F_{{\rm{data}}}} + {F_{{\rm{curv}}}})\nabla \mathit{\Phi} | = 0$$ (14) 式中,${F_{{\rm{curv}}}} = \varepsilon \kappa $是正比于曲率$\kappa $的内在速度分量,起着平滑轮廓防止尖点振荡的作用[14]。
-
为了验证本文提出方法的有效性,在9个视频序列上进行了一系列的实验,其中包括与现有其他代表性方法的比较实验。这些序列包含了轮廓跟踪过程中常会遇到的难题:相似背景颜色的干扰、噪音干扰、部分遮挡、运动模糊等。对于每一个序列,第一帧用来初始化,手动勾画的初始轮廓用于标定超像素的标签信息。
实验中的参数配置如下:SLIC超像素分割算法中的空间邻近权重和超像素个数参数分别为15和500。对于每个超像素,提取125维的颜色直方图和30维的LBP直方图作为表观特征。核密度估计中的参数$k$和${\sigma _1}$分别取值为10和20。正负样本池的容量分别为1 000和2 000,式(8)中的参数$r$设为10。
实验结果如图 3所示,图中第1列对应的是超像素在光流彩色图上的分割结果,第2列和第3列分别对应经过灰度调整以及未进行灰度调整的轮廓跟踪结果,每个结果图的右上角是跟踪结果的放大示意图。实验中只考虑光流信息,并基于获得的光流灰度图直接进行轮廓进化,将经过灰度调整与未进行灰度调整的结果进行对比。从结果可以很明显看出,本文提出的经过灰度调整后的轮廓跟踪结果比没有调整的更加准确和鲁棒。作为常用表观特征的有效补充,融合多个特征可以使得跟踪结果更加优化。
为了更好地体现本文方法的优势,将该方法与现有代表性的两种方法进行了定性和定量的比较。这两种方法分别记为SPT(robust superpixel tracking[1])和OFL(optical flow and level set[5])。为了定量评估这几种跟踪方法的准确率,引入一种基于PASCAL VOC覆盖率的准确率分值(${\rm{Ascore}}$),即反映了跟踪轮廓${C_t}$和标准轮廓${C_{{\rm{gt}}}}$之间的重叠率:
$${\rm{Ascore}} = {{{\rm{area}}({C_{{\rm{gt}}}} \cap {C_t})} \mathord{\left/ {\vphantom {{{\rm{area}}({C_{{\rm{gt}}}} \cap {C_t})} {{\rm{area}}({C_{{\rm{gt}}}} \cup {C_t})}}} \right. } {{\rm{area}}({C_{{\rm{gt}}}} \cup {C_t})}}$$ (14) SPT[1]方法是基于均值漂移聚类算法得到的表观置信图,然后基于置信图继续采用水平集的轮廓跟踪方法得到最终的跟踪轮廓。OFL[5]则是在特征层融合颜色、纹理及运动信息。
图 4为在3个序列上不同方法的对比跟踪结果。
Lemming序列是在一个杂乱的背景中跟踪一个刚性玩偶,跟踪过程中存在严重的运动模糊以及部分遮挡,目标有时还处于静止的状态。该序列能更好地体现本文方法在运动模糊表观特征失效时,运动特征体现的作用以及静止状态下运动特征失效,而表观特征体现的作用。
Bottle序列是在有相似颜色背景中跟踪一个水杯,当颜色信息失效的时候,运动信息作为其有效的补充,可以提高超像素的置信度,获得鲁棒的跟踪结果。
Walk序列是在部分遮挡情况下跟踪一个非刚体人体目标,体现了本文方法在结合表观和运动信息在处理大形变目标上的优势。从跟踪结果中可以看出,由于SPT方法没有考虑目标的运动信息,因此在有相似颜色背景干扰情况下,很容易把一部分背景也包括进去;并且该方法依赖于不是很精确的均值漂移分类结果,随着跟踪不断进行,属于背景的超像素逐渐被包含到目标类中,造成跟踪误差累积,容易出现漂移或跟踪失败等情况。OFL方法融合多个特征通道,然而其基于像素级别的特征融合策略缺少考虑背景信息进行判别,容易受噪音干扰最终影响跟踪结果的精准度。
从图 4的对比跟踪结果可看出,本文的方法无论
是在相似背景颜色干扰、杂乱背景或者部分遮挡等情况下都能获得比较准确的轮廓跟踪结果。表 1是3个序列的描述以及不同方法的跟踪精度对比。
表 1 3个序列的描述以及不同方法的跟踪精度对比
序列 特点 跟踪精度(平均) SPT OFL 本文方法 lemming 复杂背景干扰、运动模糊、长时间静止 0.88 0.89 0.94 bottle 背景存在相似颜色 0.79 0.86 0.90 walk 人体目标之间互相遮挡 0.78 0.77 0.84 更进一步,图 5为3个方法在9个视频序列上的定量跟踪精度的对比结果。很明显在大多数情况下本文的方法在鲁棒性和准确率方面优于另外两种方法。
Superpixel-Based Level Set Tracking by Fusion of Multiple Features
-
摘要: 在水平集轮廓跟踪框架中设计一个判别式速度函数对于有效引导轮廓进化非常重要。该文提出一个超像素驱动的速度函数建模方法,该模型融合了互补的表观和运动信息。在表观特征层,通过引入一种有效的中层视觉特征-超像素,建立基于核密度估计的判别式表观模型区分目标和背景。同时,利用运动光流场的统计信息,设计了一个可以自适应选择的阈值来区分和增强目标和背景的相对运动。最终,在决策层基于半朴素贝叶斯框架进行两种特征的融合,形成一个具有竞争能力的速度场引导水平集轮廓进化。在多个具有挑战的视频序列上的一系列实验验证了该方法的有效性和鲁棒性。Abstract: Designing a discriminative speed function plays a vital role in conducting contour evolution in level set-based tracking framework. In this work, we propose a superpixel-driven speed function modeling method by fusion of two supplementary cues:appearance and motion. Based on kernel density estimation, a discriminative model separating the object from the background is constructed in appearance space. Meanwhile, by making use of the statistical characteristics of the optical flow field, the relative motion between the object and the background can be distinguished and enhanced by an adaptively chosen threshold. Finally, these two cues are combined in decision level under the Semi-Naive Bayes framework. Experimental results on a number of challenging video sequences demonstrate the effectiveness and robustness of the proposed tracking methods.
-
Key words:
- appearance model /
- level set tracking /
- multiple features fusion /
- optical flow /
- superpixel
-
表 1 3个序列的描述以及不同方法的跟踪精度对比
序列 特点 跟踪精度(平均) SPT OFL 本文方法 lemming 复杂背景干扰、运动模糊、长时间静止 0.88 0.89 0.94 bottle 背景存在相似颜色 0.79 0.86 0.90 walk 人体目标之间互相遮挡 0.78 0.77 0.84 -
[1] YANG F, LU H C, YANG M H. Robust superpixel tracking[J]. IEEE Trans on Image Processing, 2014, 23(4):1639-1651. doi: 10.1109/TIP.2014.2300823 [2] REN X, MALIK J. Tracking as repeated figure/ground segmentation[C]//Proc of CVPR. Minneapolis, MN, USA: IEEE, 2007: 1-8. [3] ZHOU X, LI X, HU W. Learning a superpixel-driven speed function for level set tracking[J]. IEEE Trans on Cybernetics, 2016, 46(7):1498-1510. doi: 10.1109/TCYB.2015.2451100 [4] HU W, ZHOU X, LI W, et al. Active contour-based visual tracking by integrating colors, shapes, and motions[J]. IEEE Trans on Image Processing, 2013, 22(5):1778-1792. doi: 10.1109/TIP.2012.2236340 [5] BROX T, DERICHE R, WEICKERT J. Color, texture, and motion in level set based segmentation and tracking[J]. Image and Vision Computing, 2010, 28(3):376-390. doi: 10.1016/j.imavis.2009.06.009 [6] OSHER S, SETHIAN J. Fronts propagation with curvaturedependent speed:Algorithm based on hamilton-jacobi formulation[J]. Journal of Comput Phys, 1988, 79:12-49. doi: 10.1016/0021-9991(88)90002-2 [7] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Trans on PAMI, 2012, 11:2274-2282. http://dl.acm.org/citation.cfm?id=2377556 [8] BOIMAN O, SHECHTMAN E, IRANI M. In defense of nearest-neighbor based image classification[C]//Proc of CVPR. Anchorage, AK, USA: IEEE, 2008. [9] SUN D Q, ROTH S, BLACK M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them[J]. International Journal of Computer Vision, 2014, 106(2):115-137. doi: 10.1007/s11263-013-0644-x [10] LEWIS J P, ROTH S, BLACK M J, et al. A database and evaluation methodology for optical flow[J]. International Journal of Computer Vision, 2011, 92(1):1-31. doi: 10.1007/s11263-010-0390-2 [11] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proc of CVPR. San Diego, CA, USA: IEEE, 2005: 886-893. [12] JAIN A K, DUIN R P W, MAO Jian-chang, et al. Statistical pattern recognition:a review[J]. IEEE Trans on PAMI, 2000, 22(1):4-37. doi: 10.1109/34.824819 [13] OZUYSAL M, CALONDER M, LEPETIT V, et al. Fast keypoint recognition using random ferns[J]. IEEE Trans on PAMI, 2010, 32(3):448-461. doi: 10.1109/TPAMI.2009.23 [14] SETHIAN J A. Level set methods and fast marching methods:Evolving interfaces in computational geometry, fluid mechanics, Computer Vision, and Materials Sciences[M]. Cambridge:Cambridge University Press, 1999. [15] 张学工.模式识别[M].第3版.北京:清华大学出版社, 2013. ZHNAG Xue-gong. Pattern recognition[M]. 3rd ed. Beijing:Tsinghua University Press, 2013.