判别分析字典在行为识别中的算法研究

程石磊; 赵雷; 钮孟洋; 廖炳焱; 解梅; 顾菘; 张跃飞

doi:10.3969/j.issn.1001-0548.2019.05.017

判别分析字典在行为识别中的算法研究

doi: 10.3969/j.issn.1001-0548.2019.05.017

1.
电子科技大学信息与通信工程学院成都 611731
2.
成都航空职业技术学院成都 610100
3.
重庆市公安局重庆渝北区 401147

基金项目:

四川省科技计划项目 2018SZ0357

详细信息

作者简介:
程石磊(1986-), 男, 博士生, 主要从事图像处理与行为识别方面的研究.E-mail:228324288@qq.com

中图分类号: TP39

Research on Discriminative Analysis Dictionary Algorithm on Human Action Recognition

1.
School of Information and Communication Engineering, University of Electronic Science and Technology of China Chengdu 611731
2.
Department of Aircraft Maintenance Engineering, Chengdu Aeronautic Polytechnic Chengdu 610100
3.
Chongqing Public Security Bureau Yubei Chongqing 401147

摘要: 近年来，字典学习已成功运用到模式识别领域中，但是作为字典学习里的重要分支，分析字典却极少能得到应用，主要原因是分析字典的判别力较弱。该文提出了一种新的具有鲁棒性和判别性的分析字典学习法，该字典学习法从带噪数据中寻求数据的低秩表达，并联合Fisher准则从恢复出的干净数据中学习分析字典，由于引入了监督学习的机制，因此增强了字典的判别特性。最后将该算法应用于人体行为识别任务中，通过实验验证得出，相比于其他经典的字典学习方法，该方法在行为识别数据集上取得了较好的分类精度。
- 分析字典学习 /
- Fisher准则 /
- 人体行为识别 /
- 低秩表达
Abstract: Recently, dictionary learning (DL) has been applied to various pattern recognition tasks successfully, analysis dictionary learning, however as an important branch of dictionary learning, has not been fully exploited due to its poor discriminability. In this paper, a novel robust and discriminative analysis dictionary learning method is proposed, which specially seeks low rank representation from noisy data and learn a discriminative dictionary from the recovered clean data by incorporating with the Fisher criterion. The discriminability of dictionary is improved by introducing the supervised mechanism. At last, the task of human action recognition is conducted by applying the proposed method. Experiments on several human action recognition datasets show that the proposed method outperforms other classical synthesis dictionary methods.
- analysis dictionary learning /
- Fisher criterion /
- human action recognition /
- low rank representation

图 1 8组不同的参数设置下本文算法达到的平均识别率

下载: 全尺寸图片幻灯片

图 2 深度学习方法与本文提出方法在KTH数据集上测试所得混淆矩阵图

下载: 全尺寸图片幻灯片

表 1 分析字典在UCFSports数据集上的平均识别率

%
算法	跳水	打高尔夫	踢球	举重	骑马	跑步	滑板	鞍马摇摆	单双摇摆	散步	平均识别率
DADL	92.9	100	85.0	66.7	83.3	62.0	83.3	90.0	92.3	91.0	84.7
DPL	85.9	94.4	85.0	66.7	75.0	61.4	76.1	90.0	91.1	88.3	81.4
本文算法	100	94.4	90.0	83.3	83.3	69.2	75.0	95.0	100	97.2	88.7

下载: 导出CSV

表 2 部分合成字典学习法与分析字典学习法在UCF50数据集上的平均识别率

%
FDDL	LC-KSVD	DLSI	本文算法
76.5	70.1	75.4	79.1

下载: 导出CSV

表 3 3D ConvNet参数选择

Conv1a	Pol1	Conv2a	Pol2	Conv3a	Conv3b	Pol3	Conv4a	Conv4b	Pol4	Conv5a	Conv5b	Pol5	Fc6	Fc7
64		128		256	256		512	512		512	512		4 096	4 096

下载: 导出CSV

表 4 深度学习算法与分析字典学习法在KTH数据集上的平均识别率

%
对比算法	平均识别率
C3D+LinearSVM	90.10
SDM+LSTM	94.39
本文算法	96.10

下载: 导出CSV

[1]	RAVISHANKAR S, BRESLER Y. Learning sparsifying transforms[J]. IEEE Transactions on Signal Processing, 2013, 61(5):1072-1086. doi: 10.1109/TSP.2012.2226449
[2]	SHEKHAR S, PATEL V M, CHELLAPPA R. Analysis sparse coding models for image-based classification[C]//IEEE International Conference on Image Processing.[S.l.]: IEEE, 2015: 5207-5211. https://ieeexplore.ieee.org/document/7026054
[3]	GU S, ZHANG L, ZUO W, et al. Projective dictionary pair learning for pattern classification[C]//International Conference on Neural Information Processing Systems.[S.l.]: MIT Press, 2014: 793-801.
[4]	GUO J, GUO Y, KONG X, et al. Discriminative analysis dictionary learning[C]//Conference on Artificial Interlligence (AAAI).[S.l.]: MIT Press, 2016: 1617-1623.
[5]	WANG J, GUO Y, GUO J, et al. Class-aware analysis dictionary learning for pattern classification[J]. IEEE Signal Processing Letters, 2017, 24(12):1822-1826. doi: 10.1109/LSP.2017.2734860
[6]	GUO Y F, LI S J, YANG J Y, et al. A generalized Foley-Sammon transform based on generalized Fisher discriminant criterion and its application to face recognition[J]. Pattern Recognition Letters, 2003, 24(1):147-158. doi: 10.1016-S0167-8655(02)00207-6/
[7]	LIN Z, LIU R, SU Z. Linearized alternating direction method with adaptive penalty for low-rank representation[J]. Advances in Neural Information Processing Systems, 2011:612-620. http://d.old.wanfangdata.com.cn/OAPaper/oai_arXiv.org_1109.0367
[8]	CAI J F, CANDES E J, SHEN Z. A singular value thresholding algorithm for matrix completion[J]. Siam Journal on Optimization, 2008, 20(4):1956-1982. doi: 10.1137-080738970/
[9]	BARTELS R H, STEWART G W. Solution of the matrix equation AX+XB=C[F4] [J]. Communications of the ACM, 1972, 15(9):820-826. doi: 10.1145/361573.361582
[10]	SOOMRO K, ZAMIR A R. Action recognition in realistic sports videos[M]//Computer Vision in Sports.[S.l.]: Springer, 2014: 181-208.
[11]	REDDY K K, SHAH M. Recognizing 50 human action categories of web videos[J]. Machine Vision and Applications, 2013, 24(5):971-981. doi: 10.1007/s00138-012-0450-4
[12]	SCHULDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.[S.l.]: IEEE, 2004, 3: 32-36. https://ieeexplore.ieee.org/document/1334462
[13]	GU S, ZHANG L, ZUO W, et al. Projective dictionary pair learning for pattern classification[C]//Advances in neural information processing systems.[S.l.]: [s.n.], 2014: 793-801.
[14]	SADANAND S, CORSO J J. Action bank: A high-level representation of activity in video[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]: IEEE, 2012: 1234-1241. https://ieeexplore.ieee.org/document/6247806
[15]	YANG M, ZHANG L, FENG X, et al. Fisher discrimination dictionary learning for sparse representation[C]//2011 IEEE International Conference on Computer Vision (ICCV).[S.l.]: IEEE, 2011: 543-550. https://ieeexplore.ieee.org/document/6126286
[16]	JIANG Z, LIN Z, DAVIS L S. Learning a discriminative dictionary for sparse coding via label consistent K-SVD[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]: IEEE, 2011: 1697-1704. https://ieeexplore.ieee.org/document/5995354
[17]	RAMIREZ I, SPRECHMANN P, SAPIRO G. Classification and clustering via dictionary learning with structured incoherence and shared features[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recongnition.[S.l.]: IEEE, 2010: 3501-3508.
[18]	TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision.[S.l.]: IEEE, 2015: 4489-4497. http://www.oalib.com/paper/4067376
[19]	BACCOUCHE M, MAMALET F, WOLF C, et al. Sequential deep learning for human action recognition[C]//International Workshop on Human Behavior Understanding. Berlin, Heidelberg: Springer, 2011: 29-39.

[1]	袁月婷, 闫光辉, 常文文, 张玉婵. 基于脑电信号空域特征的紧急制动行为识别 . 电子科技大学学报, 2024, 53(1): 84-91. doi: 10.12178/1001-0548.2022380
[2]	罗琴, 杨根, 刘智, 唐宾徽. 结合主动学习的威胁情报IOC识别方法 . 电子科技大学学报, 2023, 52(1): 108-115. doi: 10.12178/1001-0548.2022090
[3]	曹慧, 刘馨莲, 张录顺. 生物信息数据库分析 INHBA在结直肠癌中的表达及临床意义 . 电子科技大学学报, 2022, 51(2): 295-304. doi: 10.12178/1001-0548.2021348
[4]	张振, 张师榕, 赵转哲, 刘永明, 阚延鹏, 涂志健. 混合CNN-HMM的人体动作识别方法 . 电子科技大学学报, 2022, 51(3): 444-451. doi: 10.12178/1001-0548.2021326
[5]	张天一, 李文昌, 肖金玉, 刘剑. 基于稀疏字典学习的VLSI温度场重构技术 . 电子科技大学学报, 2021, 50(4): 502-507. doi: 10.12178/1001-0548.2020417
[6]	吴涢晖, 赵子天, 陈晓雷, 邹士亚. 大气低频声信号识别深度学习方法研究 . 电子科技大学学报, 2020, 49(5): 758-765. doi: 10.12178/1001-0548.2019297
[7]	胡青松, 张亮, 丁娟, 李世银. 人体动作数据编码与CNN精确识别 . 电子科技大学学报, 2020, 49(3): 473-480. doi: 10.12178/1001-0548.2019108
[8]	田文洪, 曾柯铭, 莫中勤, 吝博强. 基于卷积神经网络的驾驶员不安全行为识别 . 电子科技大学学报, 2019, 48(3): 381-387. doi: 10.3969/j.issn.1001-0548.2019.03.012
[9]	邵杰, 黄茜, 曹坤涛. 基于深度学习的人体解析研究综述 . 电子科技大学学报, 2019, 48(5): 644-654. doi: 10.3969/j.issn.1001-0548.2019.05.001
[10]	李永攀, 彭伟伦, 门锟, 吴俊阳. 基于多视角低秩分析的电力状态不良数据检测 . 电子科技大学学报, 2019, 48(3): 361-365. doi: 10.3969/j.issn.1001-0548.2019.03.009
[11]	王军, 夏利民. 基于因果分析的群体行为识别 . 电子科技大学学报, 2018, 47(2): 256-261. doi: 10.3969/j.issn.1001-0548.2018.02.015
[12]	王智文, 蒋联源, 王宇航, 欧阳浩, 张灿龙, 黄镇谨, 王鹏涛. 基于动作子空间和权重条件随机场的行为识别王智文 . 电子科技大学学报, 2017, 46(2): 412-418. doi: 10.3969/j.issn.1001-0548.2017.02.016
[13]	李彦冬, 雷航, 郝宗波, 唐雪飞. 基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
[14]	叶娅兰, 何文文, 程云飞, 侯孟书, 李云霞. 面向压缩感知的基于相关性字典学习算法 . 电子科技大学学报, 2017, 46(5): 703-708. doi: 10.3969/j.issn.1001-0548.2017.05.011
[15]	顾菘, 马争, 解梅. 矩阵的低秩稀疏表达在视频目标分割中的研究 . 电子科技大学学报, 2017, 46(2): 363-368, 406. doi: 10.3969/j.issn.1001-0548.2017.02.008
[16]	卢扬, 樊超, 韩筱璞, 荣智海. 签到行为的可预测性及影响因素分析 . 电子科技大学学报, 2015, 44(2): 163-171. doi: 10.3969/j.issn.1001-0548.2015.02.001
[17]	陈振国, 李冬艳. 运用核Fisher鉴别分析和MPM分类器的入侵检测 . 电子科技大学学报, 2007, 36(6): 1192-1194.
[18]	蔡权伟, 魏平, 肖先赐. 一种低信噪比信号的调制盲识别方法 . 电子科技大学学报, 2006, 35(2): 196-199.
[19]	黄继伟, 李云飞, 朱宏. 删失数据下的Fisher信息量 . 电子科技大学学报, 2006, 35(3): 423-425.
[20]	李平, 曾勇. 基于不完全理性学习的资产价格行为分析 . 电子科技大学学报, 2005, 34(6): 857-860.

点击查看大图

图(2) / 表(4)

计量

文章访问数: 4024
HTML全文浏览量: 1344
PDF下载量: 117
被引次数: 0

全文HTML

稀疏表达(sparse representation, SR)在模式识别领域的成功应用，对字典学习(DL)起到了强大的推动作用，这种从数据中直接学习关于数据的稀疏表达方式，通常在模式分类中要优于其他预定义的表达，例如：FFT、DCT等。DL中一种流行的分支是合成字典学习，合成字典学习虽然被广泛使用，但时间消耗太大。因此，作为合成学习的对偶变换，分析字典(analysis dictionary learning, ADL)越来越受到关注。

近年来，ADL取得了一些进展。文献[1]提出了一种良态平方变换消除图像噪声；文献[2]在此基础上引入带满秩约束的分析字典；文献[3]结合分析字典与合成字典提出了用于图像分类的指定类别的字典学习方法；文献[4]提出了具有局部拓扑保留特性的分析字典学习法，同时为了增强字典的判别性与编码的连续性，还引入了监督学习的机制；文献[5]在增强字典判别性方面，提出类感知学习方法，将分析字典与支持向量机结合，使得具有相同类别的编码向量有更近的类内距，而对于不同类别的编码向量有更远的类间距。

以上方法，在增强了字典的判别特性后，对于静态图片的模式分类效果有显著提升，但对于时空特性较强的人体行为识别问题效果欠佳。主要原因在于，人体行为识别技术经常受到行为遮挡，背景杂乱，摄像机抖动等问题的影响。在真实环境中准确地识别出人体行为的关键在于，不仅需要增强行为表示的判别鲁棒性，以减少噪声的影响，更应该学习一个紧凑并且能把握全局特征的行为表达方式。因此本文在引入低秩约束获取特征之间相互关系的同时，加入Fisher判定准则，使得相同类别的特征表达更紧凑，而对于不同类别的特征，表达则更为疏远。

1. 合成字典学习与分析字典学习

设$\boldsymbol{Y} = [{y_1}, {y_2}, \cdots , {y_n}] \in {\mathbb{R}^{m \times n}}$为样本空间的数据矩阵，DL的核心思想是学习能够表达每个样本${y_i} \in {\mathbb{R}^m}$的字典，设$\boldsymbol{X} = [{x_1}, {x_2}, \cdots , {x_n}] \in {\mathbb{R}^{p \times n}}$为通过字典得到的编码系数。

合成字典学习：大部分字典学习方法都采用这种方法，即字典$\boldsymbol{D} = [{d_1}, {d_2}, \cdots , {d_p}] \in {\mathbb{R}^{m \times p}}$，通过求解：

$$ \min\limits_{\boldsymbol{D}, \boldsymbol{X}}\|\boldsymbol{Y}-\boldsymbol{D} \boldsymbol{X}\|_{F}^{2} \quad \text { s.t. } \boldsymbol{D} \in \mathcal{D} $$

(1)

式中，$\left\| {\boldsymbol{Y - DX}} \right\|_F^2$表示对样本$\boldsymbol{Y}$的重构误差；$\mathcal{D}$是一系列约束集合，如字典结构的不连贯约束，联合字典学习与子空间聚类约束等。

分析字典学习：作为合成字典学习的对偶变换，分析字典给出了更直观的解释，它将字典直接作用于特征样本，类似于特征变换(如DWT)，让编码值逼近于变换结果，可以通过求解式(2)来学习分析字典：

$$ \min\limits_{\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}, \boldsymbol{X}}\|\boldsymbol{X}-\mathit{\boldsymbol{ \boldsymbol{\varOmega}}} \boldsymbol{Y}\|_{F}^{2} \quad \text { s.t. } \mathit{\boldsymbol{ \boldsymbol{\varOmega}}} \in \mathcal{W} $$

(2)

式中，$\mathit{\boldsymbol{ \boldsymbol{\varOmega}}} \in {\mathbb{R}^{p \times n}}$；$\mathcal{W}$表示分析字典的约束集，其作用是使$\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}$有非零解。

2. 低秩约束的判别分析字典学习

2.1. 低秩约束

给定一个观测矩阵${\boldsymbol{X}_0}$，其中包含干净的样本集合${\boldsymbol{X}_L}$和稀疏的误差矩阵$\boldsymbol{E}$，即：${\boldsymbol{X}_0} = {\boldsymbol{X}_L} + \boldsymbol{E}$。在低秩表达(low rank representation, LRR)中，往往需要通过一个低秩矩阵去挖掘观测矩阵的潜在结构，以此得出目标函数：

$$ {\min\limits_Z}||\mathit{\boldsymbol{Z}}||{_*}{\rm{ s}}{\rm{.t}}{\rm{. }}\;\mathit{\boldsymbol{X}} = \mathit{\boldsymbol{XZ}} + \mathit{\boldsymbol{E}} $$

(3)

式中，$\|\bullet\|_{*}$是核范数；$\boldsymbol{Z} \in {\mathbb{R}^{n \times m}}$即所求的表达矩阵；$\boldsymbol{X}$为$c$类训练样本，即$\boldsymbol{X} = [{x_1}, {x_2}, \cdots , {x_n}] \in {\mathbb{R}^{p \times n}}$。为了能寻求更紧凑的样本表达，本文引入分析字典$\mathit{\boldsymbol{ \boldsymbol{\varOmega}}} = [{w_1}, {w_2}, \cdots , {w_p}] \in {\mathbb{R}^{m \times p}}$将$\boldsymbol{X}$映射到低维的样本空间，令$\widetilde {\boldsymbol{X}} = {\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\rm{T}}}\boldsymbol{X} = {\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\rm{T}}}\boldsymbol{XZ}$, 同时，考虑到$n$个样本均匀分布于$c$个类别，而$n \gg c$，所以表达矩阵有低秩特性。

2.2. Fisher判别

标签信息对模式分类至关重要，因此本文引入基于Fisher准则的正则项$f(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}, \boldsymbol{Z})$，$f(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}, \boldsymbol{Z})=\left[\operatorname{Tr}\left(S_{B}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right)\right) / \operatorname{Tr}\left(S_{W}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right)\right)\right]$, 其中${\rm{Tr}}(\boldsymbol{K})$为矩阵$\boldsymbol{K}$的迹，${S_B}({\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\rm{T}}}\boldsymbol{XZ})$与${S_W}({\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\rm{T}}}\boldsymbol{XZ})$分别表示类间散度矩阵和类内散度矩阵，定义如下：

$$\boldsymbol{S}_{B}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right)=S_{B}(\widetilde{\boldsymbol{X}})=\sum\limits_{i=1}^{c} n_{i}\left(\boldsymbol{m}_{i}-\boldsymbol{m}\right)\left(\boldsymbol{m}_{i}-\boldsymbol{m}\right)^{\mathrm{T}} $$

(4)

$$S_{w}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X Z}\right)=S_{w}(\widetilde{\boldsymbol{X}})=\sum\limits_{i=1}^{c} \sum\limits_{j=1}^{n_{i}}\left(\widetilde{x_{i j}}-\boldsymbol{m}_{i}\right)\left(\widetilde{x_{i j}}-\boldsymbol{m}_{i}\right)^{\mathrm{T}}$$

(5)

式中，${\boldsymbol{m}_i}$是第$i$类样本的均值向量；$\boldsymbol{m}$是所有样本的均值向量，$\widetilde {{x_{ij}}}$是第$i$类样本的第$j$个样本，根据文献[6]的证明，迹的比率问题可以转换为迹的差分问题，因此，可以重写$f(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}, \boldsymbol{Z})$得到：

$$\overline{f(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}, \boldsymbol{Z})}=\operatorname{Tr}\left(\boldsymbol{S}_{W}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right)\right)-\operatorname{Tr}\left(\boldsymbol{S}_{B}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right)\right)$$

(6)

通过对式(6)的观察，整理得到如下目标函数：

$$\min\limits_{Z}\|\boldsymbol{Z}\|_{*}+\lambda \overline{f(\boldsymbol{P}, \boldsymbol{Z})} \quad \text { s.t. } \quad \boldsymbol{X}=\boldsymbol{X} \boldsymbol{Z}+\boldsymbol{E}$$

(7)

式中，$\lambda $为低秩约束与判别正则项之间的平衡参数。

由于${\rm{Tr}}({\boldsymbol{S}_B})$的存在，$\overline{f(\boldsymbol{P}, \boldsymbol{Z})} $并非是关于$\boldsymbol{Z}$的凸函数，因此需要加入弹性项确保凸性，因此$\overline{f(\boldsymbol{P}, \boldsymbol{Z})} $可重写为：

$$\begin{array}{l}{\overline{f(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}, \boldsymbol{Z})}=\operatorname{Tr}\left(\boldsymbol{S}_{W}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right)\right)-} \\ {\operatorname{Tr}\left(\boldsymbol{S}_{B}\left(\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right)\right)+\eta\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right\|_{F}^{2}}\end{array}$$

(8)

式中，$\eta $为权衡系数。将式(8)进一步转化为矩阵形式：

$$\begin{array}{*{20}{c}} {\overline {f(\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}, \mathit{\boldsymbol{Z}})} = \left\| {{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}^{\rm{T}}}\mathit{\boldsymbol{XZ}}\left( {\mathit{\boldsymbol{I}} - {\mathit{\boldsymbol{H}}_b}} \right)} \right\|_F^2 - }\\ {\left\| {{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}^{\rm{T}}}\mathit{\boldsymbol{XZ}}\left( {{\mathit{\boldsymbol{H}}_b} - {\mathit{\boldsymbol{H}}_t}} \right)} \right\|_F^2 + \eta \left\| {{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}^{\rm{T}}}\mathit{\boldsymbol{XZ}}} \right\|_F^2} \end{array} $$

(9)

式中，$\boldsymbol{I} \in {\mathbb{R}^{n \times n}}$是单位矩阵；${\boldsymbol{H}_b}$，${\boldsymbol{H}_t}$为常系数矩阵，当${x_i}$，${x_j}$属于同一类别时，${\boldsymbol{H}_b}(i, j) = (1/{n_c})$，${n_c}$是一个类别中样本的个数，否则，当${x_i}$，${x_j}$不属于同一类别时，${\boldsymbol{H}_b}(i, j) = 0$，而${\boldsymbol{H}_t}(i, j) = (1/n)$。可以证明当$\eta > 1$时，式(9)仍然是关于$\boldsymbol{Z}$的凸函数。因此可以整理得到优化目标函数：

$$ \begin{array}{c} {\min\limits_{\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}, \boldsymbol{Z}, \boldsymbol{E}}\|\boldsymbol{Z}\|_{*}+\alpha\|\boldsymbol{E}\|_{1}+\lambda\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\left(\boldsymbol{I}-\boldsymbol{H}_{b} \right)\right\|_{F}^{2}-} \\ {\left.\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\left(\boldsymbol{H}_{b}-\boldsymbol{H}_{t}\right)\right\|_{F}^{2}+\eta\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}\right\|_{F}^{2}\right)} \\ {\text { s.t. } \boldsymbol{X}=\boldsymbol{X} \boldsymbol{Z}+\boldsymbol{E}, \quad\left\|w_{i}\right\|^{2}=1}\end{array} $$

(10)

3. 优化算法

本文采用经典的增广拉格朗日乘子法^[7]对目标函数式(10)进行优化，为此首先引入辅助变量$\boldsymbol{J}$，并将$\boldsymbol{Z} = \boldsymbol{J}$作为约束条件加入式(10)，于是原问题转换为：

$$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}, {\boldsymbol{z}}, {\boldsymbol{E}}} {{\left\| {\boldsymbol{Z}} \right\|}_*} + \alpha {{\left\| {\boldsymbol{E}} \right\|}_1} + \lambda \left\| {{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}^{\rm{T}}}{\boldsymbol{XZ}}\left( {{\boldsymbol{I}} - {{\boldsymbol{H}}_b}} \right)} \right\|_F^2 - }\\ {\left\| {{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}^{\rm{T}}}{\boldsymbol{XZ}}\left( {{{\boldsymbol{H}}_b} - {{\boldsymbol{H}}_t}} \right)} \right\|_F^2 + \eta \left\| {{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}^{\rm{T}}}{\boldsymbol{XZ}}} \right\|_F^2) + }\\ {g({\boldsymbol{Y}}, {\boldsymbol{Z}}, {\boldsymbol{E}}, {\boldsymbol{J}})\quad {\rm{ s}}{\rm{.t}}{\rm{. }}{{\left\| {{w_i}} \right\|}^2} = 1} \end{array} $$

式中，

$$ \begin{array}{c} {g(\boldsymbol{Y}, \boldsymbol{Z}, \boldsymbol{E}, \boldsymbol{J})= < \boldsymbol{Y}_{1}, \boldsymbol{X}-\boldsymbol{X} \boldsymbol{Z}-\boldsymbol{E}>+< \boldsymbol{Y}_{2}, \boldsymbol{Z}-\boldsymbol{J}>+} \\ {\frac{\mu}{2}\|\boldsymbol{X}-\boldsymbol{X} \boldsymbol{Z}-\boldsymbol{E}\|_{F}^{2}+\|\boldsymbol{Z}-\boldsymbol{J}\|_{F}^{2})} \end{array} $$

$\mu $为惩罚项系数，${\boldsymbol{Y}_1} \in {\mathbb{R}^{d \times n}}$，${\boldsymbol{Y}_2} \in {\mathbb{R}^{n \times m}}$，$ < A, B > $为矩阵内积。

3.1. 对字典Ω更新

$$ \begin{array}{c} {\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_{k+1}={\mathop {\arg \min }\limits_{{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_k}}} \lambda(\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_{k}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}_{k}\left(\boldsymbol{I}-\boldsymbol{H}_{b}\right)\right\|_{F}^{2}-} \\ {\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_{k}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}_{k}\left(\boldsymbol{H}_{b}-\boldsymbol{H}_{t}\right)\right\|_{F}^{2}+\eta\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_{k}^{\mathrm{T}} \mathrm{X} \mathrm{Z}_{k}\right\|_{F}^{2})} \\ {\text { s.t. }\left\|w_{i}\right\|^{2}=1}\end{array} $$

(11)

令：${\mathit{\boldsymbol{Z}}_{tk}} = \mathit{\boldsymbol{X}}{\mathit{\boldsymbol{Z}}_k}\left( {\mathit{\boldsymbol{I}} - {\mathit{\boldsymbol{H}}_b}} \right), {\mathit{\boldsymbol{Z}}_{bk}} = \mathit{\boldsymbol{X}}{\mathit{\boldsymbol{Z}}_k}\left( {{\mathit{\boldsymbol{H}}_b} - {\mathit{\boldsymbol{H}}_t}} \right)$, 将${\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_k}$分解为向量形式，得到第$i$列的${\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_k}(:, i)$，通过求关于${\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_k}(:, i)$的梯度并令梯度为零，得到：

$$-\lambda\left(\boldsymbol{Z}_{t k} \boldsymbol{Z}_{t k}^{\mathrm{T}}-\boldsymbol{Z}_{b k} \boldsymbol{Z}_{b k}^{\mathrm{T}}+\eta \boldsymbol{X} \boldsymbol{\boldsymbol{Z}}_{k} \boldsymbol{\boldsymbol{Z}}_{k}^{\mathrm{T}} \boldsymbol{X}^{\mathrm{T}}\right)=\beta_{i} \mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_{{k}}(:, i)$$

(12)

由此可以判断${\beta _i}$，${\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_k}(:, i)$分别是$-\lambda\left(\boldsymbol{Z}_{t k} \boldsymbol{Z}_{t k}^{\mathrm{T}}-\boldsymbol{Z}_{b k} \boldsymbol{Z}_{b k}^{\mathrm{T}}+\eta \boldsymbol{X} \boldsymbol{\boldsymbol{Z}}_{k} \boldsymbol{\boldsymbol{Z}}_{k}^{\mathrm{T}} \boldsymbol{X}^{\mathrm{T}}\right)$的第$i$个特征值和特征向量。

3.2. 对辅助变量J更新

$$ \begin{array}{c}{\boldsymbol{J}_{k+1}=\underset{\boldsymbol{J}_{k}}{\arg \min }\left\|J_{k}\right\|_{*}+\operatorname{tr}\left(\boldsymbol{Y}_{2 k}^{\mathrm{T}}\left(\boldsymbol{Z}_{k}-\boldsymbol{J}_{k}\right)\right)+} \\ {\frac{\mu_{k}}{2}\left\|\boldsymbol{Z}_{k}-\boldsymbol{J}_{k}\right\|_{F}^{2}=\underset{\boldsymbol{J}_{k}}{\arg \min }\left\|\boldsymbol{J}_{k}\right\|_{*}+\frac{1}{2}\left\|\boldsymbol{J}_{k}-\left(\boldsymbol{Z}_{k}+\frac{\boldsymbol{Y}_{2 k}}{\mu_{k}}\right)\right\|_{F}^{2}}\end{array} $$

(13)

使用Singular Value Thresholding(SVT)^[8]求解，$\boldsymbol{J}^{*}=\boldsymbol{Z}_{k}+\frac{\boldsymbol{Y}_{2 k}}{\mu_{k}}$，对其进行SVD分解，${\rm{svd}}({\boldsymbol{J}^*}) = $ $(\mathit{\boldsymbol{U}}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}, \mathit{\boldsymbol{V}})$，其中：$\mathit{\boldsymbol{ \boldsymbol{\varSigma} }} = {\mathop{\rm diag}\nolimits} \left( {{{\left\{ {{\sigma _i}} \right\}}_{1 \le i \le r}}} \right)$，${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{1/{\mu _k}}}(\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}) = {\mathop{\rm diag}\nolimits} \left( {{{\left\{ {{\sigma _i} - 1/{\mu _k}} \right\}}_ + }} \right)$，$ + $代表取$ \geqslant $0的部分，$\operatorname{diag}(\bullet)$表示提取主对角线元素；最后，得到$\boldsymbol{J}_{k+1}= $ $\mathit{\boldsymbol{U}}{\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_{1/{u_k}}}(\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}){\mathit{\boldsymbol{V}}^{\rm{T}}}$。

3.3. 对表达系数Z更新

$$\begin{array}{c}{\boldsymbol{Z}_{k+1}=\mathop {\arg \min }\limits_{{Z_k}} \lambda\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}_{k}\left(\boldsymbol{I}-\boldsymbol{H}_{b}\right)\right\|_{F}^{2}-} \\ {\left.\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}_{k}\left(\boldsymbol{H}_{b}-\boldsymbol{H}_{t}\right)\right\|_{F}^{2}+\eta\left\|\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}_{k}\right\|_{F}^{2}\right)+} \\ {\operatorname{tr}\left(\boldsymbol{Y}_{1 k}^{\mathrm{T}}\left(\boldsymbol{X}-\boldsymbol{X} \boldsymbol{Z}_{k}-\boldsymbol{E}_{k}\right)\right)+\operatorname{tr}\left(\boldsymbol{Y}_{2 k}^{\mathrm{T}}\left(\boldsymbol{Z}_{k}-\boldsymbol{J}_{k+1}\right)\right)+} \\ {\frac{\mu}{2}\left(\left\|\boldsymbol{X}-\boldsymbol{X} \boldsymbol{Z}_{k}-\boldsymbol{E}_{k}\right\|_{F}^{2}+\left\|\boldsymbol{Z}_{k}-\boldsymbol{J}_{k+1}\right\|_{F}^{2}\right)}\end{array} $$

(14)

求其对应关于${\boldsymbol{Z}_k}$的梯度，令梯度为零，得到：

$$\begin{array}{c}{1 / \mu_{k} \boldsymbol{Z}_{k+1} \boldsymbol{P}+\left(\boldsymbol{X}^{\mathrm{T}} \mathit{\boldsymbol{ \boldsymbol{\varOmega}}} \mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{I}+\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}\right) \boldsymbol{Z}_{k+1}=} \\ {\left(\boldsymbol{X}^{\mathrm{T}} \mathit{\boldsymbol{ \boldsymbol{\varOmega}}} \mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X}\right)^{-1} \boldsymbol{K}_{k+1}}\end{array}$$

(15)

式中，$\boldsymbol{P}=2 \lambda\left[(1+\eta) \boldsymbol{I}-2 \boldsymbol{H}_{b}+\boldsymbol{H}_{t}\right]$；$\boldsymbol{K}_{k+1}=\boldsymbol{J}_{k+1}+\boldsymbol{X}^{\mathrm{T}}\left(\boldsymbol{X}-\boldsymbol{E}_{k}\right)+\left(\boldsymbol{X}^{\mathrm{T}} \boldsymbol{Y}_{1 k}-\boldsymbol{Y}_{2 k}\right) / \mu_{k}$，可见式(15)是关于${\boldsymbol{Z}_{k + 1}}$的标准Sylvester方程。利用现有的优化工具^[9]，可以方便地对${\boldsymbol{Z}_{k + 1}}$进行更新。

3.4. 对稀疏误差E更新

$$\boldsymbol{E}_{k+1}=\underset{E_{k}}{\arg \min } \frac{\alpha}{\mu_{k}}\left\|\boldsymbol{E}_{k}\right\|_{1}+\frac{1}{2}\left\|\boldsymbol{E}_{k}-\boldsymbol{Q}_{k}\right\|_{F}^{2}$$

(16)

式中，$\boldsymbol{Q}_{k}=\boldsymbol{X}-\boldsymbol{X} \boldsymbol{Z}_{k}+\boldsymbol{Y}_{1 k} / \mu_{k}$；$\boldsymbol{E}_{k+1}=\operatorname{sign}\left(\boldsymbol{Q}_{k}\right) \times$ $\max \left\{0, \left|\boldsymbol{Q}_{k}\right|-\alpha / \mu_{k}\right\} $

低秩约束的分析判别字典的学习过程采用循环迭代的方式，直至收敛。伪代码如算法1所示，当得到分析字典$\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}$与表达系数$\boldsymbol{Z}$的优化解后，可以得到训练样本在与测试样本在分析字典下的表达，然后利用最近邻(nearest neighbor, NN)分类器来预测测试样本的标签。运用低秩约束的分析判别字典的分类算法如伪代码算法2所示。

算法1 低秩约束的判别分析字典优化

输入：训练样本$\boldsymbol{X}$以及参数$\lambda $, $\alpha $, $\eta $, $\mu $, $\rho $, $\varepsilon $

输出：${\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_t}, {\mathit{\boldsymbol{J}}_k}, {\mathit{\boldsymbol{Z}}_k}, {\mathit{\boldsymbol{E}}_k}$

1) 初始化，令：$\mathit{\boldsymbol{Z}} = \mathit{\boldsymbol{J}} = 0, {\mathit{\boldsymbol{E}}_0} = 0, {\mathit{\boldsymbol{Y}}_{1, 0}} = 0, {\mathit{\boldsymbol{Y}}_{2, 0}} = 0$, ${Y_{2, 0}} = 0$, ${\mu _0} = 0.1$，${\mu _{\max }} = {10^{10}}$，$\rho = 1.3$，$k = 0$，$\varepsilon = {10^{ - 8}}$

2) 循环不收敛则一直进行如下操作：

3) 使用式(11)更新${\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}_{k + 1}}$

4) 使用式(13)更新${\boldsymbol{J}_{k + 1}}$

5) 使用式(14)更新${\boldsymbol{Z}_{k + 1}}$

6) 使用式(15)更新${\boldsymbol{E}_{k + 1}}$

7) 更新式拉格朗日乘子${\boldsymbol{Y}_{1, k}}$与${\boldsymbol{Y}_{2, k}}$：

$$ \begin{array}{l}{\boldsymbol{Y}_{1, k+1}=\boldsymbol{Y}_{1, k}+\mu_{k}\left(\boldsymbol{Z}_{k+1}-\boldsymbol{J}_{k+1}\right)} \\ {\boldsymbol{Y}_{2, k+1}=\boldsymbol{Y}_{2, k}+\mu_{k}\left(\boldsymbol{Z}_{k+1}-\boldsymbol{J}_{k+1}\right)}\end{array} $$

8) 更新$ {\mu _{k + 1}} = \min (\rho {\mu _k}, {\mu _{\max }})$

9) 检查是否满足收敛条件：

$\left\|\boldsymbol{X}-\boldsymbol{X} \boldsymbol{Z}_{k+1}-\boldsymbol{E}_{k+1}\right\|_{F}^{2}<\varepsilon $

$\left\|\boldsymbol{Z}_{k+1}-\boldsymbol{J}_{k+1}\right\|_{F}^{2}<\varepsilon $

10) $k = k + 1 $

11) 循环结束

算法2 分类方法

输入：训练样本特征$\boldsymbol{X}$以及对应的标签${L_x}$，测试样本$\boldsymbol{Y}$

输出：测试样本的预测标签${L_y}$

1) 归一化每个样本特征：${x_i} = {{{x_i}} \mathord{\left/ {\vphantom {{{x_i}} {\left\| {{x_i}} \right\|}}} \right. } {\left\| {{x_i}} \right\|}}$。

2) 使用算法1得到关于字典$\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}$与表达系数$Z$的优化解。

3) 分别计算训练样本与测试样本在字典下的表达：$\widetilde{\boldsymbol{X}}=\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{Z}, \quad \widetilde{\boldsymbol{Y}}=\mathit{\boldsymbol{ \boldsymbol{\varOmega}}}^{\mathrm{T}} \boldsymbol{Y}$。

4) 利用最近邻法预测测试样本的标签${L_y}$。

5. 结束语

本文主要研究了字典学习在行为识别任务中的应用，受合成字典学习法的启发，从对偶的角度引入分析字典学习法，利用近邻的时空描述子在同一字典下有相似的表达而具有低秩特性的特点，从全局考虑行为数据结构，增强了字典学习的鲁棒性。此外，为了提高学习字典的判别性，本文联合Fisher判定法则，减小类内散度、增大类间散度，将行为识别问题转化为低秩约束的判别分析字典优化问题。最后，通过与经典的合成字典学习算法进行比较，验证了本文算法的优势。

虽然字典学习能得出具有一定判别效果的样本表达，但字典学习法仅适合轻量级样本的学习和提炼，如何提升学习字典对大样本的表达精度将是未来工作的重点。

参考文献 (19)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

判别分析字典在行为识别中的算法研究

doi: 10.3969/j.issn.1001-0548.2019.05.017

作者简介:
程石磊(1986-), 男, 博士生, 主要从事图像处理与行为识别方面的研究.E-mail:228324288@qq.com

Research on Discriminative Analysis Dictionary Algorithm on Human Action Recognition

计量

判别分析字典在行为识别中的算法研究

doi: 10.3969/j.issn.1001-0548.2019.05.017

1. 电子科技大学信息与通信工程学院成都 611731

2. 成都航空职业技术学院成都 610100

3. 重庆市公安局重庆渝北区 401147

作者简介:
程石磊(1986-), 男, 博士生, 主要从事图像处理与行为识别方面的研究.E-mail:228324288@qq.com

English Abstract

Research on Discriminative Analysis Dictionary Algorithm on Human Action Recognition

1. School of Information and Communication Engineering, University of Electronic Science and Technology of China Chengdu 611731

2. Department of Aircraft Maintenance Engineering, Chengdu Aeronautic Polytechnic Chengdu 610100

3. Chongqing Public Security Bureau Yubei Chongqing 401147

全文HTML

2.1. 低秩约束

2.2. Fisher判别

3.1. 对字典Ω更新

3.2. 对辅助变量J更新

3.3. 对表达系数Z更新

3.4. 对稀疏误差E更新

4.1. 人体行为识别数据集

4.2. 实验设计

4.3. 实验结果与分析

目录

期刊在线

编辑办公

友情链接

留言板

判别分析字典在行为识别中的算法研究

doi: 10.3969/j.issn.1001-0548.2019.05.017

作者简介: 程石磊(1986-), 男, 博士生, 主要从事图像处理与行为识别方面的研究.E-mail:228324288@qq.com

Research on Discriminative Analysis Dictionary Algorithm on Human Action Recognition

计量

出版历程

判别分析字典在行为识别中的算法研究

doi: 10.3969/j.issn.1001-0548.2019.05.017

1. 电子科技大学信息与通信工程学院 成都 611731 2. 成都航空职业技术学院 成都 610100 3. 重庆市公安局 重庆 渝北区 401147

作者简介: 程石磊(1986-), 男, 博士生, 主要从事图像处理与行为识别方面的研究.E-mail:228324288@qq.com

English Abstract

Research on Discriminative Analysis Dictionary Algorithm on Human Action Recognition

1. School of Information and Communication Engineering, University of Electronic Science and Technology of China Chengdu 611731 2. Department of Aircraft Maintenance Engineering, Chengdu Aeronautic Polytechnic Chengdu 610100 3. Chongqing Public Security Bureau Yubei Chongqing 401147

全文HTML

2.1. 低秩约束

2.2. Fisher判别

3.1. 对字典Ω更新

3.2. 对辅助变量J更新

3.3. 对表达系数Z更新

3.4. 对稀疏误差E更新

4.1. 人体行为识别数据集

4.2. 实验设计

4.3. 实验结果与分析

目录

期刊在线

编辑办公

友情链接

作者简介:
程石磊(1986-), 男, 博士生, 主要从事图像处理与行为识别方面的研究.E-mail:228324288@qq.com

1. 电子科技大学信息与通信工程学院成都 611731

2. 成都航空职业技术学院成都 610100

3. 重庆市公安局重庆渝北区 401147

作者简介:
程石磊(1986-), 男, 博士生, 主要从事图像处理与行为识别方面的研究.E-mail:228324288@qq.com

1. School of Information and Communication Engineering, University of Electronic Science and Technology of China Chengdu 611731

2. Department of Aircraft Maintenance Engineering, Chengdu Aeronautic Polytechnic Chengdu 610100

3. Chongqing Public Security Bureau Yubei Chongqing 401147