Dynamic Smoke Detection Using Cascaded Convolutional Neural Network for Surveillance Videos

CHEN Jun-zhou; WANG Zi-jie; CHEN Hong-han; ZUO Lin-yi

doi:10.3969/j.issn.1001-0548.2016.06.020

The extraction of stable smoke features in complex scenes is a challenging task for video based smoke detection. For this issue, a convolutional neural network (CNN) framework which employs both static and dynamic features of the smoke is proposed. On the basis of analyzing the static features of individual frame, we further explore the dynamic features in spatial-temporal domain to reduce the influence of the noise from environment. Experimental results show that the proposed cascaded convolutional neural network framework performs well in real-time video based smoke detection for complex scenes.

HTML

烟雾检测作为消防探测重要手段，已广泛应用于火灾、爆炸的探测与预警。传统基于烟雾传感器的探测技术监测范围小，在工厂、仓库、森林等较大的区域铺设成本高，且此类传感器易老化而灵敏度降低。近年来，视频烟雾探测技术因其响应时间短、灵敏度高、覆盖面积大等优势备受国内外研究者关注。

现有视频烟雾检测方法主要依靠运动、颜色、形状、透明度、纹理等视觉特征。文献[1]提出一种利用烟雾颜色和运动特征的检测方法，首先采用背景提取和颜色过滤获取候选烟雾区域，然后计算光流将其速度及方向的均值和方差作为特征，最后采用BP神经网络完成分类识别，其所获特征向量维度偏低难以有效描述烟雾在复杂环境下的不同表现形式。文献[2]提出积累运动模型并利用积分图快速估计烟雾运动方向，该方法假设烟雾做向上运动其适用范围较有限。随后，文献[3]又提出一种双映射框架特征与AdaBoost结合的烟雾检测方法。第一层映射将每帧图像分块，提取各图像块的边缘方向直方图、边缘强度直方图、LBP直方图、边缘强度密度以及颜色和饱和度密度等特征。第二层映射将图像分区，统计各区块特征的均值、方差、峰态、偏度等。这些统计量最终被用于AdaBoost模型的训练和分类。文献[4]针对固定摄像头视频，提出一种基于轮廓和小波变换的烟雾探测方法，隐马尔科夫模型(HMM)被用于分析烟雾轮廓时域上周期性的变化。烟雾通常具有一定的透明度，其视觉特征受到背景影响，若能克服背景干扰则可有效降低烟雾识别难度。针对这一问题，文献[5]分析了烟雾与背景的混合机制，构建了一套烟雾前景提取方法，利用稀疏表达、局部平滑等约束求解混合系数。该方法可在一定程度上降低背景干扰，提高烟雾识别准确率。

在烟雾纹理特征提取方面，GLCM、LBP、Wavelet等应用最为广泛。文献[6]基于GLCM分析烟雾纹理实现了一套火焰、烟雾实时检测系统。文献[7]引入LBP提取烟雾纹理特征。文献[8]提出一种基于金字塔直方图序列烟雾检测方法。首先金字塔采样为三层多尺度结构，对每一层图像提取不同模式的LBP及LBPV特征，最后将LBP和LBPV特征序列拼接作为烟雾纹理特征，并由BP神经网络进行分类。然而，实际应用中现有方法均存在较多误检，主要原因在于：1)烟雾在不同环境下呈现出多样的状态，现有文献选用数据集较小，难以训练出稳定、可靠的分类器以拟合其复杂表现形式。2)烟雾视觉特征提取一直是视频烟雾检测的难点，仅依赖静态特征不足于将烟雾与一些似烟对象区分(如：云、喷泉等)。如何构建稳定、高效的特征提取算法，融合视频中静态与动态信息，成为降低烟雾误检的关键。

传统的分类器如SVM、决策树等在小数据集中表现良好，但在数据量较大时却难以更好地提高分类精度。近年来，深度神经网络(deep neural network, DNN)被成功地应用于计算机视觉领域。DNN通过建立类似于人脑的分层网络模型结构，对输入数据逐级提取从底层到高层的特征，以便更好地获得从底层信号到高层语义的映射关系。卷积神经网络(convolutional neural networks, CNN)作为其中最重要的网络模型之一，伴随大数据和高性能计算的驱动，在人脸识别、图像分类等方面取得突破性进展。文献[9]首次将CNN引入手写数字识别，其提出的LeNet网络结构被美国银行业广泛用于支票识别，并成为小尺度图像识别的基础模型。2012年，文献[10]在著名的ImageNet图像数据集上用更深的CNN取得当年世界最好结果，将识别错误率从26%降到15%，大幅度提升了大规模图像识别的精度。此后，更多的基于深度卷积神经网络模型和方法^[11-12]被提出，并向人脸识别^[13]、行人检测、行为识别^[14]等分支发展。深度的卷积神经网络能以原始图像作为输入，学习到从底层像素级到高层表示级的特征，将人工提取特征的模式向从数据中自动学习特征的模式转变。并且，该模型在大数据上效果更为显著。本文将卷积神经网络引入烟雾纹理特征提取，提出一种级联的卷积神经网络烟雾纹理识别框架融合静态和动态纹理信息，在静态纹理上将原始图像作为输入，在动态纹理上将原始图像的光流序列作为输入，最终实验结果显示，本文方法在烟雾识别准确率和误检率上均取得更好表现。

3. 结束语

本文提出一种基于级联CNN烟雾纹理识别框架视频烟雾检测方法，与传统方法相比，该方法在有效降低了对非烟视频误检的同时，可确保对有烟视频的中的烟雾事件及时检测和报警。本文系统采用C++编写，基于Caffe^[15]对CNN网络进行训练和测试，并利用GPU加速，其运行速度可达到实时烟雾检测的需要。

Reference (19)

[1]	YU Chun-yu, FANG Jun, WANG Jin-jun. Video fire smoke detection using motion and color features[J]. Fire Technology, 2010, 46(3): 651-663. doi: 10.1007/s10694-009-0110-z
[2]	YUAN F. A fast accumulative motion orientation model based on integral image for video smoke detection[J]. Pattern Recognition Letters, 2008, 29(7): 925-932. doi: 10.1016/j.patrec.2008.01.013
[3]	YUAN F. A double mapping framework for extraction of shape-invariant features based on multi-scale partitions with AdaBoost for video smoke detection[J]. Pattern Recognition, 2012, 45(12): 4326-4336. doi: 10.1016/j.patcog.2012.06.008
[4]	TOREYIN B U, DEDEOGLU Y. Contour based smoke detection in video using wavelets[C]//14th European Signal Processing Conference.[S.l.]:IEEE, 2006:1-5.
[5]	TIAN H, LI W, WANG L. Smoke detection in video:an image separation approach[J]. International journal of computer vision, 2014, 106(2): 192-209. doi: 10.1007/s11263-013-0656-6
[6]	YU Chun-yu, ZHANG Yong-ming, FANG Jun, et al. Texture analysis of smoke for real-time fire detection[C]//Second International Workshop on Computer Science and Engineering, WCSE'09.[S.l.]:IEEE, 2009, 2:511-515.
[7]	TIAN H, LI W, OGUNBONA P, et al. Smoke detection in videos using non-redundant local binary pattern-based features[C]//201113th IEEE International Workshop on Multimedia Signal Processing (MMSP).[S.l.]:IEEE, 2011:1-4.
[8]	YUAN F. Video-based smoke detection with histogram sequence of LBP and LBPV pyramids[J]. Fire Safety Journal, 2011, 46(3): 132-139. doi: 10.1016/j.firesaf.2011.01.001
[9]	LÉCUN Y, BOTTOU L, BENGIO Y. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi: 10.1109/5.726791
[10]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe, USA:[s.n.], 2012:1097-1105.
[11]	SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE Computer Society, 2014:1-9.
[12]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[EB/OL]. (2015-12-10). http://arxiv.org/abs/1512.03385.
[13]	YIN Q, CAO Z, JIANG Y, et al. Learning deep face representation:U.S, Patent 20, 150, 347, 820[P]. 2015-12-03.
[14]	ANNANE D, CHEVROLET J C, CHEVRET S. Two-stream convolutional networks for action recognition in videos[J]. Advances in Neural Information Processing Systems, 2014, 1(4): 568-576.
[15]	JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe:Convolutional architecture for fast feature embedding[EB/OL]. (2014-06-20). http://arxiv.org/abs/1408.5093.
[16]	LI Fei-fei, FERGUS R, PERONA P. Learning generative visual models from few training examples:an incremental Bayesian approach tested on 101 object categories[C]//Computer Vision and Image Understanding.[S.l.]:Elsevier, 2004, 106(1):59-70.
[17]	SOOMRO K, ZAMIR R A, SHAH M. UCF101:a dataset of 101 human action classes from videos in the wild[EB/OL]. (2012-12-03). http://arxiv.org/abs/1212.0402.
[18]	OJALA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002, 24(7): 971-987.
[19]	ZHAO G, PIETIKÄINEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(6): 915-928.

方法	ACC	TPR	TNR
LBP+SVM	93.43%	93.95%	92.91%
本文静态纹理	99.0%	99.76%	98.22%

方法	ACC/%	TPR/%	TNR/%
LBP-TOP+SVM	97.16	97.17	97.15
本文动态纹理	97.98	97.28	98.69

Dynamic Smoke Detection Using Cascaded Convolutional Neural Network for Surveillance Videos

doi: 10.3969/j.issn.1001-0548.2016.06.020

Abstract

References

Proportional views

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Related

Proportional views