CUDA框架下的视频关键帧互信息熵多级提取算法

郝晓丽; 高永

doi:10.3969/j.issn.1001-0548.2018.05.014

CUDA框架下的视频关键帧互信息熵多级提取算法

doi: 10.3969/j.issn.1001-0548.2018.05.014

郝晓丽,
高永

太原理工大学信息与计算机学院山西晋中 030600

基金项目:

国家自然科学基金 61572345

详细信息

作者简介:
郝晓丽(1973-), 女, 博士, 副教授, 主要从事图像处理与模式识别、人工智能、数据挖掘等方面的研究

中图分类号: TP39

Mutual Information Entropy Multi-level Extraction Algorithm of the Video Key Frame with CUDA

College of Information and Computer, Taiyuan University of Technology Jinzhong Shanxi 030600

摘要: 在传统视频关键帧提取过程中，需要对每一帧视频图像进行特征提取、图像匹配、重复检测等大量计算，导致算法运行时间过长。对此，该文提出了CUDA框架下的关键帧互信息熵多级提取算法。在CPU调度及GPU划分线程基础上，依据帧间三通道互信息熵，将视频序列初次划分为静态片段类和动态片段类；运用相邻帧间互信息量极小值法，将动态片段划分成多个关键子类，在关键子类中选取预备关键帧；并运用SUSAN算子分块计算，快速完成帧间的边缘匹配，从预备关键帧中滤除冗余，得到最终的关键帧序列。实验结果表明，与其他算法相比，该算法的查全率和查准率均为91%以上，提取关键帧的数量平均减少约42.82%，降低了视频数据量的存储，与其他CPU串行方法相比，其关键帧提取时间减少约50%，提高了算法运算效率。
- CUDA /
- 关键帧提取 /
- 互信息熵 /
- SUSAN算子 /
- 视频分割
Abstract: The video key frame extraction involves feature extraction and matching, it easily leads to high computation complexity. The paper proposes mutual information entropy multi-level extraction algorithm with compute unified device architecture (CUDA). Under CPU scheduling and GPU partition thread, three-channel mutual information entropy among the frames is designed to divide the video clips into the static and the dynamic fragment coarsely. By minimum value method for inter-frame mutual information, the dynamic fragments are categorized into multiple subclasses further, from which pre-key frames are selected. Furthermore, in order to filter out the redundancy of the pre-key frames, the SUSAN operator based on block computing is used to complete the edge matching among the inter-frames, and the final key frame sequence can be obtained by the threshold setting. The experiment results show that, compared with the other algorithms, the precision and the recall ratio of the algorithm in the paper are at least 91%, and the amount of the key frames extracted is reduced by 42.82%. It greatly cut down the video data and saves storage space. Besides it, compared with the CPU serial method, the extraction time by CUDA is shorted by about 50% and it improves the efficiency.
- CUDA /
- key frame extraction /
- mutual information entropy /
- SUSAN operator /
- video segmentation

图 1 关键帧提取算法流程

下载: 全尺寸图片幻灯片

图 2 提取关键帧时间对比

下载: 全尺寸图片幻灯片

图 3 不同算法提取出的关键帧结果

下载: 全尺寸图片幻灯片

表 1 不同算法提取关键帧的数量

视频类型	视频总帧数	参考关键帧的数量	提取关键帧数量/帧
视频类型	视频总帧数	参考关键帧的数量	文献[17]方法	文献[18]方法	本文方法
新闻	2 586	23	35	47	22
体育	3 427	34	40	56	32
故事	4 528	45	58	68	45
动画	5 833	48	67	86	48
演讲	4 227	39	51	64	40
会议	5 964	45	70	90	48

下载: 导出CSV

表 2 特征提取过程中CPU与CUDA上的性能比较

视频种类	特征点的个数/帧	CPU平均用时(帧/ms)	CUDA平均用时(帧/ms)	CPU/CUDA的加速比
新闻	512	132.136 0	1.642 2	80.462 8
体育	1 024	310.455 0	2.285 6	135.830 9
故事	1 024	299.894 1	2.094 7	143.165 0
动画	1 024	329.564 0	2.354 1	139.995 8
演讲	512	129.133 0	1.514 8	85.247 6
会议	512	142.413 2	1.798 4	79.188 8

下载: 导出CSV

表 3 不同算法的检测结果

视频类型	参考关键帧数量	算法	正确检测帧数	漏检帧数	误检帧数	冗余帧数	查全率/%	查准率/%
新闻	23	文献[17]	20	3	2	13	86.97	90.91
		文献[18]	21	2	2	24	91.30	91.67
		本文算法	21	2	1	0	91.30	95.45
体育	34	文献[17]	30	4	3	7	88.24	90.91
		文献[18]	31	3	2	23	91.17	93.94
		本文算法	31	3	1	0	91.43	91.43
故事	45	文献[17]	40	5	3	15	88.89	93.02
		文献[18]	41	4	2	25	91.11	95.34
		本文算法	42	3	3	0	93.33	93.33
动画	48	文献[17]	43	5	5	19	89.58	89.58
		文献[18]	45	3	2	39	93.75	95.74
		本文算法	44	4	3	1	91.67	93.62
演讲	39	文献[17]	35	4	4	12	89.74	89.74
		文献[18]	37	2	3	24	94.87	92.50
		本文算法	36	3	3	1	92.31	92.31
会议	45	文献[17]	40	5	4	26	88.89	90.91
		文献[18]	42	3	2	46	93.33	95.45
		本文算法	41	4	3	4	91.11	93.18

下载: 导出CSV

[1]	吴俊, 刘胜蓝, 冯林, 等.基于基元描述子的图像检索[J].计算机研究与发展, 2016, 53(12):2824-2835. doi: 10.7544/issn1000-1239.2016.20150711 WU Jin, LIU Sheng-lan, FENG Lin, et al. Imag retrieval based on texton correlation descriptor[J]. Journal of Computer Research and Development, 2016, 53(12):2824-2835. doi: 10.7544/issn1000-1239.2016.20150711
[2]	DUAN Feng-feng. Shot segmentation for binocular stereoscopic video based on spatial-temporal feature clustering[J]. 3D Research, 2016, 7(4):29-36. doi: 10.1007/s13319-016-0104-9
[3]	ZOU Xiao-liang, ZHAO Gui-hua, JONATHAN L, et al. Multiview matching algorithm for processing mobile sequence image[J]. Journal of Surveying Engineering, 2017, 143(4):142-150.
[4]	XU Yi-ming, GU Ju-ping, ZHU Hai-rong, et al. An image stabilization algorithm on corner detection and feature block matching[C]//2014 International Conference on Audio: Language and Image Processing. Shanghai: IEEE, 2015: 190-194. http://ieeexplore.ieee.org/document/7009784/
[5]	ANTONIO C H, MANUEL C H, FRANCISCO G U, et al. A fast and effective method for static video summarization on compressed domain[J]. IEEE Latin America Transactions, 2016, 14(11):4554-4559. doi: 10.1109/TLA.2016.7795828
[6]	MELIH A, MEHMET C. Road scene content analysis for driver assistance and autonomous driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(12):3398-3407. doi: 10.1109/TITS.2017.2688352
[7]	HANA G, SAHBI B, MOHAMED M, et al. Key frames extraction using graph modularity clustering for efficient video summarization[C]//IEEE Interntaional Conference on Acoustics: Speech and Signal Procssing. New Orleans, LA, United States: IEEE, 2017: 1502-1506. http://ieeexplore.ieee.org/document/7952407/
[8]	崔哲, 孟凡荣, 姚睿, 等. CUDA并行计算下基于扩展SURF的多摄像机视频融合方法[J].南京大学学报(自然科学), 2016, 52(4):627-637. http://d.old.wanfangdata.com.cn/Periodical/njdxxb201604007 CUI Zhe, MENG Fan-rong, YAO Rui, et al. Multi-video fusion with extended SURF based on CUDA parallel computing framework[J]. Journal of Nanjing University (Natural Sciences), 2016, 52(4):627-637. http://d.old.wanfangdata.com.cn/Periodical/njdxxb201604007
[9]	蔡晓东, 华娜, 吴迪, 等.一种基于关键帧的分布式视频分析解耦机制[J].电视技术, 2015, 39(14):1-4. http://d.old.wanfangdata.com.cn/Periodical/dsjs201514001 CAI Xiao-dong, HUA Na, WU Di, et al. Distributed video analysis decoupling mechanism based on keyframe[J]. Video Engineering, 2015, 39(14):1-4. http://d.old.wanfangdata.com.cn/Periodical/dsjs201514001
[10]	AN Yi-yao, GUO Mao-yun, CHAI Yi, et al. The CUDA-based multi-frame images parallel fast processing method[C]//Proceedings of 2016 Chinese Intelligent Systems Conference. Xiamen: Springer, 2016: 593-598. doi: 10.1007/978-981-10-2335-4_54
[11]	邹彬彬, 梁凡.一种基于CPU+GPU的AVS视频并行编码方法[J].上海大学学报(自然科学版), 2013, 19(3):235-239. doi: 10.3969/j.issn.1007-2861.2013.03.004 ZOU Bin-bin, LIANG Fan, Parallel implementation of AVS video encoder based on CPU+GPU[J]. Journal of Shanghai University(Natural Science), 2013, 19(3):235-239. doi: 10.3969/j.issn.1007-2861.2013.03.004
[12]	章亦葵, 赵晖.基于预处理的视频镜头边界检测算法[J].计算机应用, 2014, 34(11):3327-3331. http://d.old.wanfangdata.com.cn/Periodical/jsjyy201411061 ZHANG Yi-kui, ZHAO Hui. Video shot boundary detection method based on pre-processing[J]. Journal of Computer Applications, 2014, 34(11):3327-3331. http://d.old.wanfangdata.com.cn/Periodical/jsjyy201411061
[13]	岳昕, 尚振宏, 强振平, 等.基于信息熵与SIFT算法的天文图像配准[J].计算机科学, 2015, 42(6):57-60. http://d.old.wanfangdata.com.cn/Periodical/jsjkx201506013 YUE Xin, SHANG Zhen-hong, QIANG Zhen-pin, et al. Astronomical image registration combining information entropy and SIFT algorithm[J]. Computer Science, 2014, 34(11):3327-3331. http://d.old.wanfangdata.com.cn/Periodical/jsjkx201506013
[14]	赵晖.基于内容的视频镜头边界检测及关键帧提取[D].天津: 天津大学, 2014. http://cdmd.cnki.com.cn/Article/CDMD-10056-1016188805.htm ZHAO Hui. Content based video boundary detection and key frame extraction[D]. Tianjin: Tianjin University, 2014. http://cdmd.cnki.com.cn/Article/CDMD-10056-1016188805.htm
[15]	FAN Xin-feng, CHENG Yuan-zeng, FU Qiang. Moving target detection algorithm based on susan edge detection and frame difference[C]//International Conference on Information Science and Control Engineering. Shanghai: IEEE, 2015: 323-326. doi: 10.1109/ICISCE.2015.78
[16]	章毓晋.图像处理基础教程[M].北京:电子工业出版社, 2012:173-193. ZHANG Yu-jin. Fundamental course of image processsing[M]. Beijing:Publishing House of Electronics Industry, 2012:173-193.
[17]	刘华咏, 李涛.基于改进分块颜色特征和二次提取的关键帧提取算法[J].计算机科学, 2015, 42(12):307-311. http://d.old.wanfangdata.com.cn/Periodical/jsjkx201512066 LIU Hua-yong, LI Tao. Key frame extraction algorithm based on improved block color features and second extraction[J]. Computer Science, 2015, 42(12):307-311. http://d.old.wanfangdata.com.cn/Periodical/jsjkx201512066
[18]	ZHENG Ran, YAO Chuan-wei, JIN Hai, et al. Parallel key frame extraction for surveillance video service in a smart city[J]. Plos One, 2015, 10(8):e0135694. doi: 10.1371/journal.pone.0135694
[19]	庞亚俊.基于先验的动作视频关键帧提取[J].河南理工大学学报(自然科学版), 2016, 35(6):862-868. http://d.old.wanfangdata.com.cn/Periodical/jzgxyxb201606019 PANG Ya-jun. Key frames extraction of motion video based on prior knowledge[J]. Journal of Henan Polytechnic University (Natural Science), 2016, 35(6):862-868. http://d.old.wanfangdata.com.cn/Periodical/jzgxyxb201606019

[1]	郁湧, 钱天宇, 高悦, 艾合买提尼牙孜, 刘金卓. 基于结构平衡理论和高阶互信息的符号网络表示学习算法 . 电子科技大学学报, 2023, 52(5): 780-788. doi: 10.12178/1001-0548.2022168
[2]	陈晨, 季超群, 李文文, 陈德运, 王莉莉, 杨海陆. 基于互信息自适应估计的说话人确认方法 . 电子科技大学学报, 2023, 52(1): 125-131. doi: 10.12178/1001-0548.2022174
[3]	冯琴荣, 温玮华. 区间值信息系统的熵度量 . 电子科技大学学报, 2021, 50(1): 101-105. doi: 10.12178/1001-0548.2019243
[4]	达婷, 杨靓. 一种低分辨率视频实例分割算法的研究 . 电子科技大学学报, 2021, 50(1): 63-75. doi: 10.12178/1001-0548.2020075
[5]	顾亦然, 许梦馨. 基于PageRank的新闻关键词提取算法 . 电子科技大学学报, 2017, 46(5): 777-783. doi: 10.3969/j.issn.1001-0548.2017.05.021
[6]	许悦雷, 吕超, 马时平, 李帅, 邹洪中, 张文达, 辛鹏. 仿视皮层机制的随机点视频序列运动特征提取 . 电子科技大学学报, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
[7]	顾菘, 马争, 解梅. 矩阵的低秩稀疏表达在视频目标分割中的研究 . 电子科技大学学报, 2017, 46(2): 363-368, 406. doi: 10.3969/j.issn.1001-0548.2017.02.008
[8]	罗杨, 赵志钦. 基于互信息理论的MIMO天波超视距雷达波形优化方法 . 电子科技大学学报, 2017, 46(1): 27-31,60. doi: 10.3969/j.issn.1001-0548.2017.01.005
[9]	陈俊周, 李炜, 王春瑶. 一种动态场景下的视频前景目标分割方法 . 电子科技大学学报, 2014, 43(2): 252-256. doi: 10.3969/j.issn.1001-0548.2014.02.018
[10]	何红洲, 周明天. 基于互信息量的生物信息数据特征标注方法 . 电子科技大学学报, 2013, 42(6): 916-920. doi: 10.3969/j.issn.1001-0548.2013.06.020
[11]	李建江, 路川, 张磊. 基于指导语句的CUDA程序性能分析工具研究与实现 . 电子科技大学学报, 2012, 41(2): 280-284. doi: 10.3969/j.issn.1001-0548.2012.02.021
[12]	李建江, 张磊, 李兴钢, 陈翔, 黄义双. CUDA架构下的灰度图像匹配并行算法 . 电子科技大学学报, 2012, 41(1): 110-113. doi: 10.3969/j.issn.1001-0548.2012.01.021
[13]	黄玄, 陈杰, 李霞, 周莉. AVS高清视频帧间补偿结构与电路实现 . 电子科技大学学报, 2009, 38(2): 202-205. doi: 10.3969/j.issn.1001-0548.2009.02.11
[14]	雷霖, 代传龙, 王厚军. 基于互信息的无线传感器网络节点故障自诊断 . 电子科技大学学报, 2009, 38(5): 696-699. doi: 10.3969/j.issn.1001-0548.2009.05.030
[15]	曹宗杰, 庞伶俐, 皮亦鸣. 融合区域和边界信息的水平集SAR图像分割方法 . 电子科技大学学报, 2008, 37(3): 325-327,353.
[16]	曾翎, 刘斐, 乔辉. 基于互信息的功能磁共振图像配准 . 电子科技大学学报, 2008, 37(1): 138-140.
[17]	童玲, 陈光礻禹, 吕文. 测量数据的信息熵与测量误差熵研究 . 电子科技大学学报, 2007, 36(5): 935-937.
[18]	葛森, 黄大贵. 基于最大互信息方法的机械零件图像识别 . 电子科技大学学报, 2007, 36(4): 801-804.
[19]	荀京京, 王厚军, 向长波, 宋建中. 一种提取视频电磁泄漏信息同步特征的方法 . 电子科技大学学报, 2007, 36(3): 579-582.
[20]	范自柱, 刘二根, 徐保根. 互信息在图像检索中的应用 . 电子科技大学学报, 2007, 36(6): 1311-1314.

点击查看大图

图(3) / 表(3)

计量

文章访问数: 4369
HTML全文浏览量: 1471
PDF下载量: 59
被引次数: 0

全文HTML

在互联网、多媒体技术快速发展的今天，视频数据的存储、传输及处理已成为人们获取信息的重要途径之一。但是，互联网上的视频数据量呈指数级增长，要从海量视频数据中快速、高效地获取有效信息，已成为亟待解决的问题。因此研究并设计一种在海量视频数据中高效、灵活地提取关键帧技术，显得尤为重要。在视频检索和关键帧提取的研究领域中，其主要算法研究集中在特征提取和特征匹配两个关键步骤上。在特征提取方面，文献[1]提出了新的基元相关性描述子，通过颜色差分特征和基元频率特征分别描述像素间的对比度和空间位置信息，充分考虑这两种特征在图像检索精度上的作用，但其完全独立的特征提取导致计算量过大。文献[2]提出了基于时空特征聚类的视频镜头分割方法。该方法运用颜色和亮度作为单一帧图像的时间域特征，而对相邻两幅帧在空间域上的特征比较作为二次深度特征，将此三维空间上的特征进行融合并聚类，由此得到镜头边界。该算法能够很好地提取各类视频图像特征，并实现平滑镜头的准确检测，但会增加时间复杂度。在特征匹配方面，文献[3]提出了图像序列的多视图匹配算法，为提高匹配精度，先对变形图像进行矫正并重采样，再运用Harris算子进行特征提取，并计算在极线约束下相似图像的相关度系数。文献[4]在处理运动目标时，为避免剧烈运动对其稳定性的干扰，运用SUSAN对图像的角点特征进行提取，取得很好的效果。在关键帧提取方面，文献[5]提出基于显著性特征的关键帧提取策略。文献[6]设计了基于视频分析的辅助驾驶系统，从帧中提取人眼所敏感的空间、光谱等瞬时信息，运用熵驱动基于内容特征的数据融合，以此判断关键帧中静态图像边界及动态目标的出现。文献[7]运用导向图表示两幅预备关键帧的兴趣点矩阵，并运用模块聚类的方法提取关键帧。上述算法都在一定程度上改进了关键帧的提取速度，然而随着海量视频数据量的增加，算法的时间复杂度依然过高。

近年来，利用GPU进行计算加速，已成为图像领域快速计算的首选。文献[8]提出一种CUDA并行计算下基于扩展SURF的多摄像机视频融合方法；文献[9]提出一种基于关键帧的分布式视频分析解耦机制；文献[10]提出一种基于CUDA的多帧图像并行快速处理方法。上述提出的关键帧提取算法，利用CUDA的并行技术，极大地提高了关键帧提取的速度，缩短了整体的时间开销。但是随着视频分辨率的提高，在提取关键帧时，仍有待研究一种更为高效、快速的关键帧提取算法。

针对现有算法中存在的诸多问题，本文提出一种基于CUDA并行处理的关键帧互信息熵提取算法，来解决视频关键帧提取时间过慢的问题。

1. 基于CUDA构架的并行计算

1.1. CUDA编程模型

CUDA^[11]图形计算设备内部包含多个采用单指令多线程(single instruction multiple threads, SIMT)结构的流处理器。在CUDA编程模型中，以CPU为主机、GPU为设备，通常它们处于一种并行状态。根据其自身的特性，可将任务分别分配给CPU和GPU，前者主要承担逻辑运算和串行计算，而后者则承担大规模的并行数据处理任务。在CUDA并行阶段中，运行在GPU上的kernel函数指定所有执行线程的代码。当CUDA运行且启动一个kernel函数时，一个两级层级结构的网格即被生成。每个网格都是由线程块组成的数组，且其含有大小一样的线程块。在kernel函数启动时，主机代码指定每个线程块的线程数量，其至多包含1 024个线程。基于CUDA模型处理视频时，视频的读取、解码及存储等一系列的操作都是由CUDA的主程序控制，分配不同的任务给GPU处理，最后再返回给CPU执行。

1.2. CUDA并行架构设计

为了实现并行且缩短时间开销，本文基于CUDA框架，将视频数据处理划分为两个独立的阶段：视频处理阶段和关键帧提取阶段，其设计实现如下。

1) 以实现视频文件的解耦合为目的，本文采用OpenCV读取视频数据，通过调用VideoCapture函数，读入的二进制数据被解析为视频流，并进一步对此时的视频流解码，从解码的数据包中，可依次获取视频图片序列。鉴于视频帧中相邻图片序列之间信息差异度很小，本文采用VideoProcessor函数，读取数据流并进行相邻图片序列距离计算，得到足以代表该视频片段内容的视频帧，从而降低帧信息的冗余。

2) 将视频数据转换为图像数据时，采用VideoCapture将视频数据的二进制数据流进行读取，调用外部处理库，解压得到视频帧图片，便于下一阶段的处理。但由于视频数据采用高度压缩的数据形式，通过解码视频帧，得到的数据量将呈几何倍扩大。例如处理每秒25帧的彩色视频，其分辨率为512×512，将其解压为图片后，一秒钟的数据量为512×512×8×3×25 bit，即19.66 MB。巨大的数据量会在后期处理视频帧的数据存储、管理上占用极大空间和时间。

3) 为了解决视频解压后数据量倍增的问题，本文采用CUDA并行处理的方式，优化视频转换为视频帧的过程。本文提出了基于CUDA的CPU+GPU的帧级并行计算架构模型，将当前帧和参考帧拷贝到内存，鉴于视频解压后的图片序列中相邻图片的差异度非常小，本文在读取数据流时先将当前帧和参考帧读入主机端的内存, 并绑定到纹理内存；然后利用GPU多线程计算两帧图像的互信息熵值，从而得到解压图片的差异值；最后把互信息值拷贝到主机的CPU中，根据确定的阈值消除初始冗余帧。基于此过程选出能够代表相邻图片的视频帧，从而大大降低图片的数据量。

2. 基于CUDA并行的关键帧粗提取

2.1. 视频镜头分割

镜头分割是分析视频序列、以及对大规模视频数据进行有效检索和浏览的基础步骤。所以，能否准确定位镜头边界，并将视频分割为镜头集合，对关键帧的提取、减少索引数据量及高效检索，都有重大意义。传统的基于直方图的算法、基于像素的算法，亦或是基于运动特征的算法、基于边缘特征的算法，大都先对视频进行解压缩，再对其视频特征进行分析理解。而本文视频镜头片段分割的方法，采用文献[12]提出的在MPEG域上，直接获得视频信息(如各子块的DCT系数及预测向量等)，以此作为依据来检测镜头边界，此处不再赘述。

2.2. 基于互信息熵的关键帧粗提取

在视频镜头分割的基础上，需进一步提取视频镜头中的关键帧。其中，最为关键的设计是要在确保冗余信息较少的前提下，提取出的关键帧序列，能够较为准确地描述视频的主要特征。相比基于颜色直方图、纹理、轮廓等提取方法，本文以文献[13]中提出的信息熵提取算法为启发，采用信息熵特征进行视频图像特征提取，其步骤如下：

假设通过上述镜头边界检测方法进行了视频片段分割，依赖于检测到的镜头边界，视频数据$S$被划分成为了视频片段，记为$S = \{ {S_1}, {S_2}, \cdots , {S_N}\} $，$N$为视频分割后总的镜头片段。

步骤1) 从OpenCV中依次读入分割后的视频片段${S_1}, {S_2}, \cdots , {S_N}$，CPU调度整个过程，需要将当前帧和参考帧，分别读入主机端的内存，并将它们拷贝至内存, 且绑定到纹理内存。鉴于各个像素点的计算是相互独立的，可以使用GPU加速运算。若GPU线程块的大小为$16 \times 16$，且一个像素的计算需占用一个线程，则一个线程块可以同时计算1个宏块中4个$8 \times 8$块的互信息值，由此获得$16 \times 16$，$16 \times 8$，$8 \times 16$块的互信息值。以此方法，可获得片段中相邻两帧的互信息值${I_N} = \{ {I_{1, 2}}, {I_{2, 3}}, \cdots , {I_{k, k - 1}}\} $。

步骤2) 计算两帧之间的互信息值，根据阈值降低片段内相似度较高的帧群的冗余。本文通过R、G、B三通道采集的互信息量求和的方法，可以更准确地衡量相邻两帧之间的相似性，其互信息量越大，表示两帧越相似。分别用$I_{X, Y}^R, I_{X, Y}^G, I_{X, Y}^B$表示$X$帧和$Y$帧之间的三通道互信息值^[14]。计算如下：

$$I_{X, Y}^R = \sum\limits_{i = 0}^{L - 1} {\sum\limits_{j = 0}^{L - 1} {P_{X, Y}^R(i, j)\log \frac{{P_{X, Y}^R(i, j)}}{{P_X^R(i)P_Y^R(j)}}} } $$

(1)

$$I_{X, Y}^G = \sum\limits_{i = 0}^{L - 1} {\sum\limits_{j = 0}^{L - 1} {P_{X, Y}^G(i, j)\log \frac{{P_{X, Y}^G(i, j)}}{{P_X^G(i)P_Y^G(j)}}} } $$

(2)

$$I_{X, Y}^B = \sum\limits_{i = 0}^{L - 1} {\sum\limits_{j = 0}^{L - 1} {P_{X, Y}^B(i, j)\log \frac{{P_{X, Y}^B(i, j)}}{{P_X^B(i)P_Y^B(j)}}} } $$

(3)

式中，$L = 256$，那么两帧图像的互信息熵表示为：

$${I_{X, Y}} = I_{X, Y}^R + I_{X, Y}^G + I_{X, Y}^B$$

(4)

式中，${P_X}(i)$和${P_X}(j)$分别为$X$帧和$Y$帧图像灰度的概率分布；$P{}_{X, Y}(i, j)$为$X$帧和$Y$帧的联合概率分布。CPU调度读取视频及计算互信息熵，并将其值拷贝到主机端的内存，其过程都分解为一系列的矩阵运算。在CUDA中基本的矩阵乘法都使用带状划分法划分线程，每一个线程负责读取相乘矩阵中第一个矩阵的一行以及第二个矩阵的一列，且计算出结果矩阵中对应位置的值。

步骤3) 通过计算片段内互信熵的标准差，判断此片段的动态性。互信息熵的标准差计算如下：

$$\sigma = \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {{{({I_i} - \mu )}^2}} } $$

(5)

式中，${I_i}$为片段中提取的每相邻帧的互信息熵；$\mu $为片段内的互信息熵的均值；$N$为片段内的互信息熵的个数。通过多次实验，设定阈值λ为1.25，当小于λ时，则判定该片段为静态片段，此时只需提取该片段的第一帧作为关键帧；否则，则判定该片段为包含复杂内容的动态片段。

步骤4) 对于具有复杂内容的动态片段，通常选取多个帧作为片段的关键帧。在本文的方案中，因为互信息量的大小，可以反映图像帧的相似程度。所以对于动态片段，本文首先通过计算动态片段中相邻帧间互信息量极小值的方法，把该动态片段分割成多个子片段。通过子片段的划分，把动态片段中相关性较强的视频帧划分到同一个子片段内，在各个子片段中选择一帧作为关键帧即可。由此，对动态片段中关键帧的提取就转换为子片段内关键帧的提取。

然而并非所有的子片段都要利用起来，实验中只有包含足够帧数的子片段才会被作为关键帧提取的子片段，此类子片段被称为关键类。遵循关键帧只在关键类中选取的原则，本文中划分子片段的帧数要与动态阈值${\sigma _d}$做比较，只有当子片段中的帧数大于动态阈值${\sigma _d}$时，才把其归为关键类。动态阈值${\sigma _d}$的计算公式为：

$$ {\sigma _d} = {N_L}/(w \times 2) $$

(6)

式中，${N_L}$为片段包含的帧数；$w$为片段被划分成为的子片段数目。

基于互信息熵特征的关键帧提取，得到的只是预备关键帧集合$F = \{ {f_1}, {f_2}, \cdots , {f_i}, \cdots , {f_k}\} $，其冗余度较高，需进一步运用SUSAN算子协同过滤冗余帧。

5. 结束语

本文提出一种基于CUDA并行处理的互信息熵关键帧提取算法，解决了传统的基于CPU串行算法在提取海量视频数据时处理速度过慢的问题，极大地提高了算法的时间效率。另外，本文采用互信息熵提取图像特征，并用SUSAN算子检测边缘特征，相比基于前景和运动特征并行处理的关键帧提取算法，简化了计算过程，进一步地提升了算法的运算效率，并降低了数据量从而节省存储空间。上述6种视频数据集测试结果表明，与基于前景和运动特征的并行关键帧提取算法相比，本文算法具有更高的时间效率和较小的空间开销，对大规模视频数据的检索具有一定的应用价值，特别适合从分辨率较高的视频中提取关键信息，对图像和视频检索领域的研究具有一定意义。

参考文献 (19)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

CUDA框架下的视频关键帧互信息熵多级提取算法

doi: 10.3969/j.issn.1001-0548.2018.05.014

作者简介:
郝晓丽(1973-), 女, 博士, 副教授, 主要从事图像处理与模式识别、人工智能、数据挖掘等方面的研究

Mutual Information Entropy Multi-level Extraction Algorithm of the Video Key Frame with CUDA

计量

CUDA框架下的视频关键帧互信息熵多级提取算法

doi: 10.3969/j.issn.1001-0548.2018.05.014

太原理工大学信息与计算机学院山西晋中 030600

作者简介:
郝晓丽(1973-), 女, 博士, 副教授, 主要从事图像处理与模式识别、人工智能、数据挖掘等方面的研究

English Abstract

Mutual Information Entropy Multi-level Extraction Algorithm of the Video Key Frame with CUDA

College of Information and Computer, Taiyuan University of Technology Jinzhong Shanxi 030600

全文HTML

1.1. CUDA编程模型

1.2. CUDA并行架构设计

2.1. 视频镜头分割

2.2. 基于互信息熵的关键帧粗提取

3.1. SUSAN算子和边缘匹配

3.2. SUSAN过滤冗余帧

4.1. 实验数据和评价标准

4.2. 检索关键帧数量比较

4.3. 检索时间对比

4.4. 检索参数效果对比

4.5. 关键帧检测结果对比

目录

期刊在线

编辑办公

友情链接

留言板

CUDA框架下的视频关键帧互信息熵多级提取算法

doi: 10.3969/j.issn.1001-0548.2018.05.014

作者简介: 郝晓丽(1973-), 女, 博士, 副教授, 主要从事图像处理与模式识别、人工智能、数据挖掘等方面的研究

Mutual Information Entropy Multi-level Extraction Algorithm of the Video Key Frame with CUDA

计量

出版历程

CUDA框架下的视频关键帧互信息熵多级提取算法

doi: 10.3969/j.issn.1001-0548.2018.05.014

太原理工大学信息与计算机学院 山西 晋中 030600

作者简介: 郝晓丽(1973-), 女, 博士, 副教授, 主要从事图像处理与模式识别、人工智能、数据挖掘等方面的研究

English Abstract

Mutual Information Entropy Multi-level Extraction Algorithm of the Video Key Frame with CUDA

College of Information and Computer, Taiyuan University of Technology Jinzhong Shanxi 030600

全文HTML

1.1. CUDA编程模型

1.2. CUDA并行架构设计

2.1. 视频镜头分割

2.2. 基于互信息熵的关键帧粗提取

3.1. SUSAN算子和边缘匹配

3.2. SUSAN过滤冗余帧

4.1. 实验数据和评价标准

4.2. 检索关键帧数量比较

4.3. 检索时间对比

4.4. 检索参数效果对比

4.5. 关键帧检测结果对比

目录

期刊在线

编辑办公

友情链接

作者简介:
郝晓丽(1973-), 女, 博士, 副教授, 主要从事图像处理与模式识别、人工智能、数据挖掘等方面的研究

太原理工大学信息与计算机学院山西晋中 030600

作者简介:
郝晓丽(1973-), 女, 博士, 副教授, 主要从事图像处理与模式识别、人工智能、数据挖掘等方面的研究