基于低尺度词袋模型的图像快速分类方法

肖哲; 秦志光; 丁熠; 蓝天; 于跃

doi:10.3969/j.issn.1001-0548.2016.06.021

基于低尺度词袋模型的图像快速分类方法

doi: 10.3969/j.issn.1001-0548.2016.06.021

电子科技大学信息与软件工程学院成都 611731

基金项目:

国家自然科学基金广东联合基金 U1401257

国家自然科学基金青年基金 6130090

四川省科技计划 2014JY0172

中央高校基本科研业务费专项基金 ZYGX2013J080

详细信息

作者简介:
肖哲(1983-), 男, 博士生, 主要从事计算机视觉与模式识别、医学图像处理方面的研究

中图分类号: TP391.4

Efficient Method for Image Classification Based on Low-Scale Bag of Word Model

School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 611731

摘要: 提出一种新的框架用于改进传统词袋模型效率较低的问题。该方法建立在通过小波变换获取的低尺度图像表示上，利用在低尺度图像上提取单尺度的SIFT特征，建立低尺度视觉词典。由于大幅度减少了图像初始特征维数，该方法可以快速建立视觉词典，并且有效地降低后续图像分类所花费的时间。通过对Caltech101数据集全部8 677张图像的分类测试显示，该方法可以在保证分类性能的同时，有效地提升基于传统词袋模型的图像分类效率。实验结果表明，该方法可以全面提升金字塔匹配的词袋模型分类性能和分类效率，普遍用于传统词袋模型及其衍生方法。
- 词袋模型 /
- 计算机视觉 /
- 图像分类 /
- 尺度不变特征转换 /
- 小波变换
Abstract: This paper proposes a new framework to improve the efficiency of visual bag-of-words model in large scale image classification. The method is based on the low scale image representation obtained by wavelet transform, and the low scale visual dictionary is built by extracting the SIFT features on the low scale image. Since the feature dimension is reduced, the method can quickly generate the visual dictionary and minimize the time of image classification process. The results of comparison experiments on the 8 677 images of Caltech 101 show that the proposed method can effectively improve the classification performance and efficiency of the traditional visual bag-of-words model and the Pyramid-BOW model.
- bag-of-words /
- computer vision /
- image classification /
- scale invariant feture transform (SIFT) /
- wavelet transform

图 1 视觉词袋模型的基本结构

下载: 全尺寸图片幻灯片

图 2 基于均匀采样的单尺度SIFT

下载: 全尺寸图片幻灯片

图 3 本文的方法结构

下载: 全尺寸图片幻灯片

图 4 部分实验数据

下载: 全尺寸图片幻灯片

表 1 与传统词袋模型对比结果

	方法	运行时间/s	准确率/%
A组	传统词袋模型	13 042	50.56
A组	本文的方法	4 579	51.31
B组	传统词袋模型	12 505	52.06
B组	本文的方法	4 135	53.56
C组	传统词袋模型	12 432	52.79
C组	本文的方法	4 091	51.13

下载: 导出CSV

表 2 与空间金字塔词袋模型对比结果

	方法	运行时间/s	准确率/%
A组	空间金字塔词袋模型	18 044	59.23
A组	本文的方法	6 512	61.39
B组	空间金字塔词袋模型	17 512	60.41
B组	本文的方法	6 544	63.87
C组	空间金字塔词袋模型	17 721	59.62
C组	本文的方法	6 132	61.14

下载: 导出CSV

[1]	JOACHIMS T. Text categorization with support vector machines:Learning with many relevant features[M]. Heidelberg, Berlin:Springer, 1998.
[2]	SIVIC J, ZISSERMAN A. Video google:a text retrieval approach to object matching in videos[C]//Ninth IEEE International Conference on Proceedings of the Computer Vision. Washington D C, USA:IEEE Computer Society, 2003. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1238663
[3]	FEI-FEI L, PERONA P. A bayesian hierarchical model for learning natural scene categories[C]//Proceedings of the Computer Vision and Pattern Recognition. San Diego, CA USA:IEEE Computer Society, 2005:524-531. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1467486
[4]	FERGUS R, FEI-FEI L, PERONA P, et al. Learning object categories from Google's image search[C]//Tenth IEEE International Conference on Proceedings of the Computer Vision. Washington D C, USA:IEEE Computer Society, 2005:1816-1823. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1544937
[5]	SUDDERTH E B, TORRALBA A, FREEMAN W T, et al. Learning hierarchical models of scenes, objects, and parts[C]//Tenth IEEE International Conference on Proceedings of the Computer Vision. Washington D C, USA:IEEE Computer Society, 2005:1331-1338. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1544874
[6]	RAMESH B, XIANG C, LEE T H. Shape classification using invariant features and contextual information in the bag-of-words model[J]. Pattern Recognition, 2015, 48(3):894-906. doi: 10.1016/j.patcog.2014.09.019
[7]	KHAN R, BARAT C, MUSELET D, et al. Spatial histograms of soft pairwise similar patches to improve the bag-of-visual-words model[J]. Computer Vision and Image Understanding, 2015, 132:102-112. doi: 10.1016/j.cviu.2014.09.005
[8]	LEI W. Toward a discriminative codebook:Codeword selection across multi-resolution[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Minneapolis, Minnesota, USA:IEEE Computer Society, 2007:1-8. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4270372
[9]	JIANCHAO Y, KAI Y, YIHONG G, et al. Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Miami, Florida, USA:IEEE Computer Society, 2009:1794-1801. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5206757
[10]	JINJUN W, JIANCHAO Y, KAI Y, et al. Locality-constrained linear coding for image classification[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. San Francisco, CA, USA:IEEE Computer Society, 2010:3360-3367. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5540018
[11]	WANG C, HUANG K. How to use bag-of-words model better for image classification[J]. Image and Vision Computing, 2015, 38:65-74. doi: 10.1016/j.imavis.2014.10.013
[12]	GANDHI A, ALAHARI K, JAWAHAR C V. Decomposing bag of words histograms[C]//IEEE International Conference on Computer Vision. Sydney, NSW, Australia:IEEE Computer Society, 2013:305-312. http://www.cv-foundation.org/openaccess/content_iccv_2013/html/Gandhi_Decomposing_Bag_of_2013_ICCV_paper.html
[13]	FEICHTENHOFER C, PINZ A, WILDES R P. Bags of spacetime energies for dynamic scene recognition[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Columbus, OH, USA:IEEE Computer Society, 2014:2681-2688.
[14]	KATO H, HARADA T. Image reconstruction from bag-of-visual-words[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Columbus, OH, USA:IEEE Computer Society, 2014:955-962.
[15]	SADEK I, SIDIB D, MERIAUDEAU F. Automatic discrimination of color retinal images using the bag of words approach[C]//Proc SPIE 9414, Medical Imaging 2015. Orlando, USA:SPIE, 2015:94141J-8. http://proceedings.spiedigitallibrary.org/proceeding.aspx?articleid=2211244
[16]	CONG Y, WANG S, LIU J, et al. Deep sparse feature selection for computer aided endoscopy diagnosis[J]. Pattern Recognition, 2015, 48(3):907-917. doi: 10.1016/j.patcog.2014.09.010
[17]	SHEN L, LIN J, WU S, et al. HEp-2 image classification using intensity order pooling based features and bag of words[J]. Pattern Recognition, 2014, 47(7):2419-2427. doi: 10.1016/j.patcog.2013.09.020
[18]	BROMURI S, ZUFFEREY D, HENNEBERT J, et al. Multi-label classification of chronically ill patients with bag of words and supervised dimensionality reduction algorithms[J]. Journal of Biomedical Informatics, 2014, 51:165-175. doi: 10.1016/j.jbi.2014.05.010
[19]	LOWE D G. Object recognition from local scale-invariant features[C]//Seventh IEEE International Conference on Proceedings of the Computer Vision. Fort Collins, Colorado, USA:IEEE Computer Society, 1999, 2:1150-1157. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=790410
[20]	LOWE D. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110. doi: 10.1023/B:VISI.0000029664.99615.94

[1]	吴子锐, 杨之蒙, 蒲晓蓉, 徐杰, 曹晟, 任亚洲. 面向特征生成的无监督域适应算法 . 电子科技大学学报, 2022, 51(4): 580-585, 607. doi: 10.12178/1001-0548.2021314
[2]	范兴奎, 刘广哲, 王浩文, 马鸿洋, 李伟, 王淑梅. 基于量子卷积神经网络的图像识别新模型 . 电子科技大学学报, 2022, 51(5): 642-650. doi: 10.12178/1001-0548.2022279
[3]	佟国香, 田飞翔. 基于CNNs的两次训练融合的分类方法 . 电子科技大学学报, 2019, 48(5): 774-778. doi: 10.3969/j.issn.1001-0548.2019.05.018
[4]	刘睿, 邓强强, 冯运, 陈凌, 蒋伟, 殷宏磊, 彭倍. 基于图形路标特征的精确定位研究 . 电子科技大学学报, 2019, 48(2): 233-238. doi: 10.3969/j.issn.1001-0548.2019.02.012
[5]	曹健, 魏星, 李海生, 蔡强. 基于局部特征的图像分类方法 . 电子科技大学学报, 2017, 46(1): 69-74. doi: 10.3969/j.issn.1001-0548.2017.01.011
[6]	谭颖, 张涛, 谭睿, 沈小涛, 校景中. 基于小波变换与SVM的ADHD病人分类 . 电子科技大学学报, 2015, 44(5): 789-794. doi: 10.3969/j.issn.1001-0548.2015.05.025
[7]	王修信, 江丽莎, 陈云坪, 王锦莉. 遥感图像薄云的小波自适应阈值去除 . 电子科技大学学报, 2013, 42(3): 390-393. doi: 10.3969/j.issn.1001-0548.2013.03.014
[8]	蒲晓蓉, 樊科, 黄东. 类内子流形局部间隔对齐的人脸图像判别方法 . 电子科技大学学报, 2010, 39(6): 915-919. doi: 10.3969/j.issn.1001-0548.2010.06.023
[9]	张洪, 刘晓云. 基于小波变换的自适应公钥数字水印 . 电子科技大学学报, 2007, 36(1): 63-65.
[10]	杨明轩. 小波变换的齿轮泵故障分析 . 电子科技大学学报, 2007, 36(4): 805-808.
[11]	陈宇波, 许海柱, 黄婷婷, 朱建军. 在人脸图像中确定嘴巴位置的方法 . 电子科技大学学报, 2007, 36(6): 1308-1310.
[12]	文琪, 彭宏. 小波变换的离群时序数据挖掘分析 . 电子科技大学学报, 2005, 34(4): 556-558.
[13]	张洁, 蒋宁, 浦立新. 基于小波变换的医学图像融合技术 . 电子科技大学学报, 2005, 34(6): 839-842.
[14]	曹刚, 游志胜, 赵树龙. 基于小波隐性马尔可夫树模型的车牌定位 . 电子科技大学学报, 2004, 33(5): 515-518.
[15]	陈强洪, 李炳法, 叶斌. 小波变换下关联数字水印技术 . 电子科技大学学报, 2001, 30(4): 363-366.
[16]	郑勇, 周正华, 朱维乐. 一种快速零树编码的小波图像压缩算法 . 电子科技大学学报, 2001, 30(4): 331-334.
[17]	韩春林, 赵志钦, 王建国. 不同小波基下的SAR图像相干斑抑制性能分析 . 电子科技大学学报, 2000, 29(6): 578-582.
[18]	向渝, 李在铭. 小波变换图像压码延拓匹配与变换系数研究 . 电子科技大学学报, 1999, 28(3): 223-227.
[19]	刘国庆, 黄顺吉. 纹理SAR图像的多分辨率分析和分类(英文) . 电子科技大学学报, 1997, 26(6): 585-589.
[20]	唐向宏, 龚宇, 龚耀寰. 用M带小波变换实现图像的边缘检测 . 电子科技大学学报, 1997, 26(2): 117-120.

点击查看大图

图(4) / 表(2)

计量

文章访问数: 3954
HTML全文浏览量: 1203
PDF下载量: 136
被引次数: 0

全文HTML

近年来随着图像数量与日俱增，如何对海量的图像资料进行快速准确的检索、分类、识别，从中挖掘出用户所需的关键信息，逐渐成为计算机视觉领域的重要研究课题。随着越来越多的科研工作者致力于相关领域的研究，出现了新的图像分类方法，然而这些新方法大多只追求分类结果的准确率，并未考虑到实际应用中的高效性需求，往往在处理少量实验数据时效果优越，而当数据量增长到一定程度时就会出现效率低下、甚至难以运算的情况。

词袋模型(bag of word)最初被应用于文本分类领域^[1]，文献[2-3]将其引入计算机视觉领域，并广泛应用于基于内容的图像分类中^[4-7]。该方法通过对图像的视觉特征进行聚类获得视觉特征词典，利用视觉词典中的单词或词组在图像中出现的频率作为图像表示，进而对图像进行分类。视觉词袋模型(bag of visual word)的提出，一定程度上缓解了图像特征维数巨大、局部特征不统一难以训练的问题，但是在实际应用中，其分类效率仍有待进一步优化。文献[8]指出视觉词典所需解决的两个问题，一个是词典的简化，去除词典中没有区分力的无意义单词；另一个是需要确定一个合理的词典分辨率，往往分辨率越粗的词典分类准确性越差，而分辨率太细的词典又容易受到噪音干扰；文献[9-10]分别采用稀疏编码(sparse coding)和局部线性编码词典(locality-constrained linear coding，LLC)对特征进行量化，以尽可能简化视觉词典；文献[11]中对视觉词袋模型中的特征编码和池化方法进行了回顾和评估，并通过大量实验得出结论，在不同的应用中应使用不同的编码和池化方法。近年来，词袋模型的研究更多聚焦于解决实际应用中所遇到的各种问题，文献[12]提出一种关联直方图的词袋表示方法，通过将图像的全局直方图分解为目标及其领域的关联直方图来解决图像分类中的多目标问题；文献[13]提出了一种时空能量袋模型识别动态场景；文献[14]则着手于通过视觉词袋模型重建图像；而视觉词袋模型在医学图像分类中的应用也得到了越来越多的关注^[15-18]。

尽管视觉词袋模型发展至今对图像分类性能有了质的提升，但是其计算效率仍难以达到海量图像快速分类的需求，有鉴于此，本文提出了一种基于小波变换的低维视觉词袋模型快速构建方法。该方法利用小波变换获得图像的低尺度表示，再通过均匀采样方式获得单一尺度下SIFT特征，以构建视觉词典。经过对Caltech 101数据集中101个类别8 677张图像的分类实验，验证了该方法可以在保证分类准确率的前提下，大幅度地提升传统词袋模型的计算效率。

4. 结束语

本文提出了一种基于低尺度词袋模型的图像快速分类方法，利用小波降维结合单尺度SIFT特征，极大地减少了词袋模型的初始特征维数，在保证分类性能的前提下，大幅度地提升了计算效率。实验充分验证了该方法可普遍适用于词袋模型及其衍生方法的运算性能的改进。但是，研究中也发现低尺度词袋模型一方面更好的聚焦于低维特征，另一方面也损失一些高维特征，在提升一些类别的分类准确率的同时，也造成了一些类别的分类准确率下降。因此，研究不同尺度下不同特征之间的互补性，将是下一步研究工作的重点。

参考文献 (20)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于低尺度词袋模型的图像快速分类方法

doi: 10.3969/j.issn.1001-0548.2016.06.021

作者简介:
肖哲(1983-), 男, 博士生, 主要从事计算机视觉与模式识别、医学图像处理方面的研究

Efficient Method for Image Classification Based on Low-Scale Bag of Word Model

计量

基于低尺度词袋模型的图像快速分类方法

doi: 10.3969/j.issn.1001-0548.2016.06.021

电子科技大学信息与软件工程学院成都 611731

作者简介:
肖哲(1983-), 男, 博士生, 主要从事计算机视觉与模式识别、医学图像处理方面的研究

English Abstract

Efficient Method for Image Classification Based on Low-Scale Bag of Word Model

School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

1.1. 提取视觉特征

1.2. 生成视觉词典

1.3. 获得图像表示

3.1. 实验数据及环境

3.2. 基于rbf-SVM的图像分类

3.3. 与传统词袋模型的对比

3.4. 与空间金字塔词袋模型的对比

目录

期刊在线

编辑办公

友情链接

留言板

基于低尺度词袋模型的图像快速分类方法

doi: 10.3969/j.issn.1001-0548.2016.06.021

作者简介: 肖哲(1983-), 男, 博士生, 主要从事计算机视觉与模式识别、医学图像处理方面的研究

Efficient Method for Image Classification Based on Low-Scale Bag of Word Model

计量

出版历程

基于低尺度词袋模型的图像快速分类方法

doi: 10.3969/j.issn.1001-0548.2016.06.021

电子科技大学信息与软件工程学院 成都 611731

作者简介: 肖哲(1983-), 男, 博士生, 主要从事计算机视觉与模式识别、医学图像处理方面的研究

English Abstract

Efficient Method for Image Classification Based on Low-Scale Bag of Word Model

School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

1.1. 提取视觉特征

1.2. 生成视觉词典

1.3. 获得图像表示

3.1. 实验数据及环境

3.2. 基于rbf-SVM的图像分类

3.3. 与传统词袋模型的对比

3.4. 与空间金字塔词袋模型的对比

目录

期刊在线

编辑办公

友情链接

作者简介:
肖哲(1983-), 男, 博士生, 主要从事计算机视觉与模式识别、医学图像处理方面的研究

电子科技大学信息与软件工程学院成都 611731

作者简介:
肖哲(1983-), 男, 博士生, 主要从事计算机视觉与模式识别、医学图像处理方面的研究