-
近年来随着图像数量与日俱增,如何对海量的图像资料进行快速准确的检索、分类、识别,从中挖掘出用户所需的关键信息,逐渐成为计算机视觉领域的重要研究课题。随着越来越多的科研工作者致力于相关领域的研究,出现了新的图像分类方法,然而这些新方法大多只追求分类结果的准确率,并未考虑到实际应用中的高效性需求,往往在处理少量实验数据时效果优越,而当数据量增长到一定程度时就会出现效率低下、甚至难以运算的情况。
词袋模型(bag of word)最初被应用于文本分类领域[1],文献[2-3]将其引入计算机视觉领域,并广泛应用于基于内容的图像分类中[4-7]。该方法通过对图像的视觉特征进行聚类获得视觉特征词典,利用视觉词典中的单词或词组在图像中出现的频率作为图像表示,进而对图像进行分类。视觉词袋模型(bag of visual word)的提出,一定程度上缓解了图像特征维数巨大、局部特征不统一难以训练的问题,但是在实际应用中,其分类效率仍有待进一步优化。文献[8]指出视觉词典所需解决的两个问题,一个是词典的简化,去除词典中没有区分力的无意义单词;另一个是需要确定一个合理的词典分辨率,往往分辨率越粗的词典分类准确性越差,而分辨率太细的词典又容易受到噪音干扰;文献[9-10]分别采用稀疏编码(sparse coding)和局部线性编码词典(locality-constrained linear coding,LLC)对特征进行量化,以尽可能简化视觉词典;文献[11]中对视觉词袋模型中的特征编码和池化方法进行了回顾和评估,并通过大量实验得出结论,在不同的应用中应使用不同的编码和池化方法。近年来,词袋模型的研究更多聚焦于解决实际应用中所遇到的各种问题,文献[12]提出一种关联直方图的词袋表示方法,通过将图像的全局直方图分解为目标及其领域的关联直方图来解决图像分类中的多目标问题;文献[13]提出了一种时空能量袋模型识别动态场景;文献[14]则着手于通过视觉词袋模型重建图像;而视觉词袋模型在医学图像分类中的应用也得到了越来越多的关注[15-18]。
尽管视觉词袋模型发展至今对图像分类性能有了质的提升,但是其计算效率仍难以达到海量图像快速分类的需求,有鉴于此,本文提出了一种基于小波变换的低维视觉词袋模型快速构建方法。该方法利用小波变换获得图像的低尺度表示,再通过均匀采样方式获得单一尺度下SIFT特征,以构建视觉词典。经过对Caltech 101数据集中101个类别8 677张图像的分类实验,验证了该方法可以在保证分类准确率的前提下,大幅度地提升传统词袋模型的计算效率。
-
为验证本文方法的有效性,实验通过图像分类测试与传统词袋模型、空间金字塔词袋模型进行了比较。
-
实验数据源自加利福尼亚理工学院的Caltech 101数据集,该数据集(除背景类外)共有101个类别,8 677幅图像,每个类别包含30~800张样本图像,每幅图像分辨率从100×300~300×300不等。如图 4所示,该数据集具有数据量大、种类多、对象内变化多样等特点,是国际上应用最为广泛的图像分类测试数据集之一。
为显示数据的可靠性,实验将对101类8 677张图像进行完全分类测试,并通过随机抽样等比例分组进行3次交叉验证。所有实验均在Intel酷睿i7处理器、8G内存的台式机,以及Windows7.0系统和MATLAB R2014a的实验环境下进行。
-
图像分类中常用的分类器是支持向量机(support vector machine,SVM),其核心思想是将低维空间的分类问题映射到高维特征空间,通过构造一个超平面来解决非线性分类问题。本文图像分类实验选取LibSVM提供的rbf-SVM分类器。
-
通过随机抽取的方式将原始数据集中的每类图像划分为大致均等的A、B、C三组,每组图像数量约为总数的1/3。每次选取其中两组作为训练集,剩余一组作为测试集,进行3次交叉验证,结果如表 1所示。
表 1 与传统词袋模型对比结果
方法 运行时间/s 准确率/% A组 传统词袋模型 13 042 50.56 本文的方法 4 579 51.31 B组 传统词袋模型 12 505 52.06 本文的方法 4 135 53.56 C组 传统词袋模型 12 432 52.79 本文的方法 4 091 51.13 从表 1可以看出,本文方法的运行时间仅为传统方法的1/3。而在分类准确率方面,仅有C组略微降低,其余A、B两组均有所提升,相对保持稳定。实验结果表明,本文的方法可以在保证分类准确率的前提下,极大地提升图像分类效率。
-
为进一步验证本文的方法具有普遍有效性,实验在空间金字塔词袋模型的基础上利用本文的方法进行优化,通过3次交叉验证,结果如表 2所示。
表 2 与空间金字塔词袋模型对比结果
方法 运行时间/s 准确率/% A组 空间金字塔词袋模型 18 044 59.23 本文的方法 6 512 61.39 B组 空间金字塔词袋模型 17 512 60.41 本文的方法 6 544 63.87 C组 空间金字塔词袋模型 17 721 59.62 本文的方法 6 132 61.14 从表 2可以看出,本文的方法结合空间金字塔词袋模型,在只增加较少计算时间的情况下,分类准确率相比传统算法有较显著的提高。实验结果表明,本文的方法对于传统词袋模型以外的衍生方法也能够产生积极的效果,可以较大程度地提升此类方法的计算效率。
Efficient Method for Image Classification Based on Low-Scale Bag of Word Model
-
摘要: 提出一种新的框架用于改进传统词袋模型效率较低的问题。该方法建立在通过小波变换获取的低尺度图像表示上,利用在低尺度图像上提取单尺度的SIFT特征,建立低尺度视觉词典。由于大幅度减少了图像初始特征维数,该方法可以快速建立视觉词典,并且有效地降低后续图像分类所花费的时间。通过对Caltech101数据集全部8 677张图像的分类测试显示,该方法可以在保证分类性能的同时,有效地提升基于传统词袋模型的图像分类效率。实验结果表明,该方法可以全面提升金字塔匹配的词袋模型分类性能和分类效率,普遍用于传统词袋模型及其衍生方法。Abstract: This paper proposes a new framework to improve the efficiency of visual bag-of-words model in large scale image classification. The method is based on the low scale image representation obtained by wavelet transform, and the low scale visual dictionary is built by extracting the SIFT features on the low scale image. Since the feature dimension is reduced, the method can quickly generate the visual dictionary and minimize the time of image classification process. The results of comparison experiments on the 8 677 images of Caltech 101 show that the proposed method can effectively improve the classification performance and efficiency of the traditional visual bag-of-words model and the Pyramid-BOW model.
-
表 1 与传统词袋模型对比结果
方法 运行时间/s 准确率/% A组 传统词袋模型 13 042 50.56 本文的方法 4 579 51.31 B组 传统词袋模型 12 505 52.06 本文的方法 4 135 53.56 C组 传统词袋模型 12 432 52.79 本文的方法 4 091 51.13 表 2 与空间金字塔词袋模型对比结果
方法 运行时间/s 准确率/% A组 空间金字塔词袋模型 18 044 59.23 本文的方法 6 512 61.39 B组 空间金字塔词袋模型 17 512 60.41 本文的方法 6 544 63.87 C组 空间金字塔词袋模型 17 721 59.62 本文的方法 6 132 61.14 -
[1] JOACHIMS T. Text categorization with support vector machines:Learning with many relevant features[M]. Heidelberg, Berlin:Springer, 1998. [2] SIVIC J, ZISSERMAN A. Video google:a text retrieval approach to object matching in videos[C]//Ninth IEEE International Conference on Proceedings of the Computer Vision. Washington D C, USA:IEEE Computer Society, 2003. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1238663 [3] FEI-FEI L, PERONA P. A bayesian hierarchical model for learning natural scene categories[C]//Proceedings of the Computer Vision and Pattern Recognition. San Diego, CA USA:IEEE Computer Society, 2005:524-531. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1467486 [4] FERGUS R, FEI-FEI L, PERONA P, et al. Learning object categories from Google's image search[C]//Tenth IEEE International Conference on Proceedings of the Computer Vision. Washington D C, USA:IEEE Computer Society, 2005:1816-1823. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1544937 [5] SUDDERTH E B, TORRALBA A, FREEMAN W T, et al. Learning hierarchical models of scenes, objects, and parts[C]//Tenth IEEE International Conference on Proceedings of the Computer Vision. Washington D C, USA:IEEE Computer Society, 2005:1331-1338. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1544874 [6] RAMESH B, XIANG C, LEE T H. Shape classification using invariant features and contextual information in the bag-of-words model[J]. Pattern Recognition, 2015, 48(3):894-906. doi: 10.1016/j.patcog.2014.09.019 [7] KHAN R, BARAT C, MUSELET D, et al. Spatial histograms of soft pairwise similar patches to improve the bag-of-visual-words model[J]. Computer Vision and Image Understanding, 2015, 132:102-112. doi: 10.1016/j.cviu.2014.09.005 [8] LEI W. Toward a discriminative codebook:Codeword selection across multi-resolution[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Minneapolis, Minnesota, USA:IEEE Computer Society, 2007:1-8. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4270372 [9] JIANCHAO Y, KAI Y, YIHONG G, et al. Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Miami, Florida, USA:IEEE Computer Society, 2009:1794-1801. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5206757 [10] JINJUN W, JIANCHAO Y, KAI Y, et al. Locality-constrained linear coding for image classification[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. San Francisco, CA, USA:IEEE Computer Society, 2010:3360-3367. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5540018 [11] WANG C, HUANG K. How to use bag-of-words model better for image classification[J]. Image and Vision Computing, 2015, 38:65-74. doi: 10.1016/j.imavis.2014.10.013 [12] GANDHI A, ALAHARI K, JAWAHAR C V. Decomposing bag of words histograms[C]//IEEE International Conference on Computer Vision. Sydney, NSW, Australia:IEEE Computer Society, 2013:305-312. http://www.cv-foundation.org/openaccess/content_iccv_2013/html/Gandhi_Decomposing_Bag_of_2013_ICCV_paper.html [13] FEICHTENHOFER C, PINZ A, WILDES R P. Bags of spacetime energies for dynamic scene recognition[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Columbus, OH, USA:IEEE Computer Society, 2014:2681-2688. [14] KATO H, HARADA T. Image reconstruction from bag-of-visual-words[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Columbus, OH, USA:IEEE Computer Society, 2014:955-962. [15] SADEK I, SIDIB D, MERIAUDEAU F. Automatic discrimination of color retinal images using the bag of words approach[C]//Proc SPIE 9414, Medical Imaging 2015. Orlando, USA:SPIE, 2015:94141J-8. http://proceedings.spiedigitallibrary.org/proceeding.aspx?articleid=2211244 [16] CONG Y, WANG S, LIU J, et al. Deep sparse feature selection for computer aided endoscopy diagnosis[J]. Pattern Recognition, 2015, 48(3):907-917. doi: 10.1016/j.patcog.2014.09.010 [17] SHEN L, LIN J, WU S, et al. HEp-2 image classification using intensity order pooling based features and bag of words[J]. Pattern Recognition, 2014, 47(7):2419-2427. doi: 10.1016/j.patcog.2013.09.020 [18] BROMURI S, ZUFFEREY D, HENNEBERT J, et al. Multi-label classification of chronically ill patients with bag of words and supervised dimensionality reduction algorithms[J]. Journal of Biomedical Informatics, 2014, 51:165-175. doi: 10.1016/j.jbi.2014.05.010 [19] LOWE D G. Object recognition from local scale-invariant features[C]//Seventh IEEE International Conference on Proceedings of the Computer Vision. Fort Collins, Colorado, USA:IEEE Computer Society, 1999, 2:1150-1157. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=790410 [20] LOWE D. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110. doi: 10.1023/B:VISI.0000029664.99615.94