混合PSO优化卷积神经网络结构和参数

唐贤伦; 刘庆; 张娜; 周家林

doi:10.3969/j.issn.1001-0548.2018.02.011

混合PSO优化卷积神经网络结构和参数

doi: 10.3969/j.issn.1001-0548.2018.02.011

重庆邮电大学工业物联网与网络化控制教育部重点实验室重庆南岸区 400065

基金项目:

国家自然科学基金 60905066

重庆市教委科学技术研究项目 KJ1500401

详细信息

作者简介:
唐贤伦(1977-), 男, 博士, 教授, 主要从事计算机智能方面的研究

中图分类号: TP183

Optimizing Structure and Parameters of Convolutional Neural Networks Using Hybrid PSO

Key Laboratory of Industrial Internet of Things & Networked Control, Ministry of Education, Chongqing University of Posts and Telecommunications Nan'an Chongqing 400065

摘要: 为了使卷积神经网络在非经验指导下自动寻得最优连接，并提高其参数优化效率，提出用粒子群优化卷积网络参数，并用离散粒子群优化卷积网络特征图之间连接结构的新方法。先使用粒子群优化所有权值，再采用离散粒子群优化降采样层和卷积层之间特征图连接结构。将该方法用于MNIST数据集和CIFAR-10数据集，实验结果表明，相比其他连接结构的卷积神经网络和其他识别方法，该方法可以有效实现网络结构及参数的优化，加速网络收敛并提高识别准确比。
- 卷积神经网络 /
- 离散粒子群优化 /
- 手写字符识别 /
- 粒子群优化 /
- 结构优化
Abstract: In order to make convolutional neural network get optimal connection automatically without experienced guidance and improve the optimizing effectiveness for parameters of convolutional neural network, a new method using both particle swarm optimization algorithm and discrete particle swarm optimization algorithm is proposed to optimize parameters and feature maps connecting structure of convolutional neural network. The particle swarm optimization is applied to optimize the weights of convolutional neural network at first, and then the discrete particle swarm optimization is applied to optimize feature maps connections between sub-sampling layer and convolutional layer. The method is applied to MNIST database and CIFAR-10 database, compared to convolutional neural networks of other connecting structures and other recognition methods, results shown that this method can optimize the parameters and structure of the network effectively, accelerate network convergence and improve the recognition accuracy.
- convolutional neural network /
- discrete particle swarm optimization /
- handwritten character recognition /
- particle swarm optimization /
- structural optimization

图 1 卷积神经网络结构图

下载: 全尺寸图片幻灯片

图 2 采用不同非线性函数各网络结构误差收敛状况对比

下载: 全尺寸图片幻灯片

表 1 采用不同非线性函数各网络结构错误率对比

%
不同激活函数的CNN	训练次数(epochs)
不同激活函数的CNN	1	5	10	50	100
CNN-S	11.11	4.22	2.68	1.36	1.15
CNN-ReL	3.18	1.72	1.34	0.96	0.94
CNN-ELU	2.12	1.36	1.12	0.94	0.93

下载: 导出CSV

表 2 不同训练方法不同训练次数的误识别率对比

%
训练方法	训练次数(epochs)
训练方法	1	5	10
NN	8.12	4.73	3.58
DBN	6.30	3.68	3.15
CNN-F	1.93	0.98	0.89
CNN-F-PSO	1.84	0.93	0.78
CNN-F-HPSO	1.75	0.89	0.71

下载: 导出CSV

表 3 传统CNN方法与本文方法识别错误率与消耗时间对比

方法	错误率/%	寻优时间/s	训练测试时间/s	总时间/s
CNN-ELU	1.14	-	2 233.5	2 233.5
本文方法	0.71	935.5	919.8	1 855.3

下载: 导出CSV

表 4 各种方法误识率对比

识别方法	预处理	误识率/%
linear classifier (1-layer NN)	去斜	8.4
K-nearest-neighbors, Euclidean (L2)	无	5.0
40 PCA + quadratic classifier	无	3.3
SVM, Gaussian Kernel	无	1.4
Trainable feature extractor + SVMs [no distortions]	无	0.83
本文方法	无	0.71
committee of 35 conv. net, 1-20-P-40-P-150-10	宽度归一化	0.23

下载: 导出CSV

表 5 不同方法的误识率对比

%
数据集	算法
数据集	CNN-1	CNN-2	CNN-3	本文算法
CIFAR-10-gray	33.34	36.56	34.93	30.10

下载: 导出CSV

[1]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 215:436-444. doi: 10.1561/2000000039
[2]	戴晓爱, 郭守恒, 任淯, 等.基于堆栈式稀疏自编码器的高光谱影像分类[J].电子科技大学学报, 2016, 45(3):382-386. http://manu50.magtech.com.cn/dzkjdx/CN/abstract/abstract58.shtml DAI Xiao-ai, GUO Shou-heng, REN Yu, et al. Hyperspectral remote sensing image classification using the stacked sparse autoencoder[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(3):382-386. http://manu50.magtech.com.cn/dzkjdx/CN/abstract/abstract58.shtml
[3]	ARORA C, SABETZADEH M, BRIAND L, et al. Automated checking of conformance to requirements templates using natural language processing[J]. IEEE Transactions on Software Engineering, 2015, 41(10):944-968. doi: 10.1109/TSE.2015.2428709
[4]	ZHANG Zhong, WANG Chun-heng, XIAO Bai-hua, et al. Cross-view action recognition using contextual maximum margin clustering[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(10):1663-1668. doi: 10.1109/TCSVT.2014.2305552
[5]	LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4):541-551. doi: 10.1162/neco.1989.1.4.541
[6]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324. doi: 10.1109/5.726791
[7]	YUAN Q, YIN G. Analyzing convergence and rates of convergence of particle swarm optimization algorithms using stochastic approximation methods[J]. IEEE Transactions on Automatic Control, 2015, 60(7):1760-1773. doi: 10.1109/TAC.2014.2381454
[8]	OULLRTTE R, BROWNE M, HIRASAWA K. Genetic algorithm optimization of a convolutional neuralnetwork for autonomous crack detection[C]//Congress on Evolutionary Computation. Portland: IEEE, 2004, 1: 516-521. http://www.mendeley.com/research/genetic-algorithm-optimization-convolutional-neural-network-autonomous-crack-detection/
[9]	FEDOROVICI L O, PRECUP R E, DRAGAN F, et al. Evolutionary optimization-based training of convolutional neural networks for OCR applications[C]//201317th International Conference on System Theory, Control and Computing (ICSTCC). Sinaia: IEEE, 2013: 207-212. http://ieeexplore.ieee.org/document/6688961/
[10]	LIU Dong, JIANG Qi-long, CHEN J X. Binary inheritance learning particle swarm optimisation and its application in thinned antenna array synthesis with the minimum sidelobe level[J]. IET Microwaves, Antennas & Propagation, 2015, 9(13):1386-1391. https://www.researchgate.net/publication/282897671_Binary_inheritance_learning_particle_swarm_optimisation_and_its_application_in_thinned_antenna_array_synthesis_with_the_minimum_sidelobe_level
[11]	CLEVERT D A, UNTERTHINER T, HOCHREITER S. Fast and accurate deep network learning by exponential linear units (ELUs)[C]//International Conference on Learning Representations. San Juan: Computer Science, 2016: arXiv: 1511. 07289.
[12]	XIONG Shi-fu, WU Guo, LIU Di-yuan. The Vietnamese speech recognition based on rectified linear units deep neural network and spoken term detection system combination[C]//9th International Symposium on Chinese Spoken Language Processing (ISCSLP). Singapore: IEEE, 2014: 183-186. http://ieeexplore.ieee.org/document/6936574/
[13]	LI Y H, ZHAN Z H, LIN S J, et al. Competitive and cooperative particle swarm optimization with information sharing mechanism for global optimization problems[J]. Information Sciences, 2015, 293:370-382. doi: 10.1016/j.ins.2014.09.030
[14]	LECUN Y, CORTES C, BURGES C J C. The MNIST database of handwritten digits[EB/OL]. [2016-07-12]. http://yann.lecun.com/exdb/mnist/.
[15]	余萍, 赵继生, 张洁.基于非线性修正函数的卷积神经网络图像识别研究[J].科学技术与工程, 2015, 15(34):221-225. doi: 10.3969/j.issn.1671-1815.2015.34.039 YU Ping, ZHAO Ji-sheng, ZHANG Jie. Image recognition of convolutional neural networks based on rectified nonlinear units function[J]. Science Technology and Engineering, 2015, 15(34):221-225. doi: 10.3969/j.issn.1671-1815.2015.34.039

[1]	刘勇国, 高攀, 兰荻, 朱嘉静. ECA-SKNet：玉米单倍体种子的卷积神经网络识别模型 . 电子科技大学学报, 2023, 52(6): 866-871. doi: 10.12178/1001-0548.2022361
[2]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[3]	赵学功, 邓佳坤, 魏浩然, 彭真明. 基于卷积神经网络的眼底图像微血管瘤检测方法 . 电子科技大学学报, 2021, 50(6): 915-920. doi: 10.12178/1001-0548.2021186
[4]	周书田, 颜信, 谢镇汕. 视频人脸识别中高效分解卷积与时间金字塔网络研究 . 电子科技大学学报, 2021, 50(2): 231-235. doi: 10.12178/1001-0548.2020319
[5]	吴涢晖, 赵子天, 陈晓雷, 邹士亚. 大气低频声信号识别深度学习方法研究 . 电子科技大学学报, 2020, 49(5): 758-765. doi: 10.12178/1001-0548.2019297
[6]	胡青松, 张亮, 丁娟, 李世银. 人体动作数据编码与CNN精确识别 . 电子科技大学学报, 2020, 49(3): 473-480. doi: 10.12178/1001-0548.2019108
[7]	杜娟, 刘志刚, 宋考平, 杨二龙. 基于卷积神经网络的抽油机故障诊断 . 电子科技大学学报, 2020, 49(5): 751-757. doi: 10.12178/1001-0548.2019205
[8]	李润东, 李立忠, 李少谦, 宋熙煜, 何鹏. 基于稀疏滤波神经网络的智能调制识别 . 电子科技大学学报, 2019, 48(2): 161-167. doi: 10.3969/j.issn.1001-0548.2019.02.001
[9]	田文洪, 曾柯铭, 莫中勤, 吝博强. 基于卷积神经网络的驾驶员不安全行为识别 . 电子科技大学学报, 2019, 48(3): 381-387. doi: 10.3969/j.issn.1001-0548.2019.03.012
[10]	郭继昌, 李翔鹏. 基于卷积神经网络和密度分布特征的人数统计方法 . 电子科技大学学报, 2018, 47(6): 806-813. doi: 10.3969/j.issn.1001-0548.2018.06.002
[11]	叶恒舟, 陆湘鹏. 基于离散粒子群优化的鲁棒Web服务组合 . 电子科技大学学报, 2018, 47(3): 443-448. doi: 10.3969/j.issn.1001-0548.2018.03.019
[12]	张云春, 王玉婧, 姚绍文, 李娜, 胡建陶. 基于粒子群优化的无线Mesh网络信道分配算法 . 电子科技大学学报, 2017, 46(5): 728-733, 746. doi: 10.3969/j.issn.1001-0548.2017.05.015
[13]	陈俊周, 汪子杰, 陈洪瀚, 左林翼. 基于级联卷积神经网络的视频动态烟雾检测 . 电子科技大学学报, 2016, 45(6): 992-996. doi: 10.3969/j.issn.1001-0548.2016.06.020
[14]	秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇. 基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010
[15]	张劼, 钟朗, 李广军, 杨学敏, 杨云乐. 基于节点优先级的无线Mesh网络资源分配 . 电子科技大学学报, 2016, 45(1): 54-59. doi: 10.3969/j.issn.1001-0548.2016.01.008
[16]	阳凯, 赵志钦, 聂在平. 基于模糊离散粒子群算法的非均匀阵列优化 . 电子科技大学学报, 2012, 41(1): 43-47. doi: 10.3969/j.issn.1001-0548.2012.01.009
[17]	谭骏, 陈兴蜀, 杜敏, 朱锴. 基于自适应BP神经网络的网络流量识别算法 . 电子科技大学学报, 2012, 41(4): 580-585. doi: 10.3969/j.issn.1001-0548.2012.04.020
[18]	胡建, 李志蜀, 欧鹏, 罗思达. 粒子群优化算法中的分步式策略 . 电子科技大学学报, 2009, 38(3): 435-440. doi: 10.3969/j.issn.1001-0548.2009.03.028
[19]	周欣然, 滕召胜, 易钊. 粒子群优化的广义T-S模糊模型参数学习方法 . 电子科技大学学报, 2008, 37(4): 569-573.
[20]	郑晓鸣, 吕士颖, 王晓东. 免疫接种粒子群的聚类算法 . 电子科技大学学报, 2007, 36(6): 1264-1267.

点击查看大图

图(2) / 表(5)

计量

文章访问数: 4870
HTML全文浏览量: 1380
PDF下载量: 225
被引次数: 0

全文HTML

深度学习可以自动提取特征并将特征进行分类，因此得以广泛应用^[1-3]。作为深度学习方法之一的卷积神经网络(convolutional neural networks, CNNs)，在视频人体动作识别^[4]等领域已得到成功应用。

文献[5]把卷积神经网络第一次成功应用在手写字符识别领域。在特征图连接问题上，传统CNNs第一降采样层与第二卷积层之间特征图全连接，对于经典的LeNet^[6]结构，第一降样层和第二卷积层之间特征图连接也是由人为经验决定的特定连接。虽然利用粒子群优化算法^[7]和遗传算法等智能算法^[8]训练相对简单的神经网络已经取得了很好的结果，把粒子群应用到光学字符识别应用中也取得了显著成效^[9]，但是这些算法训练的网络特征图之间都是经验指导的固定连接结构，而全连接结构使得连接数量过多，降低网络的运算速率，同时全连接结构使得网络结构对称，不利于提取不同的特征；而特定的连接结构又受到经验的影响，不能普遍适用。

本文提出一种将粒子群优化卷积网络参数和离散粒子群优化^[10]卷积神经网络特征图连接结构相结合的新方法，使用粒子群预训练参数，并使用离散粒子群优化第一采样层和第二卷积层特征图之间结构连接，使得网络在非经验指导下自动寻得最优连接。网络结构在传统结构基础上增加一个全连接层，非线性函数采用指数激活单元(exponential linear unit, ELU)^[11]，实验证明，将经过参数和结构优化后的网络应用到手写数字识别应用中可以达到较理想的识别效果。

2. 混合PSO优化卷积神经网络

本文采用粒子群优化卷积神经网络参数，和离散粒子群优化卷积神经网络特征图之间的连接结构，用BP对该网络微调参数。

2.1. 粒子群优化算法

粒子群算法(particle swarm optimization, PSO)通过随机初始化一群粒子，并根据法则更新其速度和位置，最终找到最优解。首先对粒子群进行初始化^[13]：

$$ {U_i}(0) = {U_{\max }}-r({U_{\max }}-{U_{\min }}) $$ (3)

$$ {X_i}(0) = 0.1\bf{RS} + \mathit{\boldsymbol{G}} $$ (4)

式中，U_i(0)、U_max以及U_min分别表示粒子向量初速度、速度上限及下限；X_i(0)表示粒子的初始位置；RS表示元素为(-1, 1)的随机向量，向量的维数与X_i(0)相同；G是待优化参数之前经验值组成的向量；r是(0, 1)范围内随机值。速度及位置更新公式为：

$$ {U_i}(t + 1) = w{U_i}(t) + {c_1}{r_1}({P_i}-{X_i}(t)) + {c_2}{r_2}({P_g}-{X_i}(t)) $$ (5)

$$ {X_i}(t + 1) = {X_i}(t) + {U_i}(t + 1) $$ (6)

式中，c₁和c₂为加速因子，为正常数；r₁和r₂为(0, 1)范围内的随机数；w为惯性因子。

惯性因子是粒子保持飞行速度的系数，本文采用非线性化调整策略对惯性因子进行改进，即：

$$ w(t) = {w_{\max }}-({w_{\max }}-{w_{\min }}){\sin ^2}\left( {\frac{{\pi i}}{{\rm 2Maxgin}}} \right) $$

式中，w_max、w_min分别为最大、最小惯性因子；i、Maxgin是当前的及最大的迭代次数。

2.2. 离散粒子群优化算法

离散粒子群优化算法(discrete particle swarm optimization, D-PSO)和PSO几乎相似，有以下不同。位置的初始化方式为：

$$ {X_i}(0) = F(0.1\bf{RS} + \mathit{\boldsymbol{G}}) $$

(7)

式中，函数$ Y = F(X)$定义为：${y_i} = \left\{ {\begin{array}{*{20}{c}} {0\;\;{x_i} < 0.5}\\ {1\;\;{x_i} \ge 0.5} \end{array}} \right. $；RS表示元素为(-1, 1)的随机向量，向量的维数与X_i(0)相同；G表示S₂与C₃层之间的特征图连接结构为全连接的向量。

位置更新公式为：

$$ {x_{ij}}(t + 1) = \left\{ {\begin{array}{*{20}{c}} {0\begin{array}{*{20}{c}} {}&{\begin{array}{*{20}{c}} {{r_i}(t) \ge f({u_{ij}}(t))}&{} \end{array}} \end{array}}\\ {1\begin{array}{*{20}{c}} {}&{\begin{array}{*{20}{c}} {{r_i}(t) < f({u_{ij}}(t))}&{} \end{array}} \end{array}} \end{array}} \right. $$

(8)

其中非线性函数为sigmoid函数：

$$ f({u_{ij}}(t)) = \frac{1}{{1 + {{\rm{e}}^{-{u_{ij}}(t)}}}} $$

式中，x_ij(t)表示粒子i在时间t第j个位置；u_ij(t)为对应速度；r_ij(t)为(0, 1)之间随机数。其中u_ij(t)要设定一个上下限，保证f(u_ij(t))值不能太靠近0或1。

2.3. 算法流程

算法的基本流程如下。

1) 在S₂层和C₃层间用全连接方式的情况下，用PSO优化参数。

① 初始粒子群相关参数；根据式(3)、式(4)初始化各粒子参数变量速度及位置，其中式(4)中的G表示按照经验值初始化卷积神经网络时的网络权值向量，由卷积核、连接层权值及偏置等参数组成；把位置转换成网络参数形式，并把均方差作为适应度值。

② 对所有粒子执行如下操作：

a. 根据式(5)和式(6)更新粒子的速度和位置；

b. 计算粒子适应度，若得到的适应度值优于个体极值，则将个体极值位置向量设成当前位置向量；

c. 若粒子适应度优于全局最优，就把全局最优位置设成当前位置；

d. 如果满足停止条件，全局极值位置即为所求变量值，并停止搜索；否则，返回步骤②继续搜索；

2) 用D-PSO优化特征图连接结构。

① 初始化D-PSO相关参数；根据式(3)随机初始化速度和由式(7)初始化位置；对每个粒子，将粒子的位置变量转换成特征图连接结构的形式，计算粒子的适应度值。

② 对所有粒子执行如下操作：

a. 根据式(5)和式(8)更新粒子的速度和位置；

b. 计算适应度，若得到的适应度优于个体最优值，就将个体最优值位置设成当前位置；

c. 若粒子适应度优于全局最优值，就将全局最优值位置设成当前位置；

d. 如果达到停止要求，立即停止循环，全局极值位置为所求变量值；否则，返回步骤②继续搜索。

3) 先将PSO寻得的全局最优位置转换为网络权值的形式初始化卷积神经网络参数，在此基础之上再用D-PSO寻得的全局最优位置转换为特征图的连接结构，最后用BP算法微调混合PSO训练后的网络参数。

4. 结束语

基于混合PSO的卷积神经网络训练方法与其他方法相比提高了训练效率，并在训练时间接近时，网络识别率得到提高；达到同样的识别效果，本文方法收敛需要的训练次数较少。因此本文方法加速了误差收敛，只需少量次数迭代训练网络就能达到甚至优于其他传统方法的识别效果。虽然优化结构和参数时增加了训练复杂度，但经优化后的网络提高了信息处理效率，因此比较适合识别大规模数据。

参考文献 (15)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

混合PSO优化卷积神经网络结构和参数

doi: 10.3969/j.issn.1001-0548.2018.02.011

作者简介:
唐贤伦(1977-), 男, 博士, 教授, 主要从事计算机智能方面的研究

Optimizing Structure and Parameters of Convolutional Neural Networks Using Hybrid PSO

计量

混合PSO优化卷积神经网络结构和参数

doi: 10.3969/j.issn.1001-0548.2018.02.011

重庆邮电大学工业物联网与网络化控制教育部重点实验室重庆南岸区 400065

作者简介:
唐贤伦(1977-), 男, 博士, 教授, 主要从事计算机智能方面的研究

English Abstract

Optimizing Structure and Parameters of Convolutional Neural Networks Using Hybrid PSO

Key Laboratory of Industrial Internet of Things & Networked Control, Ministry of Education, Chongqing University of Posts and Telecommunications Nan'an Chongqing 400065

全文HTML

2.1. 粒子群优化算法

2.2. 离散粒子群优化算法

2.3. 算法流程

3.1. MNIST实验

3.1.1. 不同激活函数的网络速度及识别率对比

3.1.2. 不同连接结构的网络识别率对比

3.1.3. 不同训练方法的识别率对比

3.1.4. 与其他方法识别结果对比

3.2. CIFAR-10实验

目录

期刊在线

编辑办公

友情链接

留言板

混合PSO优化卷积神经网络结构和参数

doi: 10.3969/j.issn.1001-0548.2018.02.011

作者简介: 唐贤伦(1977-), 男, 博士, 教授, 主要从事计算机智能方面的研究

Optimizing Structure and Parameters of Convolutional Neural Networks Using Hybrid PSO

计量

出版历程

混合PSO优化卷积神经网络结构和参数

doi: 10.3969/j.issn.1001-0548.2018.02.011

重庆邮电大学工业物联网与网络化控制教育部重点实验室 重庆 南岸区 400065

作者简介: 唐贤伦(1977-), 男, 博士, 教授, 主要从事计算机智能方面的研究

English Abstract

Optimizing Structure and Parameters of Convolutional Neural Networks Using Hybrid PSO

Key Laboratory of Industrial Internet of Things & Networked Control, Ministry of Education, Chongqing University of Posts and Telecommunications Nan'an Chongqing 400065

全文HTML

2.1. 粒子群优化算法

2.2. 离散粒子群优化算法

2.3. 算法流程

3.1. MNIST实验

3.1.1. 不同激活函数的网络速度及识别率对比

3.1.2. 不同连接结构的网络识别率对比

3.1.3. 不同训练方法的识别率对比

3.1.4. 与其他方法识别结果对比

3.2. CIFAR-10实验

目录

期刊在线

编辑办公

友情链接

作者简介:
唐贤伦(1977-), 男, 博士, 教授, 主要从事计算机智能方面的研究

重庆邮电大学工业物联网与网络化控制教育部重点实验室重庆南岸区 400065

作者简介:
唐贤伦(1977-), 男, 博士, 教授, 主要从事计算机智能方面的研究