-
复杂环境下数据采集条件恶劣,训练样本往往带有大量噪声,且分布密度低。这导致神经网络建模极易发生过拟合。通常认为,复杂模型和样本噪声是导致神经网络过拟合的主要原因,因此在经典算法中,限制模型复杂度及滤除噪声,是防止过拟合的主要手段。
从限制模型复杂度的观点出发,及早停止法是一种常用的防止过拟合方法。它常和交叉验证法结合,广泛应用于河流和大气等复杂系统的建模[1-3]。然而该方法训练效率较低,且很难适用于在线建模。模型选择法是另一种基于限制神经网络复杂程度来克服过拟合的有效方法。通过设定模型选择标准,如AIC(Akaike Information Criterion)[4-5]和BIC(Bayesian Information Criteria)[6-7]标准,这类方法可以有效地抑制训练误差的减小程度,进而保证神经网络的泛化能力。但研究表明,只有当训练样本密度足够高时,选择法才能同时保证模型的泛化能力和精度。这成为模型选择法在很多实际应用中效果不佳的主要原因。
从噪声引起过拟合的观点出发,去除或限制样本噪声成为防止过拟合的另一种重要手段,如主成分分析(Principle Component Analysis)[8-9]、再生核算子[10-11]等。然而这类方法在去除噪声时,常容易滤除信号自身的细节,而导致模型精度下降。
正则化技术是一种通过保证神经网络输出光滑性,防止过拟合的方法。在该项技术中,准则函数由正则项和误差项组成。由于正则项的存在,神经网络训练可以缓和插值误差的减小程度,提高神经网络的泛化能力[12-13]。正则化技术便于操作,样本数据利用效率高、防止过拟合效果显著,因此得到广泛的应用[14]。但正则项的选取依赖于噪声特性,而该特性往往会随着时间发生变化,这大大降低了正则化技术对噪声的鲁棒性。
从上面的分析可知,尽管经典防止过拟合技术可以提高神经网络建模的泛化能力,但常存在计算复杂、样本密度要求高、数据利用效率低、对噪声变化缺乏鲁棒性等问题,难以适用于复杂系统建模。为此本文将小波神经网络作为基础,引入一种新的准则函数,并提出一种输入和输出层权值相分离的训练算法。理论和实验表明该算法具有良好的泛化能力和全局收敛性。
-
本算法采用跟文献[15]中相同的小波神经网络结构。为便于论述本文算法,本节将简单描述该神经网络的特性。关于其更为详细内容,可以参见文献[15]。
本算法针对三层结构的小波神经网络,其以小波父函数(尺度函数)
$\phi (x)$ 作为激励函数,结构如图1所示,其中${\{{c_k}\}_{k \in \mathbb{Z}}}$ 表示输出层权值,${{\text{2}}^j}$ 表示输入层权值,${\{ k\} _{k \in \mathbb{Z}}}$ 表示阈值,这里$ j \in \mathbb{Z} $ (见文献[15])。神经网络解析表达可以写为:$$ {f_{ne}}(x) = \sum\limits_{k = N}^M {{c_k}\phi ({2^j}x - k)} = \sum\limits_{k = N}^M {{c_k}{\phi _{j,k}}(x)} $$ (1) 将单维尺度函数替换成多维尺度函数,式(1)所示单维小波网络可以拓展为多维小波网络[15-16]。如果令
$\{ {c_{\boldsymbol k}}\} = {\{ {c_{{k_1}, \cdots ,{k_d}}}\} _{{k_1}, \cdots ,{k_d} \in \mathbb{Z}}}$ ,$\boldsymbol M = [{M_1}, \cdots ,{M_d}]$ ,$\boldsymbol N = [{N_1}, \cdots ,{N_d}]$ ,$\boldsymbol k = [{k_1}, \cdots ,{k_d}]$ ,$\boldsymbol x = [{x_1}, \cdots ,{x_d}]$ ,$\boldsymbol j = [{j_1}, \cdots , {j_d}]$ ,${2^{\boldsymbol j}} = [{2^{{j_1}}}, \cdots ,{2^{{j_d}}}]$ ,那么多维小波网络可以表述为:$$ \begin{split} &\qquad\qquad\qquad {f_{ne}}(\boldsymbol x) = \sum\limits_{\boldsymbol k = \boldsymbol N}^{\boldsymbol M} {{c_{\boldsymbol k}}\phi ({2^{\boldsymbol j}} \circ \boldsymbol x - \boldsymbol k)} = \\ & \sum\limits_{{k_d} = {N_d}}^{{M_d}} { \cdots \sum\limits_{{k_1} = {N_1}}^{{M_1}} {{c_{{k_1}, \cdots ,{k_d}}}\phi ({2^{{j_{\text{1}}}}}{x_{\text{1}}} - {k_{\text{1}}}, \cdots ,{2^{{j_d}}}{x_d} - {k_d})} } = \\ & \sum\limits_{{k_1} = {N_d}}^{{M_d}} { \cdots \sum\limits_{{k_d} = {N_1}}^{{M_1}} {{c_{{k_1}, \cdots ,{k_d}}}\phi ({2^{{j_1}}}{x_1} - {k_1}) \times \cdots \times \phi ({2^{{j_d}}}{x_d} - {k_d})} } \end{split} $$ (2) 式中,
${2^{\boldsymbol j}} \circ \boldsymbol x{\text{ = [}}{2^{{j_{\text{1}}}}}{x_{\text{1}}}, \cdots ,{2^{{j_d}}}{x_d}]$ 表示向量${2^{\boldsymbol j}}$ 和向量$\boldsymbol x$ 之间的点积;${2^{{j_d}}}$ 表示神经网络在${x_d}$ 方向上的输入层权值。此外$\phi ({2^{\boldsymbol j}} \circ \boldsymbol x - \boldsymbol k){\text{ = }}\phi ({2^{{j_{\text{1}}}}}{x_{\text{1}}} - {k_{\text{1}}}, \cdots ,{2^{{j_d}}}{x_d} - {k_d})= $ $\phi ({2^{{j_1}}}{x_1} - {k_1}) \times \cdots \times \phi ({2^{{j_d}}}{x_d} - {k_d}) $ 表示由张量积生成的多维尺度函数[15-16]。 -
为简便起见,首先讨论一维(单输入)情况下的算法,然后再扩展到高维。由小波采样理论可知,插值尺度函数
$ {\{ S_{{\boldsymbol{j}},{\boldsymbol{k}}}^\phi ({{x}})\} _{{\boldsymbol{k}} \in \mathbb{Z}}} $ 和单位正交尺度函数$ \{ {\theta _{{\boldsymbol{j}},{\boldsymbol{k}}}}({{x}})\} $ 之间存在一一映射,即:$$ {S^\phi }({2^j}x) = \sum\limits_{k = - \infty }^{ + \infty } {{\lambda _k}\theta ({2^j}x - k)} $$ (4) 式中,
${\{ {\lambda _k}\} _{k \in \mathbb{Z}}} \in {l^2}(\mathbb{Z})$ ;$ {\theta _{j,k}}(x) = \theta ({2^j}x - k) $ 。设
${f_s}(x) \in {V_j}$ 为建模对象函数,${V_j}$ 表示$ {\{ {\phi _{j,k}}(x)\} _{k \in \mathbb{Z}}} $ 张成的尺度函数空间。令${\boldsymbol{Q}}{\text{ = [}}{\lambda _{k - n}}{{\text{]}}_{k \times n}} $ 表示在第$k$ 行、第$n$ 列、以${\lambda _{k - n}}$ 为元素的矩阵,那么基于式(3),构建准则函数:$$\begin{split} &{F_C}({f_s},{f_{ne}}){{ = (}}{{\boldsymbol{F}}_s} - {{\boldsymbol{F}}_{ne}}{{{)}}^{\rm{T}}}{{\boldsymbol{Q}}^{\rm{T}}}{\boldsymbol{Q}}{{(}}{{\boldsymbol{F}}_s} - {{\boldsymbol{F}}_{ne}}{{)}} = \\ &\qquad{{ (}}{{\boldsymbol{F}}_s} - {{\boldsymbol{F}}_{ne}}{{{)}}^{\rm{T}}}{\boldsymbol{\varLambda}} {{(}}{{\boldsymbol{F}}_s} - {{\boldsymbol{F}}_{ne}}{{)}} \end{split} $$ (6) 式中,
${{\boldsymbol{F}}_s}$ ,${{\boldsymbol{F}}_{ne}}$ 分别表示以${\{ {f_s}(k \cdot T)\} _{k \in \mathbb{Z}}}$ ,${\{ {f_{ne}}(k \cdot T)\} _{k \in \mathbb{Z}}}$ 为元素的向量,而矩阵${\boldsymbol{\varLambda }}$ 表示为:$$ {\boldsymbol{\varLambda}} = {{\boldsymbol{Q}}^{\rm{T}}}{\boldsymbol{Q}} $$ (7) 显然式(3)表明序列
${\{ {\lambda _k}\} _{k \in \mathbb{Z}}}$ 可以构成Riesz基$ {\{ S_{j,k}^\phi (x)\} _{k \in \mathbb{Z}}} $ 和$ \{ {\theta _{j,k}}(x)\} $ 的可逆性。基于此,这里引入以下定理。定理1 式(5)中
${\boldsymbol{\varLambda}} $ 为正定阵证明:令:
$$ {{\boldsymbol{F}}_{s,\lambda }} = {\boldsymbol{Q}}{{\boldsymbol{F}}_s} $$ (8) 显然对于任何
${{\boldsymbol{F}}_s} \in {l^2}(\mathbb{Z})$ ,总存在唯一${{\boldsymbol{F}}_{s,\lambda }} \in {l^2}(\mathbb{Z})$ 。下面说明任何${{\boldsymbol{F}}_{s,\lambda }} \in {l^2}(\mathbb{Z})$ 对应的${{\boldsymbol{F}}_s} \in {l^2}(\mathbb{Z})$ 也是唯一。假设$ {f_{s,\lambda }}(n \cdot T) $ 表示$ {{\boldsymbol{F}}_{s,\lambda }} $ 中第$n$ 个元素(这里$T$ 表示对${f_s}(x)$ 的采样间隔),那么由式(3)和式(6)可得:$$ \begin{split} & \sum\limits_{n = - \infty }^{ + \infty } {{f_{s,\lambda }}(n \cdot T)\theta (x - n)} = \sum\limits_{n = - \infty }^{ + \infty } {\sum\limits_{m = - \infty }^{ + \infty } {{\lambda _{n - m}}{f_s}(m \cdot T)\theta (x - n)} } = \\ &\qquad\qquad\qquad\quad \sum\limits_{m = - \infty }^{ + \infty } {{f_s}(m \cdot T){S^\phi }(x - m)} \end{split} $$ (9) 由于
$ {\{ \theta (x - n)\} _{n \in \mathbb{Z}}} $ 和$ {\{ {S^\phi }(x - m)\} _{m \in \mathbb{Z}}} $ 都构成${V_0}$ 的Riesz基(这里${V_0}$ 是${\{ \phi (x - k)\} _{k \in \mathbb{Z}}}$ 张成的空间),因此对于任何$ {\{ {f_s}(m \cdot T)\} _{m \in \mathbb{Z}}} $ $ \in {l^2}(\mathbb{Z}) $ ,使得式(8)成立的${\{ {f_{s,\lambda }}(n \cdot T)\} _{n \in \mathbb{Z}}} \in $ ${l^2}(\mathbb{Z})$ 都是唯一的。这反过来意味着对于任何${\{ {f_{s,\lambda }}(n \cdot T)\} _{n \in \mathbb{Z}}} \in {l^2}(\mathbb{Z})$ ,只存在唯一的$ {\{ {f_s}(m \cdot T)\} _{m \in \mathbb{Z}}} $ $ \in {l^2}(\mathbb{Z}) $ 使得式(7)成立,因而从${\{ {f_s}(m \cdot T)\} _{m \in \mathbb{Z}}}$ 到${\{ {f_{s,\lambda }}(n \cdot T)\} _{n \in \mathbb{Z}}}$ 的映射,具有可逆性。因为式(6)是可逆映射,所以矩阵
$ {\boldsymbol{Q}} $ 必为可逆矩阵。式(6)意味着:$$ {{\boldsymbol{F}}_{s,\lambda }} = {\bf{0}} 当且仅当 {{\boldsymbol{F}}_s} = {\bf{0}} $$ (10) 由式(6)和(8)可知,当
$ {{\boldsymbol{F}}_s} \ne {\bf{0}} $ 时:$$ {\boldsymbol{F}}_s^{\rm{T}}{\boldsymbol{\varLambda}} {{\boldsymbol{F}}_s} = {\boldsymbol{F}}_s^{\rm{T}}{{\boldsymbol{Q}}^{\rm{T}}}{\boldsymbol{Q}}{{\boldsymbol{F}}_s} = {\boldsymbol{F}}_{s,\lambda }^{\rm{T}}{{\boldsymbol{F}}_{s,\lambda }} \gt 0 $$ (11) 即
${\boldsymbol{\varLambda }}$ 为正定阵。证毕。显然对于
${{\boldsymbol{F}}_s}$ ,${{\boldsymbol{F}}_{ne}} \in {l^2}(\mathbb{R})$ ,当${\boldsymbol{\varLambda}} $ 为正定阵时,式(4)可以有效衡量$ {f_s}(x) $ 和$ {f_{ne}}(x) $ 之间的距离平方。为此这里提出用式(4)作为算法的准则函数。 -
由小波理论及式(3)可知,小波网络输入层的权值
${2^j}$ 决定了逼近空间,而输出层权值$ {\{ {c_{j,k}}\} _{k \in \mathbb{Z}}} $ 对应函数(被建模对象)在逼近空间中的坐标。基于这种特点及式(4)所示准则函数,这里提出一种新的神经网络训练算法。在该算法中,将依据训练样本分布确定输入权值$ {2^J} $ ,而基于样本误差确定输出层权值。考虑一维均匀分布的样本集合
${\left\{ {k \cdot T,{f_s}(k \cdot T)} \right\}_{k \in \mathbb{Z}}}$ ,这里$T$ 表示输入值之间的间隔,$k \cdot T$ 表示第$k$ 个输入值,${f_s}(k \cdot T)$ 表示第$k$ 个输出值。同时基于归一技术,这里假设存在$J \in \mathbb{Z}$ ,使得:$$ {2^J} = \frac{1}{T} $$ (12) 此时由小波采样理论可知,如果
${f_s}(x) \in {V_J}$ (这里${V_J}$ 表示$ {\{ {\phi _{J,k}}(x)\} _{k \in \mathbb{Z}}} $ 张成的函数空间),总有下式成立:$$ {f_s}(x) = \sum\limits_{k = - \infty }^{ + \infty } {{f_s}(k \cdot T)} {S^\phi }({2^J}x - k) $$ (13) 这里
${f_s}(x)$ 表示被建模对象的函数形式,${S^\phi }(x)$ 表示插值尺度函数。因为
${\{ {S^\phi }({2^J}x - k)\} _{k \in \mathbb{Z}}}$ 和${\{ \phi ({2^J}x - k)\} _{k \in \mathbb{Z}}}$ 同时构成Riesz基,因此式(12)意味着存在唯一的系数${\{ c_{J,k}^0\} _{k \in \mathbb{Z}}}$ ,使得:$$ {f_s}(x) = \sum\limits_{n = - \infty }^{ + \infty } {c_{J,n}^0\phi ({2^J}x - n)} $$ (14) 式(12)表明如果利用
$ \phi (x) $ 作为激励函数,那么输入层权值为${2^j} = {2^J}$ 的小波网络$ {f_{ne}}(x) $ ,具有足够的逼近能力,建立${f_s}(x) \in {V_J}$ 的数学模型,这里$J$ 由式(10)确定。为此,本算法的输入层权值${2^j}$ 将由采样间隔$T$ 确定,即输入层权值$ {2^j} $ 满足条件:$$ {2^j} = {2^{J - q}} \leqslant {2^J} = 1/T $$ (15) 式中,
$q = J - j$ 。 -
当输入层权值
${2^j}$ 确定后,由式(1)可知,在样本位置上的神经网络输出,可以表示为:$$ {{\boldsymbol{F}}_{ne}} = {\boldsymbol{\varPhi}} {\boldsymbol{C}} $$ (16) 式中,
$ {\boldsymbol{\varPhi}} = {\left[ {{\phi _{j,m}}(n \cdot T)} \right]_{n,m}} $ ;$T$ 表示样本间隔。基于式(14),神经网络训练可以表述为以下迭代过程:$$ \left\{ \begin{gathered} {{\boldsymbol{E}}^{(k + 1)}} = {{\boldsymbol{F}}_s} - {\boldsymbol{\varPhi}} {{\boldsymbol{C}}^{(k + 1)}} \\ {{\boldsymbol{C}}^{(k + 1)}} = {{\boldsymbol{C}}^{(k)}} + {{\boldsymbol{A}}_f}{{\boldsymbol{E}}^{(k)}} \\ \end{gathered} \right. $$ (17) 式中,向量
$ {{\boldsymbol{E}}^{(k)}} $ 和$ {{\boldsymbol{C}}^{(k)}} $ 分别表示第$k$ 步的插值误差和输出层权值;矩阵$ {{\boldsymbol{A}}_f} $ 表示误差反馈系数。事实上,当式(13)成立时,$ {{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda \varPhi}} $ 为可逆矩阵[17]。因此这里可以得到以下收敛算法。定理 2 设
$ {\lambda _A} $ 为满足$ |1 - {\lambda _A}| \lt 1 $ 的常数,那么选取反馈矩阵为${{\boldsymbol{A}}_f} = {\lambda _A}{({{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda \varPhi}} )^{ - 1}}{{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda}} $ 时,输出层权值$C$ 总可以通过式(15),收敛到:$$ {{\boldsymbol{C}}^0} = {({{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda \varPhi}} )^{ - 1}}{{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda}} {{\boldsymbol{F}}_s} $$ (20) 并且在收敛点
$ {C^0} $ 上,准则函数式(4)减为最小。证明:将
$ {{\boldsymbol{E}}^{(k + 1)}} = {{\boldsymbol{F}}_s} - {\boldsymbol{\varPhi}} {{\boldsymbol{C}}^{(k + 1)}} $ 代入$ {{\boldsymbol{C}}^{(k + 1)}} = {{\boldsymbol{C}}^{(k)}} + {{\boldsymbol{A}}_f}{{\boldsymbol{E}}^{(k)}} $ ,可得:$$ {{\boldsymbol{C}}^{(k + 1)}} = ({\boldsymbol{I}} - {{\boldsymbol{A}}_f}{\boldsymbol{\varPhi}} ){{\boldsymbol{C}}^{(k)}} + {{\boldsymbol{A}}_f}{{\boldsymbol{F}}_s} $$ (21) 简化可得:
$$ {{\boldsymbol{C}}^{(k + 1)}} = \left( {{\boldsymbol{I}} - {\lambda _A}} \right){{\boldsymbol{C}}^{(k)}} + {\lambda _A}{({{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda \varPhi}} )^{ - 1}}{{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda}} {{\boldsymbol{F}}_s} $$ (22) 设定
${{\boldsymbol{B}}^{(k)}} \in {l^2}(\mathbb{Z})$ 为另一迭代过程(跟${{\boldsymbol{C}}^{(k)}}$ 迭代过程的初始值不同),在第$k$ 步的输出层权值为:$$ {{\boldsymbol{B}}^{(k + 1)}} = \left( {I - {\lambda _A}} \right){{\boldsymbol{B}}^{(k)}} + {\lambda _A}{\left( {{{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda \varPhi}} } \right)^{ - 1}}{{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda}} {{\boldsymbol{F}}_s} $$ (23) 那么由式(18)和式(19)可得:
$$ {\left\| {{{\boldsymbol{C}}^{(k + 1)}} - {{\boldsymbol{B}}^{(k + 1)}}} \right\|_{{l^2}}} = \left| {1 - {\lambda _A}} \right| {\left\| {{{\boldsymbol{C}}^{(k)}} - {{\boldsymbol{B}}^{(k)}}} \right\|_{{l^2}}} $$ (24) 式中,
$|| \cdot |{|_{{l^2}}}$ 表示${l^2}(\mathbb{Z})$ 空间的范数。式(20)意味着当$ |1 - {\lambda _A}| \lt 1 $ 时,有:$$ {\left\| {{{\boldsymbol{C}}^{(k + 1)}} - {{\boldsymbol{B}}^{(k + 1)}}} \right\|_{{l^2}}} \lt {\left\| {{{\boldsymbol{C}}^{(k)}} - {{\boldsymbol{B}}^{(k)}}} \right\|_{{l^2}}} $$ (25) 这意味着式(18)为压缩映射。因此根据压缩映射定理,式(18)将收敛于唯一的固定点
${{\boldsymbol{C}}^o}$ 。固定点${{\boldsymbol{C}}^o}$ 满足:$$ {{\boldsymbol{C}}^o} = (I - {{\boldsymbol{A}}_f}{\boldsymbol{\varPhi}} ){{\boldsymbol{C}}^o} + {{\boldsymbol{A}}_f}{{\boldsymbol{F}}_s} $$ (26) 可解得式(16)。
另一方面,由式(4)可知:
$$ \left\{ \begin{gathered} \frac{{\partial {{\boldsymbol{F}}_{\boldsymbol{C}}}}}{{\partial {\boldsymbol{C}}}} = 4 \left( {{{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda \varPhi C}} - {{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda}} {{\boldsymbol{F}}_s}} \right) \\ \frac{{{\partial ^2}{{\boldsymbol{F}}_{\boldsymbol{C}}}}}{{\partial {{\boldsymbol{C}}^2}}} = 4 {{\boldsymbol{\varPhi }}^{\rm{T}}}{\boldsymbol{\varLambda \varPhi}} \\ \end{gathered} \right. $$ (27) 将
$ {{\boldsymbol{C}}^0}{\text{ = }}{\left( {{{\boldsymbol{\varPhi}} ^{\rm{T}}}{\boldsymbol{\varLambda \varPhi }}} \right)^{ - 1}}{{\boldsymbol{\varPhi }}^{\rm{T}}}{\boldsymbol{\varLambda}} {{\boldsymbol{F}}_s} $ 代入式(23),可得:$$ \frac{{\partial {{\boldsymbol{F}}_{\boldsymbol{C}}}}}{{\partial {\boldsymbol{C}}}} = 0 $$ (28) 因为
$ {\boldsymbol{\varLambda}} $ 为正定阵,因此矩阵$ {{\boldsymbol{\varPhi }}^{\rm{T}}}{\boldsymbol{\varLambda \varPhi}} $ 主对角线上的元素为正,因此式(24)意味着$ {{\boldsymbol{C}}^0} $ 为准则函数$ {{\boldsymbol{F}}_C}({f_s},{f_{ne}}) $ 的最小值点。证毕。定理2意味着无论如何选择输出层权值的初始值,只要按照式(13)确定输入层权值,并依据式(16)确定反馈系数,那么式(15)总可以收敛到固定点
$ {{\boldsymbol{C}}^0} $ ,在该点上插值误差减为最小。这表明本文提出的算法具有全局收敛性。 -
因为多维尺度函数由单维尺度函数通过张量积生成,所以单维小波神经网络的性质,很容易拓展到多维的情况。设定
${{\boldsymbol F}_s} $ ,${{\boldsymbol F}_{ne}} $ 分别表示多维样本以及多维小波网络在样本位置的输出:$$ \begin{split} &\quad {{\boldsymbol F}_s} = [{f_s}({T_1},{T_2}, \cdots ,{T_d}),{f_s}(2{T_1},{T_2}, \cdots ,{T_d}), \\ & \cdots ,{f_s}(n{T_1},{T_2}, \cdots ,{T_d}),{f_s}(n{T_1},2{T_2}, \cdots ,{T_d}), \cdots , \\ & {f_s}(n{T_1},n{T_2}, \cdots ,{T_d}), \cdots ,{f_s}(n{T_1}, \cdots ,n{T_{d - 1}},2{T_d}), \\ &\qquad\qquad \cdots ,{f_s}(n{T_1}, \cdots ,n{T_{d - 1}},n{T_d}){]^{\rm{T}}} \end{split} $$ (29) $$ \begin{split} &\qquad {{\boldsymbol F}_{ne}} = [{f_{ne}}({T_1},{T_2}, \cdots ,{T_d}),{f_{ne}}(2{T_1},{T_2}, \cdots ,{T_d}), \\ &\qquad \cdots ,{f_{ne}}(n{T_1},{T_2}, \cdots ,{T_d}),{f_{ne}}(n{T_1},2{T_2}, \cdots ,{T_d}), \\ & \cdots ,{f_{ne}}(n{T_1},n{T_2}, \cdots ,{T_d}), \cdots ,{f_{ne}}(n{T_1}, \cdots ,n{T_{d - 1}},2{T_d}), \\ &\qquad\qquad\quad \cdots ,{f_{ne}}(n{T_1}, \cdots ,n{T_{d - 1}},n{T_d}){]^{\rm{T}}} \end{split} $$ (30) 由张量积性质可知,式(2)所示多维小波神经网络的输出
$ {\boldsymbol F_{ne}} $ 可以表示成:$$ {\boldsymbol F_{ne}} = {{\boldsymbol{\varPhi }}_1} \otimes \cdots \otimes {{\boldsymbol{\varPhi }}_i} \otimes \cdots \otimes {{\boldsymbol{\varPhi }}_d}\boldsymbol C = {{\boldsymbol{\varPhi }}}\boldsymbol C $$ (31) 式中,
$ {{\boldsymbol{\varPhi }}_i} $ 表示在${x_i}$ 方向上的矩阵$ {\boldsymbol{\varPhi }}$ ;$ \otimes $ 表示矩阵Kronecker积,而:$$ {{\boldsymbol{\varPhi }}}= {{\boldsymbol{\varPhi }}_1} \otimes \cdots \otimes {{\boldsymbol{\varPhi }}_i} \otimes \cdots \otimes {{\boldsymbol{\varPhi }}_d} $$ (32) 跟式(3)相似,在多维情况下,有:
$$ {S^\phi }({2^{\boldsymbol j}} \circ \boldsymbol x) = \sum\limits_{\boldsymbol k = - \infty }^{ + \infty } {{\lambda _{\boldsymbol k}}\theta ({2^{\boldsymbol j}} \circ \boldsymbol x - \boldsymbol k)} $$ (33) 式中,
$ \theta ({2^{\boldsymbol j}} \circ \boldsymbol x - \boldsymbol k) = \theta ({2^{{j_1}}}{x_1} - {k_1}{\text{)}} \times \cdots \times \theta {\text{(}}{{\text{2}}^{{j_d}}}{x_d} - {k_d}{\text{)}} $ ;$ {S^\phi }({2^{\boldsymbol j}} \circ \boldsymbol x) = $ $ {S^\phi }({2^{{j_1}}}{x_1}) \times \cdots {S^\phi }({2^{{j_d}}}{x_d}) $ 。由${L^2}({\mathbb{R}^d})$ 空间内积算子性质可得式(29)中$ {\lambda _{\boldsymbol k}} = {\lambda _{{k_1}}} \times \cdots \times {\lambda _{{k_d}}} $ ,这里$ {\{ {\lambda _{{k_i}}}\} _{{k_i} \in \mathbb{Z}}} $ 表示在${x_i}$ 方向上的系数${\{ {\lambda _k}\} _{k \in \mathbb{Z}}}$ ,即当${k_i} = k$ 时,$ {\lambda _{{k_i}}} = {\lambda _k} $ 。令
$ {{\boldsymbol{Q}}_i} = {{\text{[}}{\lambda _{{n_i} - {k_i}}}{\text{]}}_{{n_i},{k_i}}} $ 表示在$({k_i},{n_i})$ 位置上的矩阵,这里${k_i},{n_i} \in \mathbb{Z}$ 。显然$ {{\boldsymbol{Q}}_i} $ 对应于在${x_i}$ 方向上的$Q$ 矩阵。基于$ {Q_i} $ 构建矩阵:$$ \boldsymbol Q{\text{ = }}{{\boldsymbol{Q}}_1} \otimes \cdots \otimes {{\boldsymbol{Q}}_i} \otimes \cdots \otimes {{\boldsymbol{Q}}_d} $$ (34) 那么由矩阵Kronecker积的性质可得:
$$ \boldsymbol {\varLambda }= {\boldsymbol Q^{\rm{T}}}\boldsymbol Q = {{\boldsymbol{\varLambda }} _1} \otimes \cdots \otimes {{\boldsymbol{\varLambda }} _i} \otimes \cdots \otimes {{\boldsymbol{\varLambda }} _d} $$ (35) $$ {{\boldsymbol{\varLambda }} _i} = {\boldsymbol{Q}}_i^{\rm{T}}{{\boldsymbol{Q}}_i} \;\;\;\; i \in \mathbb{Z} $$ (36) 令
${2^{\boldsymbol j}} = [{2^{{j_1}}}, \cdots ,{2^{{j_i}}}, \cdots ,{2^{{j_d}}}]$ 表示多维情况下的输入层权值,其中${2^{{j_i}}}$ 表示在${x_i}$ 方向上输入层权值的分量。由定理1可知,当${2^{{j_i}}}$ 满足式(13)时,即:$$ {2^{{j_i}}} \leqslant 1/{T_i} $$ (37) 式(31)中
$ {{\boldsymbol{\varLambda }} _i} $ 为正定阵。如果对应于每个${x_i}$ 方向上的$ {{\boldsymbol{\varLambda }} _i} $ 都为正定阵,那么根据Kronecker积的性质,意味着$ {{\boldsymbol{\varLambda }} }$ 也为正定阵。与式(4)相似,这里设定多维准则函数为:
$$ {{\boldsymbol{F}}_C}({f_s},{f_{ne}}) = ({{\boldsymbol F}_s} - {{\boldsymbol F}_{ne}})_s^{\rm{T}}{{{\boldsymbol{\varLambda }}}} ({{\boldsymbol F}_s} - {{\boldsymbol F}_{{ne}_s}}) = \left\| {{{\boldsymbol F}_s} - {{\boldsymbol F}_{ne}}} \right\|_{{{\boldsymbol{\varLambda }} }}^2 $$ (38) -
与式(16)相类似,在多维情况下,当输入层权值确定后,输出层权值训练过程可以表示为:
$$ \left\{ \begin{gathered} {{\boldsymbol E}^{(k + 1)}} = {{\boldsymbol F}_s} - {\boldsymbol \varPhi} {{\boldsymbol C}^{(k + 1)}} \\ {{\boldsymbol C}^{(k + 1)}} = {{\boldsymbol C}^{(k)}} + {{\boldsymbol A}_f}{{\boldsymbol{E}}^{(k)}} \\ \end{gathered} \right. $$ (39) 式中,
$ {\boldsymbol E^{(k)}} $ ,$ {\boldsymbol C^{(k)}} $ 和$ {\boldsymbol A_f} $ 分别表示神经网络在第$k$ 步的插值误差、输出层权值和反馈系数矩阵。对比式(15)和(35),以及式(4)和式(34),可以发现,单维神经网络和多维神经网络的迭代过程是相似的。这意味只要
${{{{\boldsymbol{\varPhi }}}}^{\rm{T}}}{{{\boldsymbol{\varLambda }}}} {{{\boldsymbol{\varPhi }}}}$ 具有可逆性,那么在定理2的证明中,只要简单地将矩阵${\boldsymbol{\varPhi }}$ 、${{\boldsymbol{F}}_s}$ 、${{\boldsymbol{A}}_f}$ 替换成${{\boldsymbol{\varPhi }}}$ 、${\boldsymbol F_s}$ 、${\boldsymbol A_f}$ ,那么单维迭代收敛算法同样适用于多维情况。事实上,根据张量积的性质,可以获得以下推论。
推论1 矩阵
${{ {{\boldsymbol{\varPhi }}}}^T}{{{\boldsymbol{\varLambda }} }}{{{\boldsymbol{\varPhi }}}}$ 可逆的充要条件是输入层权值满足式(33)。证明:由式(27)和式(30),及矩阵性质可得:
$$\begin{split} & {\boldsymbol Q}{{{\boldsymbol{\varPhi }}}}= ({Q_1} \otimes \cdots \otimes {Q_d})({{\boldsymbol{\varPhi }}_1} \otimes \cdots \otimes {{\boldsymbol{\varPhi }}_d}) =\\ &\qquad {Q_1}{{\boldsymbol{\varPhi }}_1} \otimes \cdots \otimes {Q_d}{{\boldsymbol{\varPhi }}_d} \end{split} $$ (40) 将式(31)和式(36)代入
${{{{\boldsymbol{\varPhi }}}}^{\rm{T}}}{{{\boldsymbol{\varLambda }}}}{ {{\boldsymbol{\varPhi }}}}$ ,可得:$$\begin{split} &\qquad\quad {{{{\boldsymbol{\varPhi }}}}^{\rm{T}}}{{{\boldsymbol{\varLambda }} }}{{{\boldsymbol{\varPhi }}}}= {{{{\boldsymbol{\varPhi }}}}^{\rm{T}}}{{\boldsymbol Q}^{\rm{T}}}\boldsymbol Q{{{\boldsymbol{\varPhi }}}}= {({\boldsymbol Q}{{{\boldsymbol{\varPhi }}}})^{\rm{T}}}{\boldsymbol Q}{\boldsymbol \Phi}= \\ & ({\boldsymbol{\varPhi }}_1^{\rm{T}}{\boldsymbol{Q}}_1^{\rm{T}} \otimes \cdots \otimes {\boldsymbol{\varPhi }}_d^{\rm{T}}{\boldsymbol{Q}}_d^{\rm{T}})({{\boldsymbol{Q}}_1}{{\boldsymbol{\varPhi }}_1} \otimes \cdots \otimes {{\boldsymbol{Q}}_d}{{\boldsymbol{\varPhi }}_d}) = \\ & {\boldsymbol{\varPhi }}_1^{\rm{T}}{{\boldsymbol{\varLambda }} _1}{{\boldsymbol{\varPhi }}_1} \otimes \cdots \otimes {\boldsymbol{\varPhi }}_i^{\rm{T}}{{\boldsymbol{\varLambda }} _i}{{\boldsymbol{\varPhi }}_i} \otimes \cdots \otimes {\boldsymbol{\varPhi }}_d^{\rm{T}}{{\boldsymbol{\varLambda }} _d}{{\boldsymbol{\varPhi }}_d} \end{split} $$ (41) 式(37)和矩阵Kronecker积的性质意味着
$ {{{{\boldsymbol{\varPhi }}}}^{\rm{T}}}{{{\boldsymbol{\varLambda }} }}{{{\boldsymbol{\varPhi }}}}$ 可逆,当且仅当$ {\boldsymbol{\varPhi }}_i^{\rm{T}}{{\boldsymbol{\varLambda }} _i}{{\boldsymbol{\varPhi }}_i} $ 可逆。由文献[16]可知,当${{\boldsymbol{\varLambda }} _i}$ 为正定阵时,$ {\boldsymbol{\varPhi }}_i^{\rm{T}}{{\boldsymbol{\varLambda }} _i}{{\boldsymbol{\varPhi }}_i} $ 可逆的充要条件为式(33)成立,因此推论1成立。证毕。推论1意味着如果按式(33)选择输入层权值,那么
${{\boldsymbol \Phi} ^{\rm{T}}}{{{\boldsymbol{\varLambda }} }}{{{\boldsymbol{\varPhi }}}}$ 为可逆矩阵。跟单维训练算法相似,如果构建矩阵${\boldsymbol A_f} = {\lambda _A}{({{{{\boldsymbol{\varPhi }}}}^{\rm{T}}}{{{\boldsymbol{\varLambda }} }}{\boldsymbol \Phi} )^{ - 1}}{{{{\boldsymbol{\varPhi }}}}^{\rm{T}}}{{{\boldsymbol{\varLambda }} }} $ 那么式(35)收敛,且在收敛值${\boldsymbol C^0} = {({{{\boldsymbol{\varPhi }}}^{\rm{T}}}{{\boldsymbol{\varLambda }} }{{\boldsymbol{\varPhi }}})^{ - 1}}{{{\boldsymbol{\varPhi }}}^{\rm{T}}}{{\boldsymbol{\varLambda }} }{\boldsymbol F_s} $ 上,使得准则函数式(34)减为最小。 -
根据小波理论,当
$ \boldsymbol j \to + \infty $ 时,式(2)中的神经网络$ {f_{ne}}(\boldsymbol x) $ 可以逼近${L^2}({\mathbb{R}^d})$ 空间中的任何元素[15]。由于$ {\{ \phi ({2^{\boldsymbol j}} \circ \boldsymbol x - \boldsymbol k)\} _{k \in \mathbb{Z}}} $ 可以构成${V_{\boldsymbol j}}$ 空间中的Riesz基,因此这里总假设对象函数${f_s}(\boldsymbol x) \in {V_{\boldsymbol j}}$ ,这里${V_{\boldsymbol j}}$ 表示由$ {\{ \phi ({2^{\boldsymbol j}} \circ \boldsymbol x - \boldsymbol k)\} _{\boldsymbol k \in {\mathbb{Z}^d}}} $ 张成的尺度函数空间。由于
${V_{\boldsymbol j}} \subset {L^2}({\mathbb{R}^d})$ ,因此这里采用${L^2}$ 范数来表示逼近误差:$$ e({{\boldsymbol{f}}_s},{{\boldsymbol{f}}_{ne}}) = \left\| {{{\boldsymbol{f}}_s} - {{\boldsymbol{f}}_{ne}}} \right\|_{{L^2}}^2 = \int_{ - \infty }^{ + \infty } {|{f_s}(\boldsymbol x) - {f_{ne}}(\boldsymbol x){|^2}{\rm{d}}\boldsymbol x} $$ (44) 式中,
$ \displaystyle\int_{ - \infty }^{ + \infty } {|f(\boldsymbol x){|^2}{\rm{d}}\boldsymbol x} = \displaystyle\int_{ - \infty }^{ + \infty } \cdots \displaystyle\int_{ - \infty }^{ + \infty } {|f({x_1}, \cdots ,{x_d}){|^2}} {\rm{d}}{x_1} \cdots {\rm{d}}{x_d} $ ;$ {\left\| \cdot \right\|_{{L^2}}} $ 表示${L^2}$ 范数范数。基于$ e({{\boldsymbol{f}}_s},{{\boldsymbol{f}}_{ne}}) $ 及准则式(34),有以下定理。定理3 当式(33)成立时,逼近误差式(38)可以表示为:
$$ e({{\boldsymbol{f}}_s},{{\boldsymbol{f}}_{ne}}) = \int_{ - \infty }^{ + \infty } {|{f_{ne}}(\boldsymbol x) - {f_s}(\boldsymbol x){|^2}{\rm{d}}\boldsymbol x} = {{\boldsymbol{F}}_C}({{\boldsymbol{f}}_s},{{\boldsymbol{f}}_{ne}}) $$ (45) 证明:当式(33)成立时,由插值基的性质可得:
$$ \begin{split} & {f_s}(\boldsymbol x) - {f_{ne}}(\boldsymbol x) = \sum\limits_{\boldsymbol k} {{f_s}(\boldsymbol k \circ \boldsymbol T){S^\phi }({2^{\boldsymbol J}} \circ \boldsymbol x - \boldsymbol k)} - \\ &\qquad \sum\limits_{\boldsymbol k} {{f_{ne}}(\boldsymbol k \circ \boldsymbol T){S^\phi }({2^{\boldsymbol J}} \circ \boldsymbol x - \boldsymbol k)} \end{split} $$ (46) 将式(29)代入式(40)可得:
$$\begin{split} &\qquad\quad {f_s}(\boldsymbol x) - {f_{ne}}(\boldsymbol x) = (\sum\limits_{\boldsymbol k} {{f_s}(\boldsymbol k \circ \boldsymbol T)} - \\ & \sum\limits_{\boldsymbol k} {{f_{ne}}(\boldsymbol k \circ \boldsymbol T)} )\sum\limits_{\boldsymbol m} {{\lambda _{\boldsymbol m}}\theta ({2^{\boldsymbol J}} \circ \boldsymbol x - \boldsymbol m - \boldsymbol k)} = \\ &\quad \sum\limits_{\boldsymbol n} {\sum\limits_{\boldsymbol k} {{f_s}(\boldsymbol k \circ \boldsymbol T){\lambda _{\boldsymbol n - \boldsymbol k}}} \theta ({2^{\boldsymbol J}} \circ \boldsymbol x - \boldsymbol n)} - \\ &\quad \sum\limits_{\boldsymbol n} {\sum\limits_{\boldsymbol k} {{f_{ne}}(\boldsymbol k \circ \boldsymbol T){\lambda _{\boldsymbol n - \boldsymbol k}}} \theta ({2^{\boldsymbol J}} \circ \boldsymbol x - \boldsymbol n)} \end{split} $$ (47) 因为
$ {\{ \theta ({2^{\boldsymbol J}} \circ \boldsymbol x - \boldsymbol n)\} _{\boldsymbol n \in {\mathbb{Z}^d}}} $ 为正交基,将式(41)代入式(38)可得:$$ \begin{split} &\qquad\qquad\qquad e({{\boldsymbol{f}}_s},{{\boldsymbol{f}}_{ne}}) = \left\| {{{\boldsymbol{f}}_s} - {{\boldsymbol{f}}_{ne}}} \right\|_{{L^2}}^2 = \\ & {\sum\limits_{\boldsymbol n} {\left| {\sum\limits_{\boldsymbol k} {{f_s}(\boldsymbol k \circ \boldsymbol T){\lambda _{\boldsymbol n - \boldsymbol k}}} - \sum\limits_{\boldsymbol k} {{f_{ne}}(\boldsymbol k \circ \boldsymbol T){\lambda _{\boldsymbol n - \boldsymbol k}}} } \right|} ^2} \end{split} $$ (48) 另一方面,将式(34)的矩阵展开,可得:
$$ {{\boldsymbol{F}}_C}({{\boldsymbol{f}}_s},{{\boldsymbol{f}}_{ne}}) = {\sum\limits_{\boldsymbol k} {\left| {\sum\limits_{\boldsymbol n} {{\lambda _{\boldsymbol k - \boldsymbol n}}\left( {{f_s}(\boldsymbol n \circ \boldsymbol T) - {f_{ne}}(\boldsymbol n \circ \boldsymbol T)} \right)} } \right|} ^2} $$ (49) 由式(42)和式(43)可得式(39)。证毕。
所谓的过拟合,就是准则函数减小,而逼近误差增大的情况。然而式(39)意味着,如果采用本文设计的准则函数,那么准则函数的减小,就等于逼近误差的减小。因此本文提出的准则函数可以有效抑制过拟合的发生,继而保证本文算法的泛化能力。
-
正则化是一种有效的抗过拟合技术,且被广泛应用于系统建模。为验证本文算法的有效性,本文算法将应用于建立多维模型(四维模型),并跟正则化技术进行比较。
-
设定仿真中的建模对象函数为:
$$ \begin{split} &\qquad\quad {g_s}({x_1},{x_2},{x_3},{x_4}) = \sum\limits_{{k_4} = 1}^4 \sum\limits_{{k_3} = 1}^4 \sum\limits_{{k_2} = 1}^4 \\ & \sum\limits_{{k_1} = 1}^4 {{a_{{k_1},{k_2},{k_3},{k_4}}}{e^{{{({x_1} - 5{k_1})}^2} + {{({x_2} - 5{k_2})}^2} + {{({x_3} - 5{k_3})}^2} + {{({x_4} - 5{k_4})}^2}}}} \end{split} $$ (50) 这里
$ {\{ {a_{{k_1},{k_2},{k_3},{k_4}}}\} _{{k_1} \in [1, \cdots ,4], \cdots ,{k_4} \in [1, \cdots ,4]}} $ 为在区间$ [0.5, 1.5] $ 上均匀分布的随机数。仿真在区域$[ - 20,20] \times [ - 20,20] \times [ - 20,20] \times [ - 20,20] $ 上使用间隔为$1/8$ 的样本训练神经网络。用间隔为$1/16$ 的样本验证模型精度和泛化能力。 -
在工程实践中,噪声常常服从正态和均匀分布。为检验算法的抗噪声能力,这里在训练样本中,分别加入以下4种工程实践中常见的噪声。
1)均值为0,方差为
${\sigma ^2} = {10^{ - 3}} $ 且满足正态分布的平稳随机噪声。2)均值为0,方差为
${\sigma ^2} = 3.0 \times {10^{ - 4}} $ 且满足均匀分布的平稳随机噪声。3)均值为0,方差为
${\sigma ^2}(r) = {10^{ - 5}} + {10^{ - 5}}{r^3} $ 且满足正态分布的非平稳随机噪声。4)均值为0,方差为
${\sigma ^2}(r) = 0.5 \times {10^{ - 4}} + {10^{ - 4}}{r^3} $ 且满足均匀分布的非平稳随机噪声。其中,
$r = \sqrt {x_1^2 + x_2^2 + x_3^2 + x_4^2} $ 表示原本点到原点的距离,$ - 20 \leqslant {x_i} \leqslant 20 (i = 1, \cdots ,4 )$ ,$0 \leqslant r \leqslant 40 $ 。令${n_s}({x_1},{x_2},{x_3},{x_4})$ 表示在坐标$({x_1},{x_2},{x_3},{x_4})$ 处的噪声幅值。对于某次随机噪声实现,将具有相同距离$r$ 的${n_s}({x_1},{x_2},{x_3},{x_4})$ 分为一组,并求取相应的绝对平均值$|\widetilde {{n_s}(r)}|$ 。以$r$ 为横坐标,噪声平均绝对值为纵坐标,绘制$|\widetilde {{n_s}(r)}|$ ,分布如图2所示。图中,第1和第2种噪声,属于较为常见的平稳随机过程,因此可以较好地检验算法对于普通噪声的抑制能力。第3和第4种噪声的方差随位置的变化而变化,即在靠近原点(
$r = 0$ )的地方能量较小,而在远离原点时能量较大。因此第3和第4种噪声属于非平稳随机过程。这类噪声可以有效地检验本算法对噪声变化的鲁棒性。 -
由经典小波采样理论可知,Daubechies多分辨分析的尺度函数空间存在插值基。这满足本文算法激励函数的选取要求。为此这里选用四阶Daubechies尺度函数
$\phi (x)$ 作为激活函数。 -
小波网络准则函数,由式(3)中的参数
$ {\{ {\lambda _k}\} _{k \in \mathbb{Z}}} $ 决定。由经典小波采样理论可知,对于Daubechies小波,有:$$ \sum\limits_{k = - \infty }^{ + \infty } {{\lambda _k}{{\rm{e}}^{ - {\rm{i}}wk}}} {\text{ = }}\frac{1}{{\displaystyle\sum\limits_{k = - \infty }^{ + \infty } {\hat \phi (w + 2k{\text{π}} )} }} $$ (59) 式中,
$ \hat \phi (w) $ 表示$ \phi (x) $ 的傅里叶变换。另一方面,四阶Daubechies尺度函数$ \phi (x) $ 的傅里叶变换满足:$$ \begin{split} & \sum\limits_{k = - \infty }^{ + \infty } {\hat \phi (w + 2k{\text π} )} = 1.0072 {{\rm{e}}^{ - {\rm{i}}w}} - 0.0338 {{\rm{e}}^{ - 2{\rm{i}}w}} + \\ &\qquad\qquad 0.0396 {{\rm{e}}^{ - 3{\rm{i}}w}} - 0.0118 {{\rm{e}}^{ - 4{\rm{i}}w}} - \\ & \quad 1.1982 \times {10^{ - 3}} {{\rm{e}}^{ - 5{\rm{i}}w}} + 1.8838 \times {10^{ - 5}} {{\rm{e}}^{ - 6{\rm{i}}w}} \end{split} $$ (60) 将(46)代入(45)可得:
$$ \begin{gathered} {\lambda _{ - 1}} = 0.9929,\,{\lambda _0} = 0.0333,\,{\lambda _1} = - 0.0379,\,{\lambda _2} = 0.0091, \\ {\lambda _3} = 0.0034,\,{\lambda _4} = - 0.0007,\,{\lambda _5} = - 0.0001,\,{\lambda _6} = 0.0001 \\ \end{gathered} $$ (61) 且
${\lambda _k} = 0$ ($k \ne - 1, \cdots ,6$ )。这样基于式(47)可以构建矩阵${{\boldsymbol{Q}}_i} = {\text{[}}{\lambda _{k - n}}{\text{]}}$ 和${{\boldsymbol{\varLambda }} _i} = {\boldsymbol{Q}}_i^{\rm{T}}{{\boldsymbol{Q}}_i}$ ($i = 1, \cdots ,4$ ),进而应用式(31)和(34)构建对应的准则函数:$$ {{\boldsymbol{\varLambda }} }= {{\boldsymbol{\varLambda }} _1} \otimes \cdots \otimes {{\boldsymbol{\varLambda }} _4} $$ (62) -
在本仿真中,将采用文献[12]中的经典正则化技术。正则化神经网络具有与RBF网络相似的结构,其准则函数可表示为:
$${ \begin{split} & \sum\limits_{{n_4} = - \infty }^{ + \infty } {\sum\limits_{{n_3} = - \infty }^{ + \infty } {\sum\limits_{{n_2} = - \infty }^{ + \infty } {\sum\limits_{{n_1} = - \infty }^{ + \infty } {\left( {{f_{ne}}({x_{{n_1}}},{x_{{n_2}}},{x_{{n_3}}},{x_{{n_4}}}) - } \right.} } } } \\ &\qquad\quad {\left. {{f_s}({x_{{n_1}}},{x_{{n_2}}},{x_{{n_3}}},{x_{{n_4}}})} \right)^2} + \mu \left\| {\tilde D{f_{ne}}({x_1},{x_2},{x_3},{x_4})} \right\| \end{split} }$$ (63) 式中,
$\mu \left\| {\tilde D{f_{ne}}(x,y)} \right\|$ 表示正则化项;$\tilde D$ 为微分类算子;$\mu $ 为正则化参数,其决定了神经网络输出平滑度和样本误差之间的折中程度。微分算子
$\tilde D$ 决定了正则化神经网络激励函数的选取。注意到式(44)中,对象函数是高斯函数的线性组合,为此仿真中通过选取微分算子$\tilde D$ ,使得正则化神经网络的激励函数为高斯函数。此外通过尝试,发现对于图2的4种噪声,当$\mu = 0.02$ 时正则化神经网络可以获得最好的逼近结果,因此仿真中,本文算法将跟$\mu = 0.02$ 时的正则化神经网络的学习结果进行比较。 -
令
${e_{ap}}({x_1},{x_2},{x_3},{x_4}) = {f_s}({x_1},{x_2},{x_3},{x_4}) - {f_{ne}}({x_1},{x_2}, {x_3}, {x_4}) $ 表示神经网络${f_{ne}}({x_1}, \cdots ,{x_4})$ 和建模对象${f_s}({x_1}, \cdots , {x_4})$ 之间的误差。仿真重复500次试验,每次试验随机产生参数$ {\{ {a_{{k_1},{k_2},{k_3},{k_4}}}\} _{{k_1} \in [1, \cdots ,4], \cdots ,{k_4} \in [1, \cdots ,4]}} $ 和噪声${n_s}({x_1},{x_2},{x_3},{x_4})$ 。将两种神经网络500次试验误差取绝对值,其相应的统计值如表1所示。表 1 绝对误差统计
噪声 最大值 平均值 小波网络(正态平稳噪声) 0.0175 0.00314 正则化网络(正态平稳噪声) 0.03950 0.00692 小波网络(均匀平稳噪声) 0.02622 0.00509 正则化网络(均匀平稳噪声) 0.04332 0.01176 小波网络(正态非平稳噪声) 0.03632 0.00539 正则化网络(正态非平稳噪声) 0.08858 0.01240 小波网络(均匀非平稳噪声) 0.02809 0.00437 正则化网络(均匀非平稳噪声) 0.04720 0.01020 从表1可以看出,在平稳正态和均匀噪声条件下,小波网络的最大绝对误差和平均绝对误差分别小于正则化网络的最大绝对误差和平均绝对误差。另一方面,在非平稳正态和均匀噪声条件下,正则化网络的最大绝对误差和平均绝对误差也大于小波网络的平均绝对误差和平均绝对误差。
上述情况说明无论是在平稳还是非平稳噪声条件下,小波神经网络的抗噪声能力都要远好于正则化技术。从表1的数据还可以看出,相比于正则化技术,小波网络在克服非平稳噪声上拥有更大的优势。
满足正态分布和均匀分布的两种非平稳随机噪声,其统计特性(方差)随距离
$r$ 的变化而变化,为阐明上述现象,这里将在相同距离$r$ 上的误差${e_{ap}}({x_1},{x_2},{x_3},{x_4})$ 分成一组,并求取绝对平均值$|\widetilde {{e_{ap}}(r)}|$ 。以$r$ 为横坐标、$|\widetilde {{e_{ap}}(r)}|$ 为纵坐标绘制误差分布图,如图3所示。将横坐标分成4个区间,即$[0,10)$ (A区间)、$[10,20)$ (B区间)、$[20,30)$ (C区间)、$[30,40]$ (D区间)。然后统计各个区间上逼近误差的平均值,如表2所示。表 2 非平稳噪声条件下逼近误差绝对平均值
网络 区间A 区间B 区间C 区间D 小波网络(正态) 0.00281 0.00514 0.00602 0.00688 正则化网络(正态) 0.00618 0.01168 0.01407 0.01669 小波网络(均匀) 0.00237 0.00415 0.00520 0.00607 正则化网络(均匀) 0.00537 0.00949 0.01211 0.01410 由图2c和图2d可知,随着距离
$r$ 逐渐增大,无论是小波网络还是正则化网络的逼近误差都随之变大。然而由表2可知,对于非平稳正态噪声,在A区间,正则化网络误差是小波网络误差的2.20倍,但是在D区间,正则化网络误差扩大为小波网络误差的2.42倍。类似地,对于非平稳均匀噪声,在A区间,正则化网络为小波网络的2.27倍,在D区间,逐渐扩大为2.33倍。这主要是因为正则化技术抑制噪声的能力,主要取决于式(49)中参数$ \mu $ 的选取。$ \mu $ 较大时,虽然可以在$D$ 区间较好地抑制强噪声,但容易导致噪声较小的$A$ 区间丢失信号的细节。反之较小的$ \mu $ 参数虽然有助于保持$A$ 区间的信号细节,却难以抑制$D$ 区间的强噪声。因此当噪声能量变化时,很难选取合理的参数$ \mu $ 。这意味着在噪声统计特性发生变化时,小波网络可以获得更高的逼近精度,因此小波网络相比正则化技术对噪声更具鲁棒性。
A Novel Cost Function Based on Wavelet Sampling Theory
-
摘要: 为解决在噪声环境下建模的过拟合问题,基于小波采样理论,提出一种适用于小波神经网络的新型准则函数,并设计了相应的训练算法。这种算法能够利用样本分布和误差训练输入和输出层权值,因此可以大大提高小波神经网络的学习效率。理论和试验表明,新型准则函数有力地保证了小波神经网络的泛化能力,其相应的算法具有全局收敛性,并对噪声变化具有良好的鲁棒性。Abstract: In order to solve overfitting of modeling in noisy circumstance, a novel cost function with corresponding training algorithm is proposed for wavelet networks based on sampling theory. Since such an algorithm can use sample distributions and errors respectively to train input and output weights, learning efficiencies of wavelet networks are improved greatly. The theories and experiments show that this novel cost function can ensure generalizations of wavelet networks. Simultaneously, the new algorithm can converge globally and is robust to noise varying.
-
Key words:
- generalized sampling /
- neural networks /
- overfitting /
- wavelet sampling
-
表 1 绝对误差统计
噪声 最大值 平均值 小波网络(正态平稳噪声) 0.0175 0.00314 正则化网络(正态平稳噪声) 0.03950 0.00692 小波网络(均匀平稳噪声) 0.02622 0.00509 正则化网络(均匀平稳噪声) 0.04332 0.01176 小波网络(正态非平稳噪声) 0.03632 0.00539 正则化网络(正态非平稳噪声) 0.08858 0.01240 小波网络(均匀非平稳噪声) 0.02809 0.00437 正则化网络(均匀非平稳噪声) 0.04720 0.01020 表 2 非平稳噪声条件下逼近误差绝对平均值
网络 区间A 区间B 区间C 区间D 小波网络(正态) 0.00281 0.00514 0.00602 0.00688 正则化网络(正态) 0.00618 0.01168 0.01407 0.01669 小波网络(均匀) 0.00237 0.00415 0.00520 0.00607 正则化网络(均匀) 0.00537 0.00949 0.01211 0.01410 -
[1] TAWFIK A M. River flood routing using artificial neural networks[J]. Ain Shams Engineering Journal, 2023, 14(3): 1-10. [2] ANNA R, ALEXANDER S, ANDREY S, et al. Three-day forecasting of greenhouse gas CH4 in the atmosphere of the Arctic Belyy Island using discrete wavelet transform and artificial neural networks[J]. Neural Computing and Applications, 2021, 33(16): 0311-10322. [3] RANA M A, ANDREA P, SALIM H. Comparison of different methodologies for rainfall-runoff modeling: Machine learning vs conceptual approach[J]. Natural Hazards, 2021, 105(3): 2987-3011. [4] CAVANAUGH J E, NEATH A A. The Akaike information criterion: background, derivation, properties, application, interpretation, and refinements[J]. Wiley Interdisciplinary Reviews:Computational Statistics, 2019, 11(3): E1460. doi: 10.1002/wics.1460 [5] ASADULLAH K, SARWAT A I. Unified univariate-neural network models for lithium-ion battery state-of-charge forecasting using minimized Akaike Information Criterion algorithm[J]. IEEE Access, 2021, 9: 39154-39170. doi: 10.1109/ACCESS.2021.3061478 [6] LIU J Q. Sensor fault analysis of aero-engine using ensemble SCNN and Bayesian interval estimation[J]. Engineering Applications of Artificial Intelligence, 2023, 125: 1-14. [7] QIAN G Q, WU Y H, XU M. Multiple change-points detection by empirical Bayesian information criteria and gibbs sampling induced stochastic search[J]. Applied Mathematical Modelling, 2019, 72: 202-216. doi: 10.1016/j.apm.2019.03.012 [8] GAO Y G, MA C L, AN S. Compound fault diagnosis for cooling dehumidifier based on RBF neural network improved by kernel principle component analysis and adaptive genetic algorithm[J]. Soft Computing, 2023, 27(3): 1599-1613. doi: 10.1007/s00500-022-07509-7 [9] SANDHYA S, HEMANT P. Hyperspectral image classification using principle component analysis and deep convolutional neural network[J]. Journal of Ambient Intelligence and Humanized Computing, 2022, [10] FRANCESCA B, ERNESTO De V, LORENZO R, et al. Understanding neural networks with reproducing kernel Banach spaces[J]. Applied and Computational Harmonic Analysis, 2023, 62: 194-236. doi: 10.1016/j.acha.2022.08.006 [11] BAEK J H, CHEN J S, KRISTEN S. A neural network-enhanced reproducing kernel particle method for modeling strain localization[J]. International Journal for Numerical Methods in Engineering, 2022, 123(18): 4422-4454. doi: 10.1002/nme.7040 [12] TOMASO P, FEDERICO G. Networks for approximation and learning[J]. Proceedings of the IEEE, 1990, 78(9): 1481-1497. doi: 10.1109/5.58326 [13] LI G, GU Y T, DING J. ${L^1}$ regularization in two-layer neural networks[J]. IEEE Signal Processing Letters, 2022, 29: 135-139. doi: 10.1109/LSP.2021.3129698[14] GUI S, CHEN Z D, LU B Z. Molecular sparse representation by a 3D ellipsoid radial basis function neural network via ${L^1}$ regularization[J]. Journal of Chemical Information and Modeling, 2020, 60(12): 6054-6064. doi: 10.1021/acs.jcim.0c00585[15] JUN Z, WALTER G G, MIAO Y. Wavelet neural networks for function learning[J]. IEEE Transactions on Signal Processing, 1995, 43(6): 1485-1496. doi: 10.1109/78.388860 [16] MALLAT S. A wavelet tour of signal processing[M]. 2ed. Beijing: China Machine Press, 2003. [17] ZHANG Z G, LI Y. Recovery of the optimal approximation from samples in wavelet subspace[J]. Digital Signal Processing, 2012, 22(5): 795-807. doi: 10.1016/j.dsp.2012.04.003