-
信息技术的飞速发展催生了大数据时代的到来[1]。复杂性是大数据区别于传统数据的根本所在,大数据的复杂性必然会带来不确定性,大数据中的各种不确定性给处理大数据算法的准确性、高效性、安全性、鲁棒性带来了巨大的挑战[2]。因此,如何解决目前大数据存在的复杂性和不确定性问题已成为目前大数据领域研究的热点之一。
机器学习是人工智能领域的重要分支,在高性能计算、云计算等领域都已取得了丰硕成果[3],如何将机器学习算法应用于大数据分析并产生实际价值越来越受到学术界和工业界的广泛关注,也已成为“大数据+人工智能”交叉融合研究领域的热点[4]。
由于量子计算具有超强的并行计算能力、指数级存储容量等特征,被认为是最有可能突破现有计算能力瓶颈的计算方式[5]。随着量子计算的发展,基于量子计算的机器学习正在兴起,量子计算会带来机器学习对数据处理能力的提高。如何在“大数据+人工智能”时代,充分利用量子计算优势,提高机器学习对大数据的处理、分析和挖掘能力已成为机器学习领域的研究热点。
本文在深入分析目前大数据环境下不确定性集合理论及大数据计算与分析方法、机器学习算法、量子计算及量子机器学习研究现状及不足的基础上,指出将“大数据+不确定性集合理论+机器学习算法+量子计算”交叉融合,进行大数据环境下量子机器学习算法及其安全性应用研究既有理论和现实意义,又有实用价值。
-
不确定性知识表达和处理是人工智能中重要的研究方向,如何有效地从不确定性信息和数据中获取知识也是大数据领域的重要研究课题。不确定性主要表现为随机性、模糊性和不完备性等,随机性和模糊性作为两种最基本的不确定性,在人类的认知过程中起着重要的作用。目前处理不确定性问题的方法主要有模糊集[6]、Vague集[7]、粗糙集[8]等理论。
-
1) 模糊集合理论
1965年,文献[6]创建了模糊集合理论,其定义为:给定一个非空集合
$X$ ,从$X$ 到单位闭区间$\left[ {0,1} \right]$ 的一个映射${\mu _A}\left( {{x_i}} \right):X \to \left[ {0,1} \right]$ 称为X上的一个模糊集,对于每个$x \in U$ ,${\mu _A}\left( x \right)$ 叫做元素$x$ 对模糊集A的隶属度。模糊集合理论的贡献在于引入了集合中元素对该集合的“隶属度”,从而将经典集合论里的特征函数取值范围由二值$\left\{ {0,1} \right\}$ 推广到区间$\left[ {0,1} \right]$ ,将经典二值逻辑推广至多值逻辑,使得模糊性可以用$\left[ {0,1} \right]$ 上的区间值来度量。2) 直觉模糊集理论
1983年,文献[9]提出了直觉模糊集理论,其定义为:设
$X = \left\{ {{x_1},{x_2}, \cdots ,{x_n}} \right\}$ 为所研究问题的论域,${x_i}\left( {i = 1,2, \cdots ,n} \right)$ 为论域X中的第$i$ 个不确定性元素,X上的直觉模糊集定义为:$$ A = \left\{ {\left\langle {{x_i},{\mu _A}\left( {{x_i}} \right),{\upsilon _A}\left( {{x_i}} \right)} \right\rangle } \right\} $$ (1) 式中,
${\mu _A}\left( {{x_i}} \right):X \to \left[ {0,1} \right]$ ;${\upsilon _A}\left( {{x_i}} \right):X \to \left[ {0,1} \right]$ ,对于$\forall {x_i} \in X$ ,有$0 \leqslant {\mu _A}\left( {{x_i}} \right) + {\upsilon _A}\left( {{x_i}} \right) \leqslant 1$ ,${\mu _A}\left( {{x_i}} \right)$ 和${\upsilon _A}\left( {{x_i}} \right)$ 称xi对直觉模糊集$A$ 的隶属度和非隶属度;在直觉模糊集中,${\pi _A}\left( {{x_i}} \right) = 1 - {\mu _A}\left( {{x_i}} \right) - {\upsilon _A}\left( {{x_i}} \right)$ 称xi对集合$A$ 的犹豫度。作为Zadeh模糊集合理论的一个推广,由于直觉模糊集理论比Zadeh模糊集合理论所反映的信息更为丰富,近年来不少学者利用直觉模糊集理论来刻画不确定性问题具有的模糊性本质,并在很多领域得到了广泛应用[10-13]。
-
1993年,文献[7]引入真隶属度和假隶属度来对模糊集进行推广,即Vague集,简称
$V$ 集。在$V$ 集中,假设$X$ 是一个点(对象)空间,$X$ 中的第$i$ 个元素用${x_i}$ 表示,${x_i}$ 在$V$ 集中的隶属度可以表示为$\left[ {{t_v}\left( {{x_i}} \right),1 - {f_v}\left( {{x_i}} \right)} \right]$ 。其中${t_v}\left( {{x_i}} \right)$ 和${f_v}\left( {{x_i}} \right)$ 分别表示${x_i}$ 隶属于$V$ 集的真隶属函数和假隶属函数,且${t_v}\left( {{x_i}} \right)$ 是从支持${x_i}$ 的证据所导出的${x_i}$ 的肯定隶属度的下界,${f_v}\left( {{x_i}} \right)$ 是从反对${x_i}$ 的证据所导出的${x_i}$ 的否定隶属度下界,且${t_v}\left( x \right) + {f_v}\left( x \right) \leqslant 1$ 。特别地,当X是连续的,则
$V$ 集可以表示为:$$ V = \mathop \int \nolimits_X \dfrac{{\left[ {{t_v}\left( x \right),1 - {f_v}\left( x \right)} \right]}}{x}\;\;\;\;\;\;x \in X $$ (2) 当
$X$ 是离散的,则$V$ 集可以表示为:$$ \begin{array}{*{20}{c}} {V = \displaystyle \sum \limits_{i = 1}^n \frac{{\left[ {{t_v}\left( {{x_i}} \right),1 - {f_v}\left( {{x_i}} \right)} \right]}}{{{x_i}}}\;\;\;\;\;\;{x_i} \in X} \end{array} $$ (3) 对于
$\forall x \in X$ ,${\pi _v}\left( x \right) = 1 - {t_v}\left( x \right) - {f_v}\left( x \right)$ 称为$x$ 相对于$V$ 集的Vague度,它主要用于刻画$x$ 相对于$V$ 集的犹豫程度,表示既不支持又不反对$x$ 的证据所导出的既不肯定又不否定的隶属度上界。将$V$ 集通过“投票模型”来解释,则${\pi _v}\left( x \right)$ 表示弃权的比例。从对事物的可知程度而言,${\pi _v}\left( x \right)$ 则表示对事物的不可知程度。Vague集理论的提出,为解决不确定性问题提供了新思路,目前已经成功用于模糊控制、决策分析、专家系统和故障诊断等领域[14]。 -
1982年,文献[8]提出了粗糙集理论。在粗糙集中,无需主观为元素指定一个隶属度,隶属关系是根据已有的分类知识客观计算出来的。设X =
$ \left\{ {{x_1},{x_2}, \cdots ,{x_i}} \right\}$ 为所研究的论域,${x_i}\left( {i = 1,2, \cdots ,n} \right)$ 为$X$ 中的第$i$ 个元素,集合$X$ 的粗糙隶属函数定义为:$$ \begin{array}{*{20}{c}} {\mu _x^R\left( {{x_i}} \right) = \dfrac{{{\rm{card}}\left( {X \cap R\left( {{x_i}} \right)} \right)}}{{{\rm{card}}\left( {R\left( {{x_i}} \right)} \right)}}} \end{array} $$ (4) 式中,
$\mu _x^R\left( {{x_i}} \right) \in \left[ {0,1} \right]$ ,$R$ 是不可区分关系;$R\left( {{x_i}} \right) = {[{x_i}]_R} = $ $ \left\{ {y:\left( {y \in U} \right) \wedge \left( {yR{x_i}} \right)} \right\}$ ;${\rm{card}}$ 表示集合的基数。作为一种不完整、不确定性知识和数据的表达、学习、归纳的理论方法,一方面,粗糙集理论能够有效地分析和处理不确定、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律;另一方面,粗糙集理论能够以不可分辨关系划分所研究论域的知识,形成知识表达系统[14]。目前,学者们从不同角度对Pawlak经典粗糙集模型进行拓展研究,提出了众多扩展粗糙集模型[15-24]。
粗糙集和Vague集理论都是作为模糊集理论的扩展,都能处理模糊、不确定性的问题。一方面,Vague集和模糊集具有一定的互补性,相比模糊集合理论,Vague集能够更准确地描述不确定信息;另一方面,尽管三者分别使用模糊和不可分辨关系来处理不完全的数据集,Zadeh模糊集和粗糙集能够将其优点结合作为研究不完全数据集的有效方法,而Vague集和粗糙集能够结合起来用于处理某一类特定的边界不确定性集合问题。
-
随着大数据的爆炸式增长,国内外众多学者在大数据计算以及分析方法方面展开了大量的理论研究和实践探索[25-64]。基于机器学习的大数据计算方法主要包括并行计算[25-32]、增量计算[33-37]和绿色计算[38-41],基于机器学习的大数据分析方法主要有聚类方法[42-46]、关联分析方法[47-53]、分类方法[54-59]和预测方法[60-64]。
-
1) 并行计算
目前串行计算研究主要集中在P类问题上,即在多项式时间内能够求解的一类问题。然而在大数据时代,对大规模、复杂性和不确定性的问题的求解变成了不可解问题[25]。为了解决这些问题,学者们提出了针对大数据的并行处理方法[26-32]:谷歌公司提出一种适用于半结构化及非结构化数据的大规模数据处理模型(MapReduce)[26-27],文献[28]提出了利用分布式并行计算实现复杂任务的调度方法;文献[29]提出了一种能够对大规模数据集进行高效处理的机器学习算法,文献[30-31]讨论了如何在MapReduce框架下设计高效的算法;文献[32]提出了并行提升算法ADABOOST.PL和LOGITBOO ST.PL算法。这些并行处理方法虽然能够处理大一定量级的大数据,但是如何设计高效的并行处理大数据的计算方法仍然是当前研究的热点。
2) 增量计算
增量计算主要用于处理动态增长的数据集或离散数据,主要有两类[27]:第一类是通过增量数据进行计算和推理,从而实现对高维大数据的全局处理;第二类是通过增量数据更新历史数据,并对更新后的数据进行处理。目前,绝大多数研究主要集中在第一类。针对低维大数据的处理,文献[33]提出了增量分解方法;针对高维大数据的处理,文献[34]提出了基于投影的增量式高阶奇异值分解方法、文献[35]提出了基于Jacibo旋转实现增量式高阶奇异值分解;针对大数据在时间上的延续性,文献[36]提出了增量张量流的计算方法;针对增量大数据的管理,文献[37]构建了基于Hadoop平台的增量大数据处理框架。这些增量计算方法是各学者针对不同的问题提出的不同增量计算方法,但是如何减少增量处理时的运算量和提高增量处理的效率仍是当前研究的重要方向。
3) 绿色计算
绿色计算是指实现云计算的可持续发展,减少云系统对环境的影响,其目标不仅要提高计算资源的使用效率,还要实现对能量消耗的最小化[38]。为了解决大数据存在的高能耗问题以及实现可持续的绿色计算,有学者提出了节能的数据中心资源调度框架[39]、Hadoop集群中计算机节点性能和能耗计算方法[40]及解决移动设备能耗问题的任务调度方法[41]。当前,在解决大数据带来巨大的能源消耗问题方面,绿色计算仍然是研究热点。
-
1) 聚类方法
聚类是大数据挖掘和模式识别常用技术之一,作为重要的大数据分析方法,在分析过程中结合机器学习、模式识别、概率统计、随机过程、信息论等可实现不同功能。随着大数据规模的不断增长,传统聚类方法在大数据处理中速度相对较慢,已经不能适应大数据发展的需要。为了实现传统聚类算法的并行运算及解决海量数据分析的难题,文献[42]提出了基于MapReduce的K-means算法,文献[43]提出了能够并行发现多个聚类的DBCURE-MR算法,文献[44]提出了一种新的MapReduce并行聚类模型,文献[45]提出了能减少时间和内存开销的、基于MapReduce的EM算法,文献[46]提出了高效的K-means集群优化算法。这些聚类方法针对不同的问题在效率方面有一定优势,但面对日益庞大和复杂的数据,如何采用并行方法以及改进现有聚类算法,进而提出新的聚类算法仍是当前重要的研究方向。
2) 关联分析方法
关联分析起源于Apriori算法[47],其目的是查找各种数据中项目集合和对象集合之间的关联、相关性或者因果结构[48],但Apriori算法时间开销大,导致在广度和深度方面适应性差。为了解决这一问题,文献[49]提出了基于MapReduce的并行Apriori算法,文献[50]提出了基于MapReduce的改进Apriori算法。现阶段解决大数据关联分析主要集中在对已有算法进行并行化和分布式处理,其基本思想是采用分治策略[51]。文献[52]提出了基于MapReduce的FP-Growth改进算法,文献[53]提出了基于Spark的并行FP-Growth算法。这些关联分析方法的并行化和分布式处理主要集中在MapReduce和Spark平台,目前在大数据高效处理方面还不能完全满足大数据日益增长的需要,因此研究并行化和分布式处理的关联分析方法仍然是当前研究的热点。
3) 分类方法
对大数据进行分类是普遍存在的,其在入侵检测、医疗诊断、智能交通等领域有着广泛应用。为了解决非均衡数据的分类问题,文献[54]在MapReduce平台实现了随机森林方法,文献[55]利用Mahout的并行处理能力构建基于决策树模型的随机森林,文献[56]分析了在大数据分类下极限学习机(extreme learning machine, ELM)具有良好的泛化能力,文献[57]将KNN分类器和大数据平台MapReduce相结合实现了对9 000万对DNA的分类;为了解决大规模图像数据集分类性能低的问题,文献[58]利用Hadoop架构实现了高效特征提取和分类,文献[59]提出了面向分布式环境的高效决策树分类器算法。这些分类方法大多数都是为了特定问题而对传统分类法的改进,很难高效处理日益增长的大数据,因此针对大数据领域的高效的分类方法仍然是重要的研究方向。
4) 预测方法
通过对历史数据进行分析,从而对未来进行预测,是大数据分析的核心功能之一。进行预测的关键是找出蕴含在历史数据中的关联关系。文献[60]提出了适用于预测人类视觉注意力的基于卷积网络的预测算法(DeepFix),文献[61]提出了适用于预测工业故障的基于隐马尔可夫模型的预测算法,文献[62]提出了适用于金融领域的基于交易模型的实时价格预测方法,文献[63]提出了基于支持向量机的网络入侵预测方法,文献[64]提出了适用于有效提升企业绩效的工业大数据预测模型。随着大数据日益发展,如何有效提升预测效率和准确性仍然是大数据领域的研究热点。
综上所述,国内外众多学者在大数据计算方法及大数据分析方法方面开展了广泛研究,也取得了突破性进展,但并未涉及如何高效、安全、准确地处理大数据所具有的复杂性和不确定性问题。如何将“大数据+不确定性理论”进行交叉融合成为亟待研究的重要课题。
-
机器学习算法是人工智能和统计学领域的重要分支。在对数据进行分类方面,常见的算法有K近邻(K-nearest neighbors, KNN)[65-66]、支持向量机(support vector machine, SVM)[67-68]、决策树(decision tree, DT)[69]、随机森林(random forests, RF)算法[70]、朴素贝叶斯(Naive Bayes, NB)[71]等;在回归方面,常见的算法有线性回归算法(linear regression)[72]和逻辑回归(logistic regression)[73]等;在聚类方面,常见的算法有K均值算法(K-means algorithm)[74]和最大期望算法(expectation maximization algorithm, EM)[75];在数据可视化和降维方面,主要有主成分分析算法(principal component analysis, PCA)[76];由于篇幅限制,本小节简要介绍K近邻、支持向量机、线性回归算法、K-means算法和主成分分析算法。
1) K近邻算法
K近邻算法原理是选取输入样本的K个临近点,K个临近点出现次数最多的类别作为该输入样本的类别,主要由距离度量、
$k$ 值的选择以及分类决策规则决定[77]。当样本量较大,特征属性较多时,KNN算法的分类效率会大大降低。为了解决这一难题,文献[78]提出了基于哈希和MapReduce的大数据集K-近邻算法,文献[79]提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法,文献[80]提出了一种用于处理大数据集的KNN查找方法;文献[81]提出一种基于聚类去噪和密度裁剪的改进KNN算法,文献[82]提出了基于MapReduce的并行KNN算法,但这些算法只是一些优化或改进,效率方面还有待进一步研究。2) 支持向量机算法
支持向量机算法原理是寻找一个最优分类超平面,使得该超平面能够对样本数据正确划分。以二分类数据为例,将数据分为正类和负类。假设训练数据集
$T = \left\{ {\left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right),\cdots,\left( {{x_N},{y_N}} \right)} \right\}$ ,${x_i} \in {R^n}$ ,${y_i} \in \left\{ { + 1, - 1} \right\}$ ,$i = 1,2,\cdots,N$ ,${x_i}$ 表示第$i$ 个特征向量,最大分隔超平面记为${\boldsymbol{w}}^{\rm{T}} x + b = 0$ ,为了使最大分隔超平面对所有数据进行正确分类,最大分隔超平面需要满足如下约束:${y_i}( {{\boldsymbol{w}}^{\rm{T}} x + b}) - 1 \geqslant 0$ ,$i = 1,2,\cdots,N$ 。构造最优分类超平面等价于求解约束最优化问题:
$$ \mathop {{\rm{min}}}\limits_{{{{\boldsymbol{w}}}},b} \;\frac{1}{2}{\left\|{\boldsymbol{ w}}^{} \right\|^{2\;\;}}{\rm{s.t.}}\;{y_i}( {{\boldsymbol{w}}^{\rm{T}} x + b} ) - 1 \geqslant 0\begin{array}{*{20}{c}} {\;\;\;\;\;\;i = 1,2, \cdots ,N} \end{array} $$ (5) 式(5)可以采用Langrangian方法进行求解得到最优分类决策函数为:
$$ \begin{array}{*{20}{c}} {f\left( x \right) = {\rm{sign}}\left( {{{\boldsymbol{w}}^*} x + {b^*}} \right)} \end{array} $$ (6) 对于非线性问题的处理,需要将非线性分类问题转化为线性分类问题。通过非线性变换将数据由输入空间(欧式空间
${R^n}$ 的子集或离散集合)映射到特征空间H(希尔伯特空间),映射函数为:$$ \begin{split} & f\left( x \right) = {\rm{sign}}\left( {\mathop \sum \limits_{i = 1}^N \alpha _i^*{y_i}\varphi \left( {{x_i}} \right)\varphi \left( x \right) + {b^*}} \right)=\\ &\;\;\;\;\;\;\;{\rm{sign}}\left( {\displaystyle \sum \limits_{i = 1}^N \alpha _i^*{y_i}{\boldsymbol{K}}\left( {{x_i},x} \right) + {b^*}} \right) \end{split} $$ (7) 式中,
${\boldsymbol{K}}\left( {{x_i},x} \right) = \varphi \left( {{x_i}} \right)\varphi \left( x \right)$ 为核函数。通过映射函数$\varphi $ 将输入空间变换到一个新的特征空间进行运算,输入空间中的内积${x_i} \cdot {x_j}$ 计算被转换到特征空间中的内积计算$\varphi \left( {{x_i}} \right)\varphi \left( x \right)$ ,即可在新的特征空间里对支持向量机进行训练。传统的支持向量机算法存在无法高效处理大规模数据集以及无法预测鲁棒和非参数的置信区间的拟合模型等难题。为了解决这些问题,文献[83]提出了用于按顺序处理输入数据的在线学习算法,文献[84]提出了一种增量支持向量机学习算法,但这些改进算法在效率及安全方面有待进一步研究。
3) 线性回归
线性回归算法通过构造线性函数
$f\left( x \right) = {{\boldsymbol{w}}^{\rm{T}}}x$ 拟合给定的训练数据$\left( {{x_i},{y_i}} \right)$ ,使得每一个预测值$ f\left( {{x_i}} \right) $ 尽可能接近真实值${y_i}$ 。其中${x}_{i}\in {R}^{M},{y}_{i}\in R。 $ $ {\boldsymbol{w}}\in {R}^{M}$ 为拟合参数。线性回归的目的是求出最优拟合参数${\boldsymbol{w}}$ ,使得模型能够预测新的数据。最优拟合参数
${\boldsymbol{w}}$ 经常采用最小二乘法获得:$$ \begin{array}{*{20}{c}} {{\boldsymbol{w}} = {{\boldsymbol{X}}^ + }{\boldsymbol{y}} = {{( {{\boldsymbol{X}}{}_{}^{\rm{T}}{\boldsymbol{X}}} )}^{ - 1}}{{\boldsymbol{X}}^{\rm{T}}}{\boldsymbol{y}}} \end{array} $$ (8) 式中,
${\boldsymbol{y }}= {\left( {{y_1},{y_2}, \cdots ,{y_N}} \right)^{\rm{T}}}$ ;${\boldsymbol{X}} = \left( {{x_1},{x_2}, \cdots ,{{{x}}_N}} \right)$ 为数据矩阵。线性回归算法存在无法处理大数据所具有的海量样本和高维度的难题。为了解决这一难题,文献[85]提出了能够适用于分布式和并行处理的基于MapReduce的多元线性回归模型,文献[86]提出了能高效的处理大规模数据集的并行版本的多元线性回归算法,文献[87]提出了一种能有效提升时间和存储性能的非线性的回归预测模型,但这些改进算法在效率和准确性方面有待进一步提升。
4) K-means算法
K-means算法的主要思想:用户指定
$k$ 个初始质心作为聚类类别,重复迭代直至算法收敛。给定点$x \in {R^d}$ 和集合$C \subseteq {R^d}$ ,点x到集合$C$ 的距离定义为[88]:$$ \begin{array}{*{20}{c}} {d\left( {x,C} \right) = \mathop {{\rm{min}}}\limits_{c \in C} \left\| {x - c} \right\|} \end{array} $$ (9) 给定n个点X∈Rd,目标函数可以定义为:
$$ \begin{array}{*{20}{c}} {\varphi \left( {X,C} \right) = \displaystyle \sum \limits_{x \in X} {d^2}\left( {x,C} \right)} \end{array} $$ (10) K-means算法即在给定n个点X的条件下找到大小为K的集合使得目标函数
$C_{{{\rm{OPT}}_k}}^X$ 最小,即$C_{{{\rm{OPT}}_k}}^X = \mathop {{\rm{argmin}}}\limits_{C \in {R^d},\left| C \right| = k} \varphi \left( {X,C} \right)$ 。在大数据聚类分析方面,由于数据规模大,可能导致传统的K-means算法无法有效处理大数据复杂的数据关联性等难题。为了解决这些难题,文献[89]提出了一种先抽样再用最大最小距离进行K-means并行化聚类方法,文献[90]提出了一种能解决聚类精度低和收敛速度慢的基于优化抽样聚类的K-means算法(optimization sampling clustering K-means algorithm, OSCK),文献[91]提出了一种具有良好可扩展性的基于分布式计算框架Spark的快速K-Means聚类算法,但这些改进算法在效率及准确性方面还有待进一步探究。5) 主成分分析算法
主成分分析算法是将高维数据投影到低维空间缓解维数灾难,通过寻找投影后低维空间中的
$r$ 个新变量,以反映数据集的主要特征[76]。求给定矩阵X的主成分,其实就是计算协方差矩阵${\boldsymbol{X}}{{\boldsymbol{X}}^{\rm{T}}}$ 的前$r$ 个特征值对应的特征向量构成的矩阵${\boldsymbol{P}}$ ,然后做变换${\boldsymbol{Y}}{\text{ = }}{{{{\boldsymbol{P}}}}^{\rm{T}}}{\boldsymbol{X}}$ ,即达到降维的目的。由于大数据具有复杂、高维、多变等特性,如何采用主成分分析算法降低大数据处理难度成为迫切需要解决的难题。为此,文献[92]提出了一种能够有效提取非线性特征的大规模数据集求解核主成分的计算方法;文献[93]提出了一个能够以指数速度单调收敛到主方向精确值、与协方差无关的迭代主成分分析算法;文献[94]提出了能解决大数据下大规模工业过程的建模和监控问题的基于MapReduce框架分布式并行的主成分分析方法,文献[95]提出了能够提供精确解决方案的基于按行扫描数据的主成分分析方法,但这些方法在效率方面还有待进一步提升。
-
深度学习起源于人工神经网络,通过组合底层特征形成更加抽象的高层表示,以发现数据的分布式表示[96],主要有自动编码器[97-102]、受限玻尔兹曼机[103-106]、卷积神经网络[107-111]、循环神经网络[112-113]、生成对抗网络[114-118]等。
1) 自动编码器
自动编码器是将输入信号映射到低维空间的编码机和用隐含特征重构初始输入的解码机构成。假设输入信号为
$x$ ,编码层将其线性映射为$z$ ,然后给予某种非线性变换,这一过程可以表示为:$$ \begin{array}{*{20}{c}} {a = f\left( z \right) = f\left( {wx + b} \right)} \end{array} $$ (11) 式中,
$ f(·) $ 为某种线性函数,如sigmoid函数。解码层通过相似的操作,将隐含特征$a$ 重构信号$\hat x$ 。训练网络时,其优化目标为最小化重构信号与输入信号的均方差:$$ \begin{array}{*{20}{c}} {\min \displaystyle \sum \limits_i {{\left( {{{\hat x}_i} - {x_i}} \right)}^2}} \end{array} $$ (12) 尽管自动编码器通过编码器和解码器完成对输入信号的训练,通过损失函数最小化求出网络的参数,但是不能用于分类。已有众多研究者提出了不同类型的自动编码器:文献[97]提出了深自动编码器,文献[98]提出了堆叠自动编码器,文献[99]提出了稀疏自动编码器,文献[100-101]提出了降噪自动编码器以及堆叠消噪自动编码器,文献[102]提出了稀疏堆叠自动编码器,但是这些自动编码器在隐藏层数量和神经元数量增多的情况下会导致梯度稀释。
2) 受限玻尔兹曼机
玻尔兹曼机(Boltzmann machine, BZ) [103]是一种随机递归网络,能够通过学习数据固有内在表示,解决复杂数学问题。受限玻尔兹曼机(restricted Boltzmann machine, RBZ)是玻尔兹曼机的扩展,容易求得玻尔兹曼机的概率分布,具有无监督学习的能力,但是效率较低。受限玻尔兹曼机是一个双向图模型,主要由可视层
$v \in {\left\{ {0,1} \right\}^{{N_v}}}$ 和隐含层$h \in {\left\{ {0,1} \right\}^{{N_h}}}$ 组成。其中可视层和隐含层之间的联合概率分布定义为:$$ P\left(v,h\right)=\frac{1}{Z}\mathrm{exp}({v}^{{\rm{T}}}{\boldsymbol{W}}{h}+{{\boldsymbol{V}}}^{{\rm{T}}}{b}_{v}+{h}^{{\rm{T}}}{b}_{h}) $$ (13) 式中,Z是归一化函数;
$\boldsymbol{W} \in {R^{{N_v} \times {N_h}}}$ 表示可视层之间的连接权重;${b_v} \in {R^{{N_v}}}$ ,${b_h} \in {R^{{N_h}}}$ 是偏置项。该模型的优化目标为:$$ \begin{array}{*{20}{c}} {E\left( {p,h} \right) = - \log P\left( {v,h} \right)} \end{array} $$ (14) 众多的研究者在RBM模型的基础上提出了众多扩展的受限玻尔兹曼机模型,如mean-covariance RBM[104]、spike-slab RBM[105]和门限RBM[106]等,这些模型都定义了一个复杂的能量函数,导致学习和推断的效率下降。
3) 卷积神经网络
卷积神经网络[107]于1998年提出,主要用于手写字符图像的识别,由输入层、卷积层、下采样层(池化层)和输出层组成,其本质是使原始输入经过多个层次的数据变换或者降维、映射为一个新的特征。输入层输入通常为原始图像X。假设
${{\boldsymbol{H}}_i}$ 表示卷积神经网络第i层的特征(${{\boldsymbol{H}}_0} = \boldsymbol{X}$ ),卷积层${{\boldsymbol{H}}_i}$ 可以表示为:$$ \begin{array}{*{20}{c}} {{{\boldsymbol{H}}_i} = f\left( {{{\boldsymbol{H}}_{i - 1}} \otimes {{\boldsymbol{W}}_i} + {{{b}}_i}} \right)} \end{array} $$ (15) 式中,
${{\boldsymbol{W}}_i}$ 表示第$i$ 层卷积核的权值向量;$ f(·) $ 为非线性的激励函数;${{{b}}_i}$ 表示偏置变量;$ \otimes $ 表示卷积核与第$i - 1$ 层图像进行卷积操作。下采样层主要对特征图进行降维处理以及在一定程度上保持特征的尺度不变特性。假设
${H_i}$ 表示下采样层,则${{\boldsymbol{H}}_i} = {\rm{subsampling}}\left( {{{\boldsymbol{H}}_{i - 1}}} \right)$ 。经过卷积层和下采样层的交替处理,卷积神经网络根据全连接网络对提取的特征进行分类,得到基于输入X的概率分布Y:$$ \begin{array}{*{20}{c}} {{\boldsymbol{Y}}\left( i \right) = P\left( {{\boldsymbol{L}} = {l_i}|{{\boldsymbol{H}}_0};\left( {{\boldsymbol{W}},b} \right)} \right)} \end{array} $$ (16) 式中,
${l_i}$ 表示第$i$ 个标签类别。通过最小化网络损失函数,即可获得最优的模型。由于卷积神经网络的结构层次比较复杂,卷积层、下采样层都会存在过拟合问题。为了解决这些问题,研究者提出了众多改进方法。文献[108]提出了能有效提高网络泛化性能的“dropout”的技术,文献[109]提出了一种提升模型泛化能力的“Dropconnect”的方法,文献[110]提出了作用于卷积层的Maxout函数,文献[111]提出了一种随机下采样方法来减轻下采样层出现的过拟合问题。这些方法针对过拟合问题提出来一些改进方法,但是改善的程度和通用性还需要进一步验证和探索。
4) 循环神经网络
循环神经网络主要用于处理序列数据,其最大的特点就是神经元在某时刻的输出可以在下一时间戳作为输入直接作用到自身,进而达到对时间序列建模的目的。为了适应不同的应用需求,一些学者对循环神经网络模型进行了扩展,以解决长时依赖的问题。文献[112]提出了长短期记忆(long-short time memory, LSTM)模型,文献[113]提出了双向循环神经网络(bidirectional recurrent neural networks, BRNN),但这些改进或优化模型在效率及准确性方面有待进一步研究。
5) 生成对抗网络
生成对抗网络(generative adversarial networks, GAN)是文献[114]受博弈论中的二人零和博弈的启发而提出的一种隐式生成模型,利用生成神经网络和判别神经网络相互竞争,来学习隐含在训练数据样本里的随机概率分布。GAN由生成函数G和判别函数D组成,一般由深度神经网络实现。GAN的目标函数为:
$$ \begin{split}& \mathop {{\rm{min}}}\limits_{{\theta _d}} \mathop {{\rm{max}}}\limits_{{\theta _g}} V( {{\theta _d},{\theta _g}} ) = {E_{{x_r} - {P_r}\left( x \right)}}\left[ {\log D\left( {{x_r}:{\theta _d}} \right)} \right] + \\ &\;\;\;\;\;\;\;\;\;{E_{z - {P_z}\left( z \right)}}\left[ {\log ( {1 - D( {G( {z;{\theta _g}} );{\theta _d}} )})} \right] \end{split} $$ (17) 式中,
${x_r}$ 表示真实数据;${P_z}\left( z \right)$ 是先验分布(如高斯分布);$D( {G( {z;{\theta _g}} );{\theta _d}})$ 是判别函数D对假数据分类的概率;$D\left( {{x_r};{\theta _d}} \right)$ 是鉴别函数D对真实数据分类的概率。在GAN中,生成器和判别器的损失函数分别表示为:$$ \begin{split} & \text{ }\underset{{\theta }_{d}}{{\rm{min}}}{J}^{\left(D\right)}=-\frac{1}{2}{E}_{{x}_{r}-{P}_{r}\left(x\right)}\left[\mathrm{log}D\left({x}_{r}:{\theta }_{d}\right)\right]-\\ &\;\;\;\;\;\;\;\;\;\;\;\begin{array}{*{20}{c}} { \dfrac{1}{2}{E_{z - {P_z}\left( z \right)}}\left[ {\log ( {1 - D( {G( {z;{\theta _g}} );{\theta _d}} )})} \right]} \end{array} \end{split}$$ (18) $$ \mathop {{\rm{min}}}\limits_{{\theta _g}} {J^{\left( G \right)}} = {E_{z - {P_z}\left( z \right)}}\left[ {\log ( {1 - D( {G( {z;{\theta _g}});{\theta _d}} )} )} \right] $$ (19) 判别器的平均损失使用二进制交叉熵函数,即:
$$ \begin{split}&\text{ }J\left(x,y\right)=-\dfrac{1}{2{n}_{d}}\displaystyle \sum _{i=1}^{{n}_{d}}{y}_{i}\mathrm{log}D\left({x}_{i}\right)+\\ &\;\;\;\;\;\;\;\;\;\;\begin{array}{c}\left(1-{y}_{i}\right)\mathrm{log}\left(1-D\left({x}_{i}\right)\right)\end{array}\end{split} $$ (20) 式中,
${n_d}$ 是判别器的小批量样本数。目前,众多研究者提出了GAN变体,如条件GAN[115]、WGAN[116]、最小二乘GAN[117]、BEGAN[118]等,但GAN在训练过程中,仍然还存在判别器能否被合适地训练、梯度波动大、训练不稳定、样本缺乏多样性、生成质量差等问题。
-
强化习目标是通过学习一个行为策略
$ \pi :S\to A $ ,使得agent选择的动作能够获得环境最大的奖赏。定义一个以状态的值函数或状态动作对的值函数表示的目标函数确定Agent最优的动作,函数的表示形式[119]:$$ \begin{array}{*{20}{c}} {{V^\pi }\left( {{S_t}} \right) = \displaystyle \sum \limits_{i = 0}^\infty {\gamma ^i}{r_{t + i}}\;\;\;\;0 < \gamma \leqslant 1} \end{array} $$ (21) $$ \begin{array}{*{20}{c}} {{V^\pi }\left( {{s_t}} \right) = \displaystyle \sum \limits_{t = 0}^h {r_t}} \end{array} $$ (22) $$ \begin{array}{*{20}{c}} {{V^\pi }\left( {{s_t}} \right) = \mathop {{\rm{lim}}}\limits_{h \to \infty } \left( {\dfrac{1}{h}\displaystyle \sum \limits_{t = 0}^h {r_t}} \right)} \end{array} $$ (23) 式中,
$ \gamma $ 为折扣因子;$ {r_t} $ 是agent从环境状态$ {s_t} $ 到$ {s_{t + 1}} $ 转移后所接收到的奖赏值。式(21)为无限折扣模型,agent考虑未来无限步的奖赏,并以某种形式的折扣累积在值函数中;式(22)为有限模型,agent只考虑未来$h$ 步的奖赏和;式(23)为平均奖赏模型,agent考虑其长期平均奖赏。当目标函数确定时,最优行为策略可以通过式(24)获得:$$ \begin{array}{*{20}{c}} {{\pi ^*} = \arg \mathop {{\rm{max}}}\limits_{\pi} {{{V}}^{\pi} }\left( s \right)\;\;\;\;\forall s \in S} \end{array} $$ (24) 强化学习的主要特征是只能利用不确定的环境奖赏来发现最优行为策略。根据动作选择方式可以将强化学习算法分为基于值函数的强化学习算法和基于直接策略搜索的强化学习算法两类。基于值函数的强化学习算法主要通过评估值函数并根据函数值的大小来选择动作,主要有动态规划、蒙特卡洛、时间差分、值函数逼近4种类型[120]:动态规划模型主要用于处理模型已知的情况(在模型未知条件下,可以采用蒙特卡洛方法利用部分随机样本的期望值来获取整体模型的期望值);蒙特卡洛方法虽然能够处理模型未知的问题,但是其存在学习效率低下的难题;时间差分法采用自举方法,用后继状态的值函数估计当前值函数,使智能体能够实现单步或者多步的更新,从而提高学习效率[121];当状态空间维数很大或者存在连续空间时,可以通过采用值函数逼近的方法来构建强化学习策略。直接策略搜索算法主要是将策略参数化、通过优化参数化使得策略的反馈期望值最大,该类算法主要有经典策略梯度、置信阈策略优化和确定性策略3类[121]。目前,强化学习作为机器学习领域的重要研究热点,目前已经在工业制造、机器人控制、优化与调度、游戏博弈等领域有重要的应用价值[122]。
综上所述,机器学习是人工智能研究领域的一项重要分支,经过多年的发展,已经取得了众多研究成果。面对即将来临的“大数据+人工智能+量子计算”时代,如何利用机器学习算法对大数据所具有的复杂性和不确定性问题进行高效、安全、准确地处理,越来越受到学术界和工业界的广泛关注,也已成为大数据和人工智能交叉融合研究领域的热点问题。
-
量子计算是以量子力学为基础的全新计算模型,并与信息科学、计算科学、光电技术等学科交叉融合而形成的一门新兴学科。量子计算充分利用量子独有特性(如量子叠加性、纠缠等)进行运算和数据处理,具有超强的并行计算能力、指数级存储容量、更好的有效性等特征,被认为是最有可能突破现有计算物理平台和计算能力瓶颈的一种计算方式。从量子力学原理出发,量子计算目前主要有两个方向:量子算法和量子衍生算法(量子衍生算法主要是量子信息学与人工智能等领域研究相结合而衍生出来的算法,如与机器学习算法结合衍生出的量子机器学习算法等)。
-
早在1982年,美国著名物理学家费曼(R.Feynman)首次提出“量子模拟”的概念,即如果利用经典计算机模拟量子系统,由于量子态的存在,模拟的复杂性随粒子数的增加而呈现指数级别的增长[123]。随后,Deutsch和Jozsa提出了第一个量子算法(Deutsch-Jozsa算法)[124];Bernstein和Vazirani[125]及Simon[126]均提出了以他们名字命名的量子算法;文献[127-128]提出了求解大数分解难题的量子并行算法;文献[129]提出了量子搜索算法;文献[130]基于量子随机漫步原理提出了量子线性系统求解算法HHL算法;这些算法都表明在解决某些特定问题时量子计算机相对于经典计算机具有优势;以及能够突破传统计算机的计算极限,解决传统计算机无法解决的问题。
-
目前,量子信息有两种表示方式:第一种是量子比特形式;第二种是密度算子形式。从物理角度而言,这两种表示方式可以用原子的两能级系统、电子的自旋系统、光子的偏振系统来实现。
1) 量子比特
一个任意的单量子比特可以表示为:
$$ \begin{array}{*{20}{c}} {\left| \psi \right\rangle = \alpha \left| 0 \right\rangle + \beta \left| 1 \right\rangle } \end{array} $$ (25) 式中,
$\alpha $ 和$\beta $ 称为量子态的概率幅,满足${\left| \alpha \right|^2} + $ $ {\left| \beta \right|^2} = 1$ 。上述单量子比特的几何形式表示为:$$ \begin{array}{*{20}{c}} {\left| \psi \right\rangle = {{\rm{e}}^{{\rm{i}}\gamma }}\left( {\cos \dfrac{\theta }{2}\left| 0 \right\rangle + {{\rm{e}}^{{\rm{i}}\varphi }}\dfrac{\theta }{2}\left| 1 \right\rangle } \right)} \end{array} $$ (26) 式中,
$\gamma ,\theta ,\varphi $ 是实数,由于全局相位${{\rm{e}}^{{\rm{i}}\gamma }}$ 没有可观测的物理效应,可以略去。因此,式(26)转化为:$$ \begin{array}{*{20}{c}} {\left| \psi \right\rangle = \cos \dfrac{\theta }{2}\left| 0 \right\rangle + {{\rm{e}}^{{\rm{i}}\varphi }}\dfrac{\theta }{2}\left| 1 \right\rangle } \end{array} $$ (27) 由于仅需要两个实参数
$\theta $ 和$\varphi $ 就可以确定单位球面上的一个点,单量子比特可以在Bloch球上展示出来[131]。2) 密度矩阵
假设量子系统以
${p_i}$ 的概率处于基态$\left| {{\psi _i}} \right\rangle$ 中,则量子系统的密度算子${\boldsymbol{\rho}} $ 定义为:$$ {{\boldsymbol{\rho}} =\displaystyle \sum\limits_i {{p_i}\left| {{\psi _i}} \right\rangle \left\langle {{\psi _i}} \right|} = } \left| {{\psi _i}} \right\rangle \left\langle {{\psi _i}} \right| $$ (28) 密度算子的迹
${\rm{tr}}\left( {\boldsymbol{\rho}} \right) = 1$ ,并且${\boldsymbol{\rho}} $ 一定是半正定矩阵。如果${\rm{tr}}( {{{\boldsymbol{\rho}} ^2}} ) = 1$ ,则量子系统处于纯态。如果${\rm{ tr}}( {{{\boldsymbol{\rho}} ^2}} ) < 1$ ,则量子系统处于混合态。在Bloch球上,单量子比特的密度矩阵形式可以表示为:$$ \begin{array}{*{20}{c}} {{\boldsymbol{\rho}} = \dfrac{{{\boldsymbol{I}} + {\boldsymbol{r}} \cdot {\boldsymbol{\delta}} }}{2} = \dfrac{{1 + {r_1} \cdot {\delta _x} + {r_2} \cdot {\delta _y} + {r_3} \cdot {\delta _z}}}{2}} \end{array} $$ (29) 式中,
${\boldsymbol{r}}$ 是一个实三维向量,${\delta _i}\left( {i = 1,2,3} \right)$ 分别是Paulix、Pauliy和Pauliz矩阵;当$\left| r \right| = 1$ 时,${\rm{tr}}( {{{\boldsymbol{\rho}} ^2}}) = 1$ ,单量子比特系统处于纯态;当$\left| r \right| < 1$ 时,${\rm{tr}}( {{{\boldsymbol{\rho}} ^2}}) < 1$ ,量子系统处于混合态。 -
与经典计算机相对应,量子计算机采用量子逻辑门(Hadamard 、Pauli X、Pauli Y、Pauli Z、
${R_x}\left( \theta \right)$ 旋转、${R_y}\left( \theta \right)$ 旋转、${R_z}\left( \theta \right)$ 旋转、相位门、受控非门、交换门等)处理量子比特信息。每一个量子门对应一个幺正算子(也称为酉算子,酉矩阵)且每一个幺正算子满足${{\boldsymbol{U}}}^{\dagger}{\boldsymbol{U}}={\boldsymbol{U}}{{\boldsymbol{U}}}^{\dagger}={\boldsymbol{I}}$ ,其中${{\boldsymbol{U}}^\dagger }$ 是${{\boldsymbol{U }}}$ 的转置共轭。单量子比特逻辑门是一个$2*2$ 的酉矩阵,任意的$2*2$ 的酉矩阵可以分解为两个旋转矩阵${\boldsymbol{R}_y}\left( \alpha \right) = \left( {\begin{array}{*{20}{c}} {\cos \dfrac{\alpha }{2}}&{ - \sin \dfrac{\alpha }{2}} \\ {\sin \dfrac{\alpha }{2}}&{\cos \dfrac{\alpha }{2}} \end{array}} \right)$ 和${\boldsymbol{R}_z}\left( \beta \right) = \left( {\begin{array}{*{20}{c}} {{\rm{e}^{ - \rm{i}\frac{\beta }{2}}}}&0 \\ 0&{{\rm{e}^{\rm{i}\frac{\beta }{2}}}} \end{array}} \right)$ 的组合。 -
量子态编码是通过量子特征映射,将经典的数据集编码到量子态上;量子特征映射将通过量子编码线路实现。目前,量子态的编码方式众多,适用于处理不同的数据类型。
1) 计算基编码
计算基编码是通过将经典数据编码到量子比特的计算基态上,计算基编码仅仅只能处理经典离散数据。假设第
$i$ 个样本${x_i} = \left( {{x_{i1}},{x_{i2}}, \cdots ,{x_{im}}} \right)$ ,${x_{ij}} \in \left\{ {0,1} \right\}$ ,$j = 1,2, \cdots ,m$ 直接映射到m维量子态$\left| {{x_i}} \right.$ 上,则n个样本的数据集$D$ 可以表示为:$$ \begin{array}{*{20}{c}} {\left| D \right\rangle = \dfrac{1}{{\sqrt n }}\displaystyle \sum \limits_{i = 1}^n \left| {{x_i}} \right\rangle } \end{array} $$ (30) 需要特别说明的是,计算基编码所需的量子比特数
$l = \left\lceil {{{\log }_2}\left( m \right)} \right\rceil$ 。如果数据集D的样本数$n < < {2^l}$ ,则数据集D的编码将变得稀疏,编码效率低。2) 概率幅编码
概率幅编码是将标准化的经典数据映射到量子态的概率幅上,适合对连续数据的处理。一个标准化的m维数据点
${x_i}({x_i} \in {R^m}$ ),采用概率幅编码的方式将其编码为量子态可以表示为:$$ \begin{array}{*{20}{c}} {\left| {{\phi _{{x_i}}}} \right\rangle = \displaystyle\sum\limits_{j = 1}^m {{x_{i,j}}} \left| j \right\rangle } \end{array} $$ (31) 式中,
${x_{i,j}}$ 是标准化后数据点${x_i}$ 的第j个元素;$\left| j \right\rangle $ 是第$j$ 个计算基态。3) 张量积编码
张量积编码是将经典数据的每一个特征编码到单个量子比特的概率幅上并将该数据编码为张量积态,适合对连续型数据的处理。假设数据集D的第i个样本为
${x_i} = \left( {{x_{i1}},{x_{i2}}, \cdots ,{x_{im}}} \right)$ ,将${x_i}$ 的每一个特征${x_{{{ij}}}}$ 通过概率幅编码可以表示为:$$ \begin{array}{*{20}{c}} {\left| {{\phi _{{x_{ij}}}}} \right\rangle = \cos {x_{ij}}\left| 0 \right\rangle + \sin {x_{ij}}\left| 1 \right\rangle } \end{array} $$ (32) 式中,
${x_{ij}} \in \left[ {0,\dfrac{{\text{π}} }{2}} \right]$ ,$j = 1,2, \cdots ,m$ 。第$i$ 个样本通过张量积编码可以表示为:$$ \begin{split} & \;\;\;\;\;\;\;\;\;\;\;\left| {{\phi _{{x_i}}}} \right\rangle = \left( {\cos {x_{i1}}\left| 0 \right\rangle + \sin {x_{i1}}\left| 1 \right\rangle } \right) \otimes\\ &\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left( {\cos {x_{i2}}\left| 0 \right\rangle + \sin {x_{i2}}\left| 1 \right\rangle } \right) \otimes\cdots \\ &\;\;\;\;\;\;\;\;\;\;\;\;\; \otimes \left( {\cos {x_{im}}\left| 0 \right\rangle + \sin {x_{im}}\left| 1 \right\rangle } \right) =\\ & \begin{array}{*{20}{c}} { \left( {\begin{array}{*{20}{c}} {\cos {x_{i1}}} \\ {\sin {x_{i1}}} \end{array}} \right) \otimes \left( {\begin{array}{*{20}{c}} {\cos {x_{i2}}} \\ {\sin {x_{i2}}} \end{array}} \right) \otimes \cdots \otimes \left( {\begin{array}{*{20}{c}} {\cos {x_{im}}} \\ {\sin {x_{im}}} \end{array}} \right)} \end{array} \end{split}$$ (33) -
量子计算的结果是一个量子态,为了从该量子态中获取经典信息,需要对其进行测量,使其坍缩到一组基态的一个基态。量子测量由一组测量算子
$\left\{ {{M_m}} \right\}$ 描述,该组测量算子满足完备性($\displaystyle \sum \limits_m M_m^\dagger {M_m} = I$ ,$m$ 表示可能得到的测量结果,$M_m^\dagger = {M_m}$ )。若将测量算子作用在量子系统的$\left| \psi \right\rangle$ 态上,测量结果为$m$ 的概率为:$$ \begin{array}{*{20}{c}} {p\left( m \right) = \left\langle\psi \right|M_m^\dagger {M_m}\left| \psi \right\rangle } \end{array} $$ (34) -
量子信息的距离主要用于衡量两个量子态的接近程度,可以采用迹距离来度量两个量子态
$\rho $ 和$\sigma $ 的距离。迹距离定义为:$$ \begin{array}{*{20}{c}} {D\left( {\rho ,\delta } \right) = \dfrac{1}{2}{\rm{tr}}\left| {\rho - \delta } \right|} \end{array} $$ (35) 为了度量两个量子态的相似度,可以采用保真度来表示;保真度计算公式为:
$$ \begin{array}{*{20}{c}} {F\left( {\rho ,\delta } \right) = {\rm{tr}}\sqrt {\sqrt \rho \delta \sqrt \rho } } \end{array} $$ (36) 除此之外,文献[132]指出可以通过控制交换门实现两个量子量子态相似度的计算。
-
量子机器学习旨在利用量子计算的高并行性来达到进一步优化传统机器学习的目的。目前已有的量子机器学习主要分为3类[133]:1) 将机器学习算法中复杂度较高的部分替换为对应的量子版本进行计算,从而降低算法的时间复杂度和空间复杂度;2) 寻找量子系统的力学效应、动力学特性与传统机器学习处理步骤的相似点,将物理过程应用于传统机器学习问题的求解,进而产生出新的机器学习算法;3) 借助传统机器学习强大的数据分析能力,帮助物理学家更好的研究量子系统,更加有效的分析量子效应,作为物理学家对量子世界研究的有效辅助。目前,关于量子机器学习的研究主要集中于第一类研究,第二类研究比较少,该类算法代表性研究为文献[134]提出的基于量子力学的聚类算法,其全部过程均可以在经典计算机中实现。第三类研究主要集中于物理领域。该类算法代表性研究为文献[135]提出的基于压缩感知的量子断层分析,将促进我们对微观世界的理解。
-
2014年,文献[136]提出了量子最近邻算法(quantum nearest neighbor, QNN),该算法通过计算两个量子态的内积或者欧氏距离来判别该其分类结果。QNN算法首先将训练样本集
${v_j}\left( {j = 1,2, \cdots ,M} \right)$ 和待分类的样本v0:=u通过概率幅编码的方式加载到量子态上,即:$$ |v\rangle = {d^{ - 1/2}}\sum\limits_{i:{{\boldsymbol{v}}_i} \ne 0} | i\rangle \left( {\sqrt {1 - \frac{{r_{ji}^2}}{{{r_{{{\max }^2}}}}}{{\rm{e}}^{ - {\rm{i}}{\phi _i}}}|0\rangle + \frac{{{{\boldsymbol{v}}_{ji}}}}{{{r_{\max }}}}|1\rangle } } \right)|1\rangle $$ (37) $$ |u\rangle = {d^{ - 1/2}}\sum\limits_{i:{{\boldsymbol{v}}_{0i}} \ne 0} | i\rangle |1\rangle \left( {\sqrt {1 - \frac{{r_{0i}^2}}{{{r_{{{\max }^2}}}}}{{\rm{e}}^{ - i}{{\phi _i}}}|0\rangle + \frac{{{{\boldsymbol{v}}_{0i}}}}{{{r_{\max }}}}|1\rangle } } \right) $$ (38) 式中,
${{\boldsymbol{v}}_{ji}} = {r_{ji}}{{\rm{e}}^{{\rm{i}}{\varphi _{ji}}}}$ ;${r_{{\rm{max}}}}$ 为特征值的上界;${r_{ji}}$ 是大于0的数。通过利用控制交换门计算两个量子态的内积就可以确定两个量子态的距离。如果对$\left| v \right\rangle $ 和$\left| u \right\rangle $ 执行swap test操作,可以得到$\left| v \right\rangle $ 和$\left| u \right\rangle $ 的内积的平方:$$ \begin{array}{*{20}{c}} {{{\left| {\left\langle {u} \mathrel{\left | {\vphantom {u v}} \right. } {v} \right\rangle } \right|}^2} = \left( {2P\left( 0 \right) - 1} \right){d^2}r_{{\rm{max}}}^4} \end{array} $$ (39) 尽管在文献[136]也采用欧氏距离来计算量子态的欧式距离,但是实验结果表明采用欧式距离计算的方法比内积方法需要更多的迭代次数。
-
量子计算与支持向量机的结合最早是利用Grover搜索算法的二次加速效果处理SVM模型的优化计算问题[137]。2014年,文献[138]提出了量子支持向量机算法(quantum support vector machine, QSVM),该算法利用利用量子计算的高并行性来改进传统支持向量机算法,进而有效提高计算效率,降低计算复杂度。QSVM算法首先将每一个数据样本点
${x_i} = ( {{x_{i1}},{x_{i2}}, \cdots {x_{ij}}} ),j = 1,2, \cdots ,m$ 的$j$ 个特征向量通过概率幅编码方式编码到量子态上,即:$$ \begin{array}{*{20}{c}} {\left| {{x_i}} \right\rangle = {{\left| {{x_i}} \right|}^{ - 1}} \cdot \displaystyle\sum\limits_{j = 1}^m {{x_{ij}}} \left| j \right\rangle } \end{array} $$ (40) 式中,
${\left| {{x_i}} \right|^{ - 1}}$ 是归一化向量,$m$ 为特征维度。训练集的量子态制备为:$$ \begin{array}{*{20}{c}} {\left| \chi \right\rangle = {{\left( {\sqrt {{N_\chi }} } \right)}^{ - 1}} \cdot \displaystyle \sum \limits_{i = 1}^n \left| {{x_i}} \right|\left| i \right\rangle \left| {{x_i}} \right\rangle } \end{array} $$ (41) 式中,
$\sqrt {{N_\chi }} = \displaystyle \sum \limits_{i = 1}^n {\left| {{x_i}} \right|^2}$ ,${x_i}$ 为第$i$ 个训练样本。训练数据集的内积运算${{\boldsymbol{K}}_{ij}} = {x_i} \cdot {x_j}$ 可以通过求解密度矩阵$\left| \chi \right\rangle \left\langle \chi \right|$ 的偏迹得到:$$ {\rm{t{r}}}_{2}\left(|\chi \rangle \langle \chi |\right)=\frac{1}{{N}_{\chi }}{\displaystyle \sum _{i,j=1}^{M}\left|{x}_{i}\right|}\left|{x}_{j}\right|\langle {x}_{i}|{x}_{j}\rangle |i\rangle |j\rangle = \frac{{\boldsymbol{K}}}{{{\rm{tr}}{\boldsymbol{K}}}}$$ (42) 式中,
${x_i} \cdot {x_j} = \left| {{x_i}} \right|\left| {{x_j}} \right|\left\langle {{{x_i}}} \mathrel{\left | {\vphantom {{{x_i}} {{x_j}}}} \right. } {{{x_j}}} \right\rangle $ 。另外,还可以利用量子HHL算法实现对最小二乘支持向量机算法中的线性方程组的加速求解。最小二乘支持向量机算法可以转化为求解如下的线性方程组:$$ \begin{array}{*{20}{c}} {\left( {\begin{array}{*{20}{c}} 0&{{{ {\boldsymbol{1}}}^{\rm{T}}}} \\ { {\boldsymbol{1}}}&{{\boldsymbol{K}} + {\gamma ^{ - 1}}{\boldsymbol{I}}} \end{array}} \right)\left( {\begin{array}{*{20}{c}} {{b}} \\ { {\boldsymbol{\alpha}} } \end{array}} \right) = \left( {\begin{array}{*{20}{c}} 0 \\ { {\boldsymbol{y}}} \end{array}} \right)} \end{array} $$ (43) 式中,
${{\boldsymbol{K}}_{ij}} = {x_i} \cdot {x_j}$ 为核矩阵;$\gamma $ 为正则化参数,用于平衡经验风险与置信范围,以达到结构风险最小化。${\left( {{{b}},{\boldsymbol{\alpha}} } \right)^{\rm{T}}}$ 可以利用量子HHL算法对等式(43)求解得到:$$ \begin{array}{*{20}{c}} {\left| {{{b}}, {\boldsymbol{\alpha}} } \right\rangle = \dfrac{1}{{\sqrt {{N_{{{b}},{\boldsymbol{\alpha}} }}} }}\left( {{{b}}\left| 0 \right\rangle + \displaystyle \sum \limits_{k = 1}^M {{\boldsymbol{\alpha}} _i}\left| i \right\rangle } \right)} \end{array} $$ (44) 式中,
${N_{{{b}},{\boldsymbol{\alpha}} }} = {{{b}}^2} +\displaystyle \sum \limits_{k = 1}^M {\boldsymbol{\alpha}} _k^2$ 。最后构造量子态$\left| {\tilde u} \right\rangle $ 和待分类的量$\left| {\tilde x} \right\rangle $ ,通过利用控制交换门计算两个量子态的相似度就可以得到$\left| {\tilde x} \right\rangle $ 所属类别:$$ \begin{array}{*{20}{c}} {\left| {\tilde u} \right\rangle = \dfrac{1}{{\sqrt {{N_u}} }}\left( {{{b}}\left| 0 \right\rangle \left| 0 \right\rangle +\displaystyle \sum\limits_{k = 1}^M {{{\boldsymbol{\alpha}} _k}\left| {{{ {\boldsymbol{x}}}_k}} \right|} \left| k \right\rangle \left| {{{ {\boldsymbol{x}}}_k}} \right\rangle } \right)} \end{array} $$ (45) $$ \begin{array}{*{20}{c}} {\left| {\tilde x} \right\rangle = \dfrac{1}{{\sqrt {{N_{\tilde x}}} }}\left( {\left| 0 \right\rangle \left| 0 \right\rangle + \displaystyle \sum \limits_{k = 1}^M \left| { {\boldsymbol{x}}} \right|\left| k \right\rangle \left| { {\boldsymbol{x}}} \right\rangle } \right)} \end{array} $$ (46) 式中,
${N_{\tilde u}} = {{{b}}^2} + \displaystyle \sum \limits_{k = 1}^M {\boldsymbol{\alpha}} _k^2{\left| {{{ {\boldsymbol{x}}}_k}} \right|^2}$ ;${N_{\tilde x}} = $ $ M{\left| { {\boldsymbol{x}}} \right|^2} + 1$ 。关于量子支持向量机的验证方面,文献[139]在核磁平台上利用4个量子比特实现了对手写数字6和9的识别,实现结果表明了QSVM算法的可行性;随后,文献[140]受量子SVM的启发,提出了一种使用快速采样技术的SVM量子启发式经典算法;文献[141]提出了新的量子算法,以指数速度加快双支持向量机的训练和预测过程;文献[142]研究了量子增强最小二持向量机,并提出了一种简化的量子算法和稀疏解。
-
2012年,文献[143]首次提出了一个基于量子HHL算法的量子线性回归算法(quantum linear regression, QLR),该算法能够实现对经典算法的指数级加速。量子线性回归算法的目的是采用量子算法求解最优拟合参数
$ {\boldsymbol{w}} $ :$$ \begin{array}{*{20}{c}} {{\boldsymbol{w}} = {{\boldsymbol{X}}^ + }{\boldsymbol{y}} = {{( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}} )}^{ - 1}}{{\boldsymbol{X}}^\dagger }{\boldsymbol{y}}} \end{array} $$ (47) 式中,
${\boldsymbol{y}} = {\left( {{y_1},{y_2}, \cdots ,{y_n}} \right)^{\rm{T}}}$ ;${\boldsymbol{X}} = {\left( {{x_1},{x_2}, \cdots ,{x_n}} \right)^{\rm{T}}}$ 为数据矩阵。为了计算${\boldsymbol{w}}$ ,将等式(47)转化为对两个子过程的求解,即${\boldsymbol{y}}' = {{\boldsymbol{X}}^\dagger }{\boldsymbol{y}}$ 和${\boldsymbol{w}} = {( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}} )^{ - 1}}{\boldsymbol{y}}'$ 。对于${\boldsymbol{y}}' = {{\boldsymbol{X}}^\dagger }{\boldsymbol{y}}$ ,首先将矩阵y通过概率幅编码加载在量子态上,即:$$ \begin{array}{*{20}{c}} {\left| y \right\rangle = \displaystyle \sum \limits_{p = M + 1}^{M + N} \frac{{{{\boldsymbol{y}}_p}}}{{\left| y \right|}}\left| p \right\rangle } \end{array} $$ (48) 由于矩阵X不是厄米矩阵,定义一个算符
$I$ ,将矩阵X转化为厄米矩阵${\boldsymbol{I}}\left( {\boldsymbol{X}} \right)$ :$$ \begin{array}{*{20}{c}} {{\boldsymbol{I}}\left( {\boldsymbol{X}} \right) = \left( {\begin{array}{*{20}{c}} 0&{\boldsymbol{X}} \\ {{{\boldsymbol{X}}^\dagger }}&0 \end{array}} \right)} \end{array} $$ (49) 此时,对于
${\boldsymbol{y}}' = {{\boldsymbol{X}}^\dagger }{\boldsymbol{y}}$ 可以转化为求解$\left| {{\boldsymbol{y}}'} \right\rangle = {\boldsymbol{I}}\left({\boldsymbol{ X}} \right)\left|{\boldsymbol{ y}} \right\rangle$ 。对于${\boldsymbol{w}} = {( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}} )^{ - 1}}{\boldsymbol{y}}'$ ,需要将矩阵${( {{\boldsymbol{X}^\dagger }\boldsymbol{X}} )^{ - 1}}$ 转化为厄米矩阵${\boldsymbol{I}}\left( {{{( {{\boldsymbol{X}^\dagger }\boldsymbol{X}} )}^{ - 1}}} \right)$ :$$ \begin{split} & {\boldsymbol{I}}\left( {{{( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}} )}^{ - 1}}} \right) = {\left( {\begin{array}{*{20}{c}} {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}}&0 \\ 0&{{\boldsymbol{X}}{{\boldsymbol{X}}^\dagger }} \end{array}} \right)^{ - 1}}=\\ &\;\;\;\;\;\;\;\;\begin{array}{*{20}{c}} { \left( {\begin{array}{*{20}{c}} {{{( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}} )}^{ - 1}}}&0 \\ 0&{{{( {{\boldsymbol{X}}{{\boldsymbol{X}}^\dagger }} )}^{ - 1}}} \end{array}} \right)} \end{array} \end{split}$$ (50) 此时,对于
${\boldsymbol{w}} = {( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}} )^{ - 1}}{\boldsymbol{y}}'$ 可以转化为求解$\left| w \right\rangle = $ $ {\boldsymbol{I}}( {{{( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}})}^{ - 1}}} )\left| {{{y}}'} \right\rangle$ 。$\left| {y'} \right\rangle = {\boldsymbol{I}}\left( {\boldsymbol{X}} \right)\left| y \right\rangle$ 和$\left| w \right\rangle = I( {{{( {{{\boldsymbol{X}}^\dagger }{\boldsymbol{X}}} )}^{ - 1}}} )\left| {y'} \right\rangle$ 可以通过量子HHL算法对其进行求解,进而得到拟合参数的量子态$\left| w \right\rangle $ 。 -
关于量子计算与K-means算法结合的思想最早可以追溯到文献[144]提出的利用受控交换门计算K-means算法中数据的相似度;随后,文献[145-146]提出利用量子最小值查找算法对经典K-means算法进行加速;2013年,文献[147]提出了量子版最近中心算法,该算法可以视作为量子K-means算法的子过程且能够实现对经典算法的指数级加速。量子最近中心算法的主要思想是计算向量
$ {\boldsymbol{u}}$ 与集合$V$ 中的向量的平均值的距离,进而判断是否属于集合$V$ ,即$\left| { {\boldsymbol{u}} - \dfrac{1}{M}\displaystyle \sum \limits_{j = 1}^M {{{\boldsymbol{ v}}}_j}} \right|$ 。首先将向量${\boldsymbol{u}}$ 转化为量子态$\left| {\boldsymbol{u}} \right\rangle$ ,集合V中的向量转化为量子态$\left\{ {\left| {{{\boldsymbol{v}}_j}} \right\rangle } \right\}$ ;之后,构造量子态$\left| \psi \right\rangle $ 和量子态$\left| \varphi \right\rangle $ :$$ \begin{array}{*{20}{c}} {\left| \psi \right\rangle = \dfrac{1}{{\sqrt 2 }}\left( {\left| 0 \right\rangle \left| {\boldsymbol{u}} \right\rangle + \dfrac{1}{M}\displaystyle \sum \limits_{j = 1}^M \left| j \right\rangle \left| {{{\boldsymbol{v}}_j}} \right\rangle } \right)} \end{array} $$ (51) $$ \begin{array}{*{20}{c}} {\left| \varphi \right\rangle = \dfrac{1}{{\sqrt Z }}\left( {\left| {{\boldsymbol{ u}}} \right|\left| 0 \right\rangle - \dfrac{1}{{\sqrt M }}\displaystyle \sum \limits_j \left| {{{ {\boldsymbol{v}}}_j}} \right|\left| j \right\rangle } \right)} \end{array} $$ (52) 式中,
$Z = {\left| { {\boldsymbol{u}}} \right|^2} + \dfrac{1}{M}\displaystyle \sum \limits_j {\left| {{{\boldsymbol{v}}_j}} \right|^2}$ 。两个量子态之间的距离可以通过执行控制交换门得到。在量子K-means算法的验证方面,2015年,文献[148]在小型光量子计算机上实现并验证了量子K-means算法;随后,文献[149]通过采用量子比特来表示空间中的点,提出了高效的基于距离最小化原则的量子K-means算法,该算法相比经典的K-means算法能够实现指数级加速;文献[150]通过引入相位估计算法和最小值查找量子算法,提出了量子K-means算法,该算法能够极大降低整体计算复杂度。
-
2014年,文献[151]提出了量子主成分分析算法(quantum principal component analysis, QPCA),该算法使用未知密度矩阵的多个副本来构造最大特征值(主成分)对应的特征向量,可以应用于量子态的判别和分配问题。对于密度矩阵
${\boldsymbol{\rho}}$ ,在特征空间上对其分解可以表示为:$$ {{\boldsymbol{\rho}} = {\boldsymbol{}}\sum\limits_j {{\lambda _j}} \left| {{{\boldsymbol{u}}_j}} \right\rangle } \left\langle {{{\boldsymbol{u}}_j}} \right| $$ (53) 式中,
${\lambda _j}$ 为特征值;${{\boldsymbol{u}}_j}$ 为其对应的特征向量。QPCA最关键的部分是构造受控${{\rm{e}}^{ - {\rm{i}}{\boldsymbol{\rho}} t}}$ 。构造${{\rm{e}}^{ - {\rm{i}}{\boldsymbol{\rho}} t}}$ 的方法可以由式(54)表示:$$ \begin{split} & {\rm{t{r}}}_{p}{{\rm{e}}}^{-{\rm{i}}{\boldsymbol{S}}\Delta t}{\boldsymbol{\rho}} \otimes \delta {{\rm{e}}}^{{\rm{i}}{\boldsymbol{S}} \Delta t} =\left({\mathrm{cos}}^{2}\Delta t\right)\delta +\left({\mathrm{sin}}^{2}\Delta t\right){\boldsymbol{\rho}} -i\mathrm{sin}\Delta t\left[{\boldsymbol{\rho}} ,\delta \right] = \\ &\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\begin{array}{*{20}{c}} { \delta - i\Delta t\left[ {{\boldsymbol{\rho}} ,\delta } \right] + { O}\left( {\Delta {t^2}} \right)} \\[-10pt] \end{array} \end{split}$$ (54) 式中,
${\rm{tr}}_{P}$ 为对第一个变量取偏迹;矩阵S为交换算子;${\boldsymbol{\delta}} = \left| u \right\rangle \left\langle u \right|$ 为特征向量。因此,借助密度算子ρ的n个副本和一个稀疏的交换矩阵S,通过偏迹运算可以实现${{\rm{e}}^{ - {\rm{i}}{\boldsymbol{\rho}} t}}$ 。将酉算子
$\displaystyle \sum \limits_n \left| {n\Delta t} \right\rangle \left\langle {n\Delta t} \right| \otimes \mathop \prod \limits_{j = 1}^n {{\rm{e}}^{ - {\rm{i}}{S_j}\Delta t}}$ 作用于$\left| {n\Delta t} \right\rangle $ $ \left\langle {n\Delta t} \right| \otimes \delta \otimes {\boldsymbol{\rho}} \otimes \cdots \otimes{\boldsymbol{ \rho}}$ ,再对n个子系统做偏迹运算即可实现受控${\rm{e}^{ - \rm{i}{\boldsymbol{\rho}} t}}$ ,如式(55)所示:$$ \begin{array}{*{20}{c}} {{\rm{t}}{{\rm{r}}_P}\left( {\begin{array}{*{20}{c}} {\left( {\displaystyle \sum \limits_n \left| {n\Delta t} \right\rangle \left\langle {n\Delta t} \right| \otimes \mathop \prod \limits_{j = 1}^n {{\rm{e}}^{ - {\rm{i}}{S_j}\vartriangle t}}} \right)} \\ {\left| {n\Delta t} \right\rangle \left\langle {n\Delta t} \right| \otimes \delta \otimes {\boldsymbol{\rho}} \otimes \cdots \otimes {\boldsymbol{\rho }}} \end{array}} \right)} \end{array} $$ (55) 最后,通过借助相位估计便可分解出密度算子ρ的特征值和特征向量。
综上,采用基于量子计算的信息处理技术在处理分类、回归、聚类、降维、评价、推理等任务时具有更高的效率。经过近四十年发展,量子计算与量子机器学习已取得一些阶段性成果。量子计算带来机器学习对数据处理能力的提高,给众多的研究者带来了无限的希望和憧憬。如何在已经来临的“大数据+人工智能+量子计算”时代,充分利用量子计算的优势(比如高并行性等),提高机器学习的学习效率,以及对大数据的处理、分析和挖掘能力,已经成为量子机器学习的研究热点。
Research Progress and Perspectives of Quantum Machine Learning in Big Data Environment
-
摘要: 复杂性是大数据区别于传统数据的根本所在,大数据的复杂性必然带来不确定性,如何高效、安全、准确地处理大数据所具有的复杂性和不确定性问题已经成为实现大数据知识发现的前提和关键。该文分析了目前大数据环境下不确定性集合理论和大数据计算与分析方法、机器学习、量子计算及量子机器学习的研究现状和不足,展望了未来的发展趋势,指出在即将来临的“大数据+人工智能+量子计算”时代,将“大数据+不确定性集合理论+机器学习+量子计算”交叉融合研究既有理论和现实意义,又有实用价值,也必将成为智慧化时代大数据领域的研究热点。#共同第一作者Abstract: Complexity is what makes big data and traditional data fundamentally different. The complexity of big data inevitably brings uncertainty. How to deal with the complexity and uncertainty of big data efficiently, safely and accurately has become the premise and key to big data exploration. This paper analyzes the shortcomings of the uncertainty set theory, big data computing and analytics, machine learning, quantum computing and quantum machine learning in big data environment in-depth, looks forward to the future development trends and points out that the cross fusion of "big data + uncertainty set theory + machine learning algorithm + quantum computing " in the coming era of "big data + artificial intelligence + quantum computing" is of value in both theoretical and actual significance, also will become a research hotspot in the field of intelligent era of big data.
-
Key words:
- big data /
- machine learning /
- quantum computing /
- quantum machine learning /
- uncertainty set theory
-
图 1 量子机器学习算法的基本流程[152]
-
[1] 李建中, 李英姝. 大数据计算的复杂性理论与算法研究进展[J]. 软件学报, 2016, 46(9): 1255-1275. doi: 10.1360/N112016-00060 LI J Z, LI Y S. Research progress in the complexity theory and algorithms of big-data computation[J]. Scientia Sinica (Informationis), 2016, 46(9): 1255-1275. doi: 10.1360/N112016-00060 [2] SUCHANNEK F M, WEIKUM G. Knowledge bases in the age of big data analytics[C]//Proceedings of the VLDB Endowment. [S.l.]: ACM, 2014: 1713-1714. [3] RAY P K, MOHANTY S R, KISHOR N, et al. Optimal feature and decision tree-based classification of power quality disturbances in distributed generation systems[J]. IEEE Transactions on Sustainable Energy, 2014, 5(1): 200-208. doi: 10.1109/TSTE.2013.2278865 [4] BILSKI J, SMOLAG J. Parallel architectures for learning the RTRN and Elman dynamic neural networks[J]. IEEE Transactions on Parallel and Distributed Systems, 2015, 26(9): 2561. doi: 10.1109/TPDS.2014.2357019 [5] PARRA-RODRIGUEZ A, LOUGOVSKI P, LAMATA L, et al. Digital-analog quantum computation[J]. Physical Review A, 2020, 101(2): 022305. doi: 10.1103/PhysRevA.101.022305 [6] ZADEH L A. Fuzzy sets[J]. Information and Control, 1968(65): 338-353. [7] GAW W L, BUEHRER D J. Vague sets[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1993, 23(2): 610-614. doi: 10.1109/21.229476 [8] PAWLAK Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11(5): 341-356. [9] TANASSOV K. Intuionistic fuzzy sets[J]. Fuzzy Sets Systems, 1986, 20(1): 87-96. doi: 10.1016/S0165-0114(86)80034-3 [10] 徐军, 钟元生, 万树平. 一种集成直觉模糊信息的激励自适应信任模型[J]. 电子与信息学报, 2016, 38(4): 803-810. XU J, ZHONG Y S, WAN S P. Incentive adaptive trust model based on integrated intuitionistic fuzzy information[J]. Journal of Electronics and Information Technology, 2016, 38(4): 803-810. [11] 陈晓红, 赵翠翠, 杨立. 基于区间直觉模糊数的群决策模型及其在社交网络中应用[J]. 系统工程理论与实践, 2017, 37(7): 1842-1852. doi: 10.12011/1000-6788(2017)07-1842-11 CHEN X H, ZHAO C C, YANG L. A group decision-making model based on interval-valued intuitionistic fuzzy numbers and its application on social network[J]. Syst Eng Theory Pract, 2017, 37(7): 1842-1852. doi: 10.12011/1000-6788(2017)07-1842-11 [12] 姚晟, 徐风, 赵鹏, 等. 基于自适应邻域空间粗糙集模型的直觉模糊熵特征选择[J]. 计算机研究与发展, 2018, 55(4): 802-814. doi: 10.7544/issn1000-1239.2018.20160919 YAO S, XU F, ZHAO P, et al. Intuitionistic fuzzy entropy feature selection algorithm based on adaptive neighborhood space rough set model[J]. Journal of Computer Research and Development, 2018, 55(4): 802-814. doi: 10.7544/issn1000-1239.2018.20160919 [13] 钟晓芳, 兰红娟, 江文奇. 共识驱动的区间直觉模糊型多准则群体决策信息融合模型[J]. 系统工程与电子技术, 2020, 42(7): 132-140. ZHONG X F, LAN H J, JIANG W Q. Consensus driven information fusion model of interval-valued intuitionistic fuzzy multi-criteria group decision making[J]. Systems Engineering and Electronics, 2020, 42(7): 132-140. [14] 张士勤, 徐传胜. 不确定性集合理论及其研究进展[J]. 西北大学学报(自然科学版), 2009, 39(4): 696-700. ZHANG S Q, XU C S. Uncertainty set theory and its research development[J]. Journal of Northwest University(Natural Science Edition), 2009, 39(4): 696-700. [15] KRYSZKIEWICZ M. Rough set approach to incomplete information systems[J]. Information Sciences, 1998, 112(1-4): 39-49. doi: 10.1016/S0020-0255(98)10019-1 [16] STEFANOWSKI J, TSOUKIAS A. On the extension of rough sets under incomplete information[C]//International Workshop on Rough Sets, Fuzzy Sets, Data Mining, and Granular-Soft Computing. Berlin, Heidelberg: Springer, 1999: 73-81. [17] GRECO S, MATARAZZO B, SLOWINSKI R. Rough approximation by dominance relations[J]. International Journal of Intelligent Systems, 2002, 17(2): 153-171. doi: 10.1002/int.10014 [18] ZHANG J, LI T, CHEN H. Composite rough sets for dynamic data mining[J]. Information Sciences, 2014, 257: 81-100. doi: 10.1016/j.ins.2013.08.016 [19] ZIARKO W. Variable precision rough set model[J]. Journal of Computer and System Sciences, 1993, 46(1): 39-59. doi: 10.1016/0022-0000(93)90048-2 [20] WONG S, ZIARKO W. Comparison of the probabilistic approximate classification and the fuzzy set model[J]. Fuzzy Sets & Systems, 1987, 21(3): 357-362. [21] YAO Y Y. Decision-theoretic rough set models[C]// International Conference on Rough Sets & Knowledge Technology. Berlin, Heidelberg: Springer, 2007: 1-12 [22] DUBOIS D, PRADE H. Rough fuzzy sets and fuzzy rough sets[J]. International Journal of General System, 1990, 17(2-3): 191-209. doi: 10.1080/03081079008935107 [23] YAO Y Y. Combination of rough and fuzzy sets based on α-level sets[M]//Rough Sets and Data Mining. Boston, MA: Springer, 1997: 301-321. [24] ZHOU L, WU W Z. On generalized intuitionistic fuzzy approximation operators[J]. Information Sciences, 2008, 178(11): 2448-2465. [25] 陈国良, 毛睿, 陆克中. 大数据并行计算枢架[J]. 科学通报, 2015, 60: 566-569. doi: 10.1360/N972014-00834 CHEN G L, MAO R, LU K Z. Parallel computing framework for big data[J]. Chin Sci Bull, 2015, 60: 566-569. doi: 10.1360/N972014-00834 [26] DEAN J, GHEMAWAT S. MapReduce: A flexible data processing tool[J]. Communications of the ACM, 2010, 53(1): 72-77. doi: 10.1145/1629175.1629198 [27] 丁言. 云计算下大数据高效处理的若干关键问题研究 [D]. 吉林: 吉林大学, 2018. DING Y. Research on key problems of efficient processing of big data in cloud computing[D]. Jilin: Jilin University, 2018. [28] WANG X K, YANG L T, CHEN X Y, et al. A multi-order distributed HOSVD with its incremental computing for big service in cyber-physical-social systems[J]. IEEE Transactions on Big Data, 2018, 6(4): 666-678 [29] HEFEEDA M, GAO F, ABD-ALMAGEED W. Distributed approximate spectral clustering for large-scale datasets[C]//Proceedings of the 21st International Symposium on High-Performance Parallel and Distributed Computing. New York: ACM, 2012: 223-234. [30] 何清, 李宁, 罗文娟, 等. 大数据下的机器学习算法综述[J]. 模式识别与人工智能, 2014, 27(4): 327-336. doi: 10.3969/j.issn.1003-6059.2014.04.007 HE Q, LI N, LUO W J, et al. A survey of machine learning algorithms for big data[J]. Pattern Recognition and Artificial Intelligence, 2014, 27(4): 327-336. doi: 10.3969/j.issn.1003-6059.2014.04.007 [31] SHIM K. MapReduce algorithms for big data analysis[C]//Proceedings of the VLDB Endowment: [S.l.]: ACM, 2014: 1713-1714. [32] PALIT I, REDDY C K. Scalable and parallel boosting with mapreduce[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 24(10): 1904-1916. [33] ZHOU X, HE J, HUANG G, et al. SVD-based incremental approaches for recommender systems[J]. Journal of Computer and System Sciences, 2015, 81(4): 717-733. doi: 10.1016/j.jcss.2014.11.016 [34] KUANG L, HAO F, YANG L T, et al. A tensor-based approach for big data representation and dimensionality reduction[J]. IEEE Transactions on Emerging Topics in Computing, 2014, 2(3): 280-291. doi: 10.1109/TETC.2014.2330516 [35] WANG X, WANG W, YANG L T, et al. A distributed HOSVD method with its incremental computation for big data in cyber-physical-social systems[J]. IEEE Transactions on Computational Social Systems, 2018, 5(2): 481-492. doi: 10.1109/TCSS.2018.2813320 [36] WANG X, YANG L T, LIU H, et al. A bigdata-as-a-service framework: State-of-the-art and perspectives[J]. IEEE Transactions on Big Data, 2018, 4(3): 325-340. doi: 10.1109/TBDATA.2017.2757942 [37] 丁青松. 基于Hadoop平台的大数据增量处理技术的研究[D]. 沈阳: 东北大学, 2014. DING Q S. Research on techniques of incremental processing for big data based on Hadoop platform[D]. Shenyang: Northeastern University, 2014. [38] 孙大为, 常桂然, 陈东, 等. 云计算环境中绿色服务级目标的分析、量化、建模及评价[J]. 计算机学报, 2014, 36(7): 1509-1525. doi: 10.3724/SP.J.1016.2013.01509 SUN D W, CHANG G R, CHEN D, et al. Profiling, quantifying, modeling and evaluating green service level objectives in cloud computing environments[J]. Chinese Journal of Computers, 2014, 36(7): 1509-1525. doi: 10.3724/SP.J.1016.2013.01509 [39] SHUJA J, BILAL K, MADANI S A, et al. Data center energy efficient resource scheduling[J]. Cluster Computing, 2014, 17(4): 1265-1277. doi: 10.1007/s10586-014-0365-0 [40] IBRAHIM S, PHAN T D, CARPEN-AMARIE A, et al. Governing energy consumption in Hadoop through CPU frequency scaling: An analysis[J]. Future Generation Computer Systems, 2016, 54: 219-232. doi: 10.1016/j.future.2015.01.005 [41] GAO B, HE L. Modelling energy-aware task allocation in mobile workflows[C]//Proceedings of the International Conference on Mobile and Ubiquitous Systems: Computing, Networking, and Services (MobiQuitous’2013). [S.l.]: Springer, 2013: 89-101. [42] ZHAO W, MA H, HE Q. Parallel K-means clustering based on mapreduce[C]//IEEE International Conference on Cloud Computing. Berlin, Heidelberg: Springer, 2009: 674-679. [43] KIM Y, SHIM K, KIM M S, et al. DBCURE-MR: An efficient density-based clustering algorithm for large data using MapReduce[J]. Information Systems, 2014, 42(15): 15-35. [44] CUI X, ZHU P, YANG X, et al. Optimized big data K-means clustering using MapReduce[J]. The Journal of Supercomputing, 2014, 70(3): 1249-1259. doi: 10.1007/s11227-014-1225-7 [45] ZHAO Y, CHEN Y, LIANG Z, et al. Big data processing with probabilistic latent semantic analysis on MapReduce[C]//2014 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery. Shanghai: IEEE, 2014: 162-166. [46] LIAO Q, YANG F, ZHAO J. An improved parallel K-means clustering algorithm with MapReduce[C]//2013 15th IEEE International Conference on Communication Technology. Guilin: IEEE, 2013: 764-768. [47] AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data. Washington: ACM, 1993: 207-216. [48] 王万良, 张兆娟, 高楠, 等. 基于人工智能技术的大数据分析方法研究进展[J]. 计算机集成制造系统, 2019, 25(3): 529-547. WANG W L, ZHANG Z J, GAO N, et al. Progress of big data analytics methods based on artificial intelligence technology[J]. Comput Integr Manuf Syst, 2019, 25(3): 529-547. [49] LI N, ZENG L, HE Q, et al. Parallel implementation of apriori algorithm based on mapreduce[C]//2012 13th ACIS International Conference on Software Engineering, Artificial intelligence, Networking and Parallel/Distributed Computing. Washington: IEEE, 2012: 236-241. [50] HAO X, TAN Y, WANG J. Research and implementation of parallel apriori algorithm on hadoop platform[J]. Computer and Modernization, 2013, 3(1): 1-5. [51] HAN J, PEI J, YIN Y. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record, 2000, 29(2): 1-12. doi: 10.1145/335191.335372 [52] WANG L, FENG L, ZHANG J, et al. An efficient algorithm of frequent itemsets mining based on mapreduce[J]. Journal of Information & Computational Science, 2014, 11(8): 2809-2816. [53] 刘智勇. 关联规则挖掘的并行化算法研究[D]. 南京: 东南大学, 2016. LIU Z Y. Parallelizable algorithms research of association rules mining[D]. Nanjing: Southeast University, 2016. [54] DEL RIO S, LOPEZ V, BENITEZ J M, et al. On the use of mapreduce for imbalanced big data using random forest[J]. Information Sciences, 2014, 285: 112-137. doi: 10.1016/j.ins.2014.03.043 [55] SINGH K, GUNTUKU S C, THAKUR A, et al. Big data analytics framework for peer-to-peer botnet detection using random forests[J]. Information Sciences, 2014, 278: 488-497. doi: 10.1016/j.ins.2014.03.066 [56] HUANG G, HUANG G B, SONG S, et al. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32-48. doi: 10.1016/j.neunet.2014.10.001 [57] KAMAL S, RIPON S H, DEY N, et al. A MapReduce approach to diminish imbalance parameters for big deoxyribonucleic acid dataset[J]. Computer Methods and Programs in Biomedicine, 2016, 131: 191-206. doi: 10.1016/j.cmpb.2016.04.005 [58] LIN Y, LV F, ZHU S, et al. Large-scale image classification: Fast feature extraction and SVM training[C]//CVPR 2011. Colorado: IEEE, 2011: 1689-1696. [59] BEN-HAIM Y, TOM-TOV E. A streaming parallel decision tree algorithm[J]. Journal of Machine Learning Research, 2010, 11(2): 849-872. [60] KRUTHIVENTI SSS, AYUSH K, BABU R V. Deepfix: A fully convolutional neural network for predicting human eye fixations[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4446-4456. doi: 10.1109/TIP.2017.2710620 [61] SOUALHI A, CLERC G, RAZIK H, et al. Hidden Markov models for the prediction of impending faults[J]. IEEE Transactions on Industrial Electronics, 2016, 63(5): 3271-3281. doi: 10.1109/TIE.2016.2535111 [62] RUTA D. Automated trading with machine learning on big data[C]//2014 IEEE International Congress on Big Data. Anchorage: IEEE, 2014: 824-830. [63] SUTHAHARAN S. Big data classification: Problems and challenges in network intrusion prediction with machine learning[J]. ACM SIGMETRICS Performance Evaluation Review, 2014, 41(4): 70-73. doi: 10.1145/2627534.2627557 [64] WAMBA S F, GUNASEKARAN A, AKTER S, et al. Big data analytics and firm performance: Effects of dynamic capabilities[J]. Journal of Business Research, 2017, 70: 356-365. doi: 10.1016/j.jbusres.2016.08.009 [65] KRAMER O. K-nearest neighbors[M]//Dimensionality Reduction with Unsupervised Nearest Neighbors. Berlin, Heidelberg: Springer, 2013: 13-23. [66] ZHANG Z. Introduction to machine learning: K-nearest neighbors[J]. Annals of Translational Medicine, 2016, 4(11): 218. doi: 10.21037/atm.2016.03.37 [67] UKIL A. Support vector machine[M]//Intelligent Systems and Signal Processing in Power Engineering. Berlin, Heidelberg: Springer, 2007: 161-226. [68] SUYKENS J, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300. doi: 10.1023/A:1018628609742 [69] MYLES A J, FEUDALE R N, LIU Y, et al. An introduction to decision tree modeling[J]. Journal of Chemometrics: A Journal of the Chemometrics Society, 2004, 18(6): 275-285. [70] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. doi: 10.1023/A:1010933404324 [71] WEBB G I, KEOGH E, MIIKKULAINEN R. Naïve Bayes[J]. Encyclopedia of Machine Learning, 2010, 15: 713-714. [72] KUMARI K, YADAV S. Linear regression analysis study[J]. Journal of the Practice of Cardiovascular Sciences, 2018, 4(1): 33. doi: 10.4103/jpcs.jpcs_8_18 [73] KLEINBAUM D G, DIETZ K, GAIL M, et al. Logistic regression[M]. New York: Springer-Verlag, 2002. [74] RALAMBONDRAINY H. A conceptual version of the k-means algorithm[J]. Pattern Recognition Letters, 1995, 16(11): 1147-1157. doi: 10.1016/0167-8655(95)00075-R [75] MOON T K. The expectation-maximization algorithm[J]. IEEE Signal Processing Magazine, 1996, 13(6): 47-60. doi: 10.1109/79.543975 [76] WOLD S, ESBENSEN K, GELADI P. Principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1987, 2(1-3): 37-52. doi: 10.1016/0169-7439(87)80084-9 [77] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012. LI H. Method of statistical learning[M]. Beijing: Tsinghua University Press, 2012. [78] 翟俊海, 张明阳, 王婷婷, 等. 基于哈希技术和 MapReduce 的大数据集 K-近邻算法[J]. 计算机科学, 2017, 44(7): 210-214. doi: 10.11896/j.issn.1002-137X.2017.07.037 ZHAI J H, ZHANG M Y, WANG T T, et al. K-nearest neighbor algorithm based on Hash technology and Maprecuce[J]. Computer Science, 2017, 44(7): 210-214. doi: 10.11896/j.issn.1002-137X.2017.07.037 [79] 曹瑜, 王楠, 徐志超, 等. Spark 框架结合分布式KNN分类器的网络大数据分类处理方法[J]. 计算机应用研究, 2019, 11: 3274-3277. CAO Y, WANG N, XU Z C, et al. Network big data classification processing method based on Spark and distributed KNN classifier[J]. Application Research of Computers, 2019, 11: 3274-3277. [80] SHOKRZADE A, RAMEZANI M, TAB F A, et al. A novel extreme learning machine based kNN classification method for dealing with big data[J]. Expert Systems with Applications, 2021, 183: 115293. doi: 10.1016/j.eswa.2021.115293 [81] XING W, BEI Y. Medical health big data classification based on KNN classification algorithm[J]. IEEE Access, 2019, 8: 28808-28819. [82] ZHANG C, LI F, JESTES J. Efficient parallel KNN joins for large data in MapReduce[C]//Proceedings of the 15th International Conference on Extending Database Technology. New York: ACM, 2012: 38-49. [83] LAU K W, WU Q H. Online training of support vector classifier[J]. Pattern Recognition, 2003, 36(8): 1913-1920. doi: 10.1016/S0031-3203(03)00038-4 [84] LASKOV P, GEHL C, KRUGER S, et al. Incremental support vector learning: Analysis, implementation and applications[J]. Journal of Machine Learning Research, 2006, 7(9): 1909-1936. [85] KHINE K, NYUNT T. Predictive big data analytics using multiple linear regression model[C]//International Conference on Big Data Analysis and Deep Learning Applications. Singapore: Springer, 2018: 9-19. [86] REHAB M A, BOUFARES F. Scalable massively parallel learning of multiple linear regression algorithm with MapReduce[C]//2015 IEEE Trustcom/BigDataSE/ISPA. [S.l.]: IEEE, 2015: 41-47. [87] YANG C, CHEN J. Efficient nonlinear regression-based compression of big sensing data on cloud[M]//Big Data Analytics for Sensor-Network Collected Intelligence. [S.l.]: Academic Press, 2017: 83-98. [88] 任远航. 面向大数据的K-means算法综述[J]. 计算机应用研究, 2020, 37(12): 3528-3533. REN Y H. Survey of K-means algorithm on big data[J]. Application Research of Computers, 2020, 37(12): 3528-3533. [89] 韩岩, 李晓. 加速大数据聚类K-means算法的改进[J]. 计算机工程与设计, 2015, 36(5): 1317-1320. HAN Y, LI X. Improved accelerating large data K-means clustering algorithm[J]. Computer Engineering and Design, 2015, 36(5): 1317-1320. [90] 周润物, 李智勇, 陈少淼, 等. 面向大数据处理的并行优化抽样聚类K-means算法[J]. 计算机应用, 2016, 36(2): 311-315. doi: 10.11772/j.issn.1001-9081.2016.02.0311 ZHOU R W, LI Z Y, CHEN S M, et al. Parallel optimization sampling clustering K-means algorithm for large data processing[J]. Journal of Computer Applications, 2016, 36(2): 311-315. doi: 10.11772/j.issn.1001-9081.2016.02.0311 [91] XU J R, ZHAN Y Z. Improved K-means fast clustering algorithm based on Spark[J]. Journal of Jiangsu University (Natural Science Edition), 2018, 39(3): 73-80. [92] 史卫亚, 郭跃飞, 薛向阳. 一种解决大规模数据集问题的核主成分分析算法[J]. 软件学报, 2009, 20(8): 2153-2159. doi: 10.3724/SP.J.1001.2009.03391 SHI W Y, GUO Y F, XUE X Y. Efficient kernel principal component analysis algorithm for large-scale data set[J]. Journal of Software, 2009, 20(8): 2153-2159. doi: 10.3724/SP.J.1001.2009.03391 [93] 李晨, 郭跃飞. 一种用于高维大数据的协方差无关的主成分分析迭代算法(英文)[J]. 复旦学报:自然科学版, 2013(2): 207-214. LI C, GUO Y F. A covariance-free iterative principal component analysis for high dimensional and large scale data[J]. Journal of Fudan University(Natural Science), 2013(2): 207-214. [94] ZHU J, GE Z, SONG Z. Distributed parallel PCA for modeling and monitoring of large-scale plant-wide processes with big data[J]. IEEE Transactions on Industrial Informatics, 2017, 13(4): 1877-1885. doi: 10.1109/TII.2017.2658732 [95] ZHANG T, YANG B. Dimension reduction for big data[J]. Statistics and Its Interface, 2018, 11(2): 295-306. doi: 10.4310/SII.2018.v11.n2.a7 [96] BENGIO Y, DELALLEAU O. On the expressive power of deep architectures[C]//International Conference on Algorithmic Learning Theory. Berlin, Heidelberg: Springer, 2011: 18-36. [97] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. doi: 10.1126/science.1127647 [98] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems. [S.l.]: MIT Press, 2006: 153-160. [99] RANZATO M A, BOUREAU Y L, LECUN Y. Sparse feature learning for deep belief networks[J]. Advances in Neural Information Processing Systems, 2007, 20: 1185-1192. [100] VINCENT P, HAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th International Conference on Machine Learning. Helsinki: IMLS, 2008: 1096-1103. [101] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(12): 3371-3408. [102] JIANG X, ZHANG Y, ZHANG W, et al. A novel sparse auto-encoder for deep unsupervised learning[C]//2013 6th International Conference on Advanced Computational Intelligence (ICACI). Hangzhou: IEEE, 2013: 256-261. [103] ACKLEY D H, HINTON G E, SEJNOWSKI T J. A learning algorithm for Boltzmann machines[J]. Cognitive Science, 1985, 9(1): 147-169. doi: 10.1207/s15516709cog0901_7 [104] RANZATO M A, HINTON G E. Modeling pixel means and covariances using factorized third-order Boltzmann machines[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 2551-2558. [105] COURVILLE A, BERGSTRA J, BENGIO Y. A spike and slab restricted Boltzmann machine[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale: [s.n.], 2011: 233-241. [106] MEMISEVIC R, HINTON G. Unsupervised learning of image transformations[C]//2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN: IEEE, 2007: 1-8. [107] LECUN Y, BOTTOU L, Y ENGIOB, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. doi: 10.1109/5.726791 [108] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A. Improving neural networks by preventing co-adaption of feature detectors[J]. Computer Science, 2012, 3(4): 212-223. [109] WAN L, ZEILER M, ZHANG S, et al. Regularization of neural networks using dropconnect[C]//International Conference on Machine Learning. PMLR, Atlanta: IMLS, 2013: 1058-1066. [110] GOODFELLOW I, WARDE-FARLEY D, MIRZA M, et al. Maxout networks[C]//International Conference on Machine Learning. PMLR, Atlanta: IMLS, 2013: 1319-1327. [111] LIN M, CHEN Q, YAN S. Network in network[EB/OL]. (2013-12-16). http://arxiv.org/abs/1312.4400. [112] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. doi: 10.1162/neco.1997.9.8.1735 [113] SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681. doi: 10.1109/78.650093 [114] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014, 27: 2672-2680. [115] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//International Conference on Machine Learning. PMLR, Sydney: IMLS, 2017: 214-223. [116] MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL]. (2014-11-06). http://arxiv.org/abs/1411.1784. [117] MAO X, LI Q, XIE H, et al. Least squares generative adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2794-2802. [118] BERTHELOT D, SCHUMM T, METZ L. Began: Boundary equilibrium generative adversarial networks[EB/OL]. (2017-03-31). https://arxiv.org/abs/1703.10717. [119] 高阳, 陈世福, 陆鑫. 强化学习研究综述[J]. 自动化学报, 2004, 30(1): 86-100. GAO Y, CHEN S F, LU X. Research on reinforcement learning technology: A review[J]. ACTA Automatica Sinica, 2004, 30(1): 86-100. [120] 马骋乾, 谢伟, 孙伟杰. 强化学习研究综述[J]. 指挥控制与仿真, 2018, 40(6): 68-72. doi: 10.3969/j.issn.1673-3819.2018.06.015 MA C Q, XIE W, SUN W J. Research on reinforcement learning technology: A review[J]. Command Control & Simulation, 2018, 40(6): 68-72. doi: 10.3969/j.issn.1673-3819.2018.06.015 [121] SUTTON R S, BARTO A G. Reinforcement learning: An introduction[M]. Cambridge, London: MIT press, 2018. [122] 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述[J]. 计算机学报, 2018, 41(1): 1-27. doi: 10.11897/SP.J.1016.2019.00001 LIU Q, ZHAI J W, ZHANG Z C, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1-27. doi: 10.11897/SP.J.1016.2019.00001 [123] FEYNMAN R P. Simulating physics computers[J] International Journal of Theoretical Physics, 1982, 21: 476. [124] DEUTSCH D, JOZSA R. Rapid solution of problems by quantum computation[J]. Proceedings of the Royal Society A, 1992, 439(1907): 553-558. [125] BERNSTERIN E, VAZIRANI U. Quantum complexity theory[C]//STOC'93: Proceedings of the 25th Annual ACM Symposium on Theory of Computing. New York: ACM, 1993: 11-20. [126] SIMON D R. On the power of quantum computation[C]//Proceedings of the 35th Annual IEEE Symposium on Foundations of Computer Science. Piscataway, NJ: IEEE, 1994: 116-123. [127] SHOR P W. Algorithms for quantum computation: Discrete logarithms and factoring[C]//Proceedings of the 35th Annual IEEE Symposium on the Foundations of Computer Science. Piscataway, NJ: IEEE, 1994: 124-134. [128] SHOR P W. Polynomial-time algorithms for prime factorization and discrete logarithms on a quantum computer[J]. SIAM Journal on Computing, 1997, 26(5): 1484-1509. doi: 10.1137/S0097539795293172 [129] GROVER L K. Quantum mechanics helps in searching for a needle in a haystack[J]. Physical Review Letters, 1997, 79(2): 325-328. doi: 10.1103/PhysRevLett.79.325 [130] HARROW A, HASSIDIM A, LLOYD S. Quantum algorithm for linear systems of equations[J]. Physical Review Letters, 2009, 103(15): 150502. doi: 10.1103/PhysRevLett.103.150502 [131] NIELSEN M A, CHUANG I L. Quantum computation and quantum information[J]. Phys Today, 2001, 54(2): 60. doi: 10.1063/1.1359716 [132] BUHRMAN H, CLEVE R, WATROUS J, et al. Quantum fingerprinting[J]. Physical Review Letters, 2001, 87(16): 167902. doi: 10.1103/PhysRevLett.87.167902 [133] 黄一鸣, 雷航, 李晓瑜. 量子机器学习算法综述[J]. 计算机学报, 2018, 41(1): 145-163. doi: 10.11897/SP.J.1016.2018.00145 HUANG Y M, LEI H, LI X Y. A survey on quantum machine learning[J]. Chinese Journal of Computers, 2018, 41(1): 145-163. doi: 10.11897/SP.J.1016.2018.00145 [134] HORN D, GOTTLIEB A. Algorithm for data clustering in pattern recognition problems based on quantum mechanics[J]. Physical Review Letters, 2002, 88(1): 018702. [135] GROSS D, LIU K R, FLAMMIA R T, et al. Quantum state tomography via compressed sensing[J]. Physical Review Letters, 2010, 105(15): 150401. doi: 10.1103/PhysRevLett.105.150401 [136] WIEBE N, KAPOOR A, SVORE K. Quantum algorithms for nearest-neighbor methods for supervised and unsupervised learning[J]. Quantum Information & Computation, 2014, 15(3): 318-358. [137] ANGUITA D, RIDELLA S, RIVIECCIO F, et al. Quantum optimization for training support vector machines[J]. Neural Networks, 2003, 16(5-6): 763-770. doi: 10.1016/S0893-6080(03)00087-X [138] REBENTROST P, MOHSENI M, LLOYD S. Quantum support vector machine for big data classification[J]. Physical Review Letters, 2014, 113(13): 130503. doi: 10.1103/PhysRevLett.113.130503 [139] LI Z, LIU X, XU N, et al. Experimental realization of a quantum support vector machine[J]. Physical Review Letters, 2015, 114(14): 140504. doi: 10.1103/PhysRevLett.114.140504 [140] DING C, BAO T Y, HUANG H L. Quantum-inspired support vector machine[EB/OL]. (2019-06-21). http://arxiv.org/abs/1906.08902. [141] YE Z, LI L, SITU H, et al. Quantum speedup of twin support vector machines [EB/OL]. (2019-02-24). https://arxiv.org/abs/1902.08907. [142] LIN J, ZHANG D B, ZHANG S, et al. Quantum-enhanced least-square support vector machine: Simplified quantum algorithm and sparse solutions[J]. Physics Letters A, 2020, 384(25): 126590. doi: 10.1016/j.physleta.2020.126590 [143] WIEBE N, BRAUN D, LLOYD S. Quantum algorithm for data fitting[J]. Physical Review Letters, 2012, 109(5): 050505. doi: 10.1103/PhysRevLett.109.050505 [144] AIMEUR E, BRASSARD G, GAMBS S. Machine learning in a quantum world[C]//Conference of the Canadian Society for Computational Studies of Intelligence. Berlin, Heidelberg: Springer, 2006: 431-442. [145] AIMEUR E, BRASSARD G, GAMBS S. Quantum clustering algorithms[C]//Proceedings of the 24th International Conference on Machine Learning. New York: IMLS, 2007: 1-8. [146] AIMEUR E, BRASSARD G, GAMBS S. Quantum speed-up for unsupervised learning[J]. Machine Learning, 2013, 90(2): 261-287. doi: 10.1007/s10994-012-5316-5 [147] LLOYD S, MOHSENI M, REBENTROST P. Quantum algorithms for supervised and unsupervised machine learning[EB/OL]. (2013-07-01). https://arxiv.org/abs/1307.0411. [148] CAI X D, WU D, SU Z E, et al. Entanglement-based machine learning on a quantum computer[J]. Physical Review Letters, 2015, 114(11): 110504. doi: 10.1103/PhysRevLett.114.110504 [149] 周晓彦, 安星星, 刘文杰, 等. 一种基于最小距离的量子K-means算法[J]. 小型微型计算机系统, 2017, 38(5): 1059-1062. doi: 10.3969/j.issn.1000-1220.2017.05.029 ZHOU X Y, AN X X, LIU W J, et al. Quantum K-means algorithm based on the minimum distance[J]. J Chin Comput Sci, 2017, 38(5): 1059-1062. doi: 10.3969/j.issn.1000-1220.2017.05.029 [150] 刘雪娟, 袁家斌, 许娟, 等. 量子K-means算法[J]. 吉林大学学报:工学版, 2018(2): 539-544. LIU X J, YUAN J B, XU J, et al. Quantum K-means algorithm[J]. Journal of Jilin University (Engineering and Technology Edition), 2018(2): 539-544. [151] LLOYD S, MOHSENI M, REBENTROST P. Quantum principal component analysis[J]. Nature Physics, 2014, 10(9): 631-633. doi: 10.1038/nphys3029 [152] 陆思聪, 郑昱, 王晓霆, 等. 量子机器学习[J]. 控制理论与应用, 2017, 34(11): 1429-1436. LU S C, ZHENG Y, WANG X T, et al. Quantum machine learning[J]. Control Theory & Applications, 2017, 34(11): 1429-1436. [153] HORN D, GOTTLIEB A. Algorithm for data clustering in pattern recognition problems based on quantum machines[J]. Physical Review Letters, 2001, 88(1): 018702. doi: 10.1103/PhysRevLett.88.018702 [154] OHZEKI M. Message-passing algorithm of quantum annealing with nonstoquastic hamiltonian[J]. Journal of the Physical Society of Japan, 2019, 88(6): 061005. doi: 10.7566/JPSJ.88.061005 [155] XIA G Q, HAN Z W, ZHAO B, et al. Global path planning for unmanned surface vehicle based on improved quantum ant colony algorithm[J]. Mathematical Problems in Engineering, 2019, 10: 2902170. [156] ZHANG G F, HAMDULLA A. Adaptive morphological contrast enhancement based on quantum genetic algorithm for point target detection[J]. Mobile Networks and Applications, 2021, 26(2): 638-648. doi: 10.1007/s11036-019-01410-8