留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

量子模糊朴素贝叶斯分类算法

侯敏 张仕斌 黄曦

侯敏, 张仕斌, 黄曦. 量子模糊朴素贝叶斯分类算法[J]. 电子科技大学学报, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
引用本文: 侯敏, 张仕斌, 黄曦. 量子模糊朴素贝叶斯分类算法[J]. 电子科技大学学报, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
HOU Min, ZHANG Shibin, HUANG Xi. Quantum Fuzzy Naive Bayesian Classification Algorithm[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
Citation: HOU Min, ZHANG Shibin, HUANG Xi. Quantum Fuzzy Naive Bayesian Classification Algorithm[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344

量子模糊朴素贝叶斯分类算法

doi: 10.12178/1001-0548.2022344
基金项目: 国家自然科学基金(62076042);国家重点研发计划“网络空间安全治理”重点专项课题(2022YFB3103103);成都市重点研发项目(2023-XT00-00002-GX);四川省重点研发计划项目(2022YFS0571)
详细信息
    作者简介:

    侯敏,主要从事量子通信、量子机器学习等方面的研究

    通讯作者: 张仕斌,E-mail:cuitzsb@cuit.edu.cn
  • 中图分类号: TP391

Quantum Fuzzy Naive Bayesian Classification Algorithm

  • 摘要: 以传统朴素贝叶斯算法为基础,研究并提出一种高效、准确的量子模糊贝叶斯分类算法。首先将“模糊集合理论 + 朴素贝叶斯理论”交叉融合,定义模糊先验概率、模糊条件概率,将朴素贝叶斯推广至模糊朴素贝叶斯,构建模糊贝叶斯模型;其次,将“模糊贝叶斯模型 + 量子计算”交叉融合,将模糊数据集量子化(编码到量子态上)并设计量子线路,提出一种量子模糊朴素贝叶斯分类算法;最后,将该算法应用到鸢尾花数据集。仿真实验表明,与传统朴素贝叶斯分类算法相比,该算法具有较高的分类效率和准确率。
  • 图  1  量子模糊朴素贝叶斯算法的分类过程

    图  2  量子计数线路图

    图  3  鸢尾花数据集

    图  4  仿真实验的测试数据集

    图  5  仿真实验测量结果

    图  6  测试数据集中样本及真实类别标签

    图  7  本文算法所对应的样本与分类标签

    表  1  鸢尾花4种属性的均值 cm

    类别花萼长度花萼宽度花瓣瓣长花瓣宽度
    Setosa53.411.460.24
    Versicolour5.942.764.291.33
    Virginica6.552.975.491.99
    下载: 导出CSV

    表  2  鸢尾花4种属性的方差 cm

    类别花萼长度花萼宽度花瓣瓣长花瓣宽度
    Setosa0.370.380.180.11
    Versicolour0.470.310.410.19
    Virginica0.630.320.520.27
    下载: 导出CSV

    表  3  算法准确率对比

    参数文献[3]文献[10]文献[11]本文算法
    数据集iris datasetiris dataset
    测试集的比例0.250.25
    时间复杂度$ O\left( {MN} \right) $$ O\left( {\dfrac{{{{\log }^2}M + \log N}}{{{\partial ^3}}}} \right) $$ O\left( {M\log \left( {MN + \sqrt M } \right)} \right) $$ O\left( {\sqrt {MN} } \right) $
    准确率/%84.2195
    下载: 导出CSV
  • [1] 李建中, 李英姝. 大数据计算的复杂性理论与算法研究进展[J]. 软件学报, 2016, 46(9): 1255-1275.

    LI J Z, LI Y S. Research progress in complexity theory and algorithms for big data computing[J]. Software Journal, 2016, 46 (9): 1255-1275.
    [2] 张仕斌, 黄曦, 昌燕, 等. 大数据环境下量子机器学习的研究进展及发展趋势[J]. 电子科技大学学报, 2021, 50(6): 802-819.

    ZHANG S B, HUANG X, CHANG Y, et al. Research progress and development trend of quantum machine learning under big data environment[J]. Journal of University of Electronic Science and Technology of China, 2021, 50 (6): 802-819.
    [3] 郭秀娟, 李庆凯, 孟庆楠, 等. 基于朴素贝叶斯算法分析鸢尾花数据集分类[J]. 工业和信息化教育, 2022, 4(6): 82-84.

    GUO X J, LI Q K, MENG Q N, et al. Analysis of the iris dataset classification based on a naive Bayesian algorithm[J]. Industry and Information Education, 2022, 4 (6): 82-84.
    [4] 蒋良孝. 朴素贝叶斯分类器及其改进算法研究[D]. 北京: 中国地质大学, 2009.

    JIANG L X. Naive Bayesian classifier and its improved algorithm study[D]. Beijing: China University of Geosciences, 2009.
    [5] 李静梅, 孙丽华, 张巧荣, 等. 一种文本处理中的朴素贝叶斯分类器[J]. 哈尔滨工程大学学报, 2003, 24(1): 71-74.

    LI J M, SUN L H, ZHANG Q R, et al. A naive Bayes classifier in text processing[J]. Journal of Harbin Engineering University, 2003, 24(1): 71-74.
    [6] 周龙. 基于朴素贝叶斯的分类方法研究[D]. 合肥: 安徽大学, 2006.

    ZHOU L. Naive Bayes-based classification methods research[D]. Hefei: Anhui University, 2006 .
    [7] PARRA-RODRIGUEZ A, LOUGOVSKI P, LAMATA L, et al. Digital-analog quantum computation[J]. PhysicalReview A, 2020, 101(2): 022305.
    [8] BIAMONTE J, WITTEK P, PANCOTTI N, et al. Quantum machine learning[J]. Nature, 2017, 549(7671): 195-202. doi:  10.1038/nature23474
    [9] DAS S S, DENG D L, DUAN L M. Machine learning meets quantum physics[J]. Physics Today, 2019, 72(3): 48-54.
    [10] SHAO C P. Quantum speedup of bayes’classifiers[J]. Journal of Physics A: Mathematical and theoretical, 2020, 53(4): 045301.
    [11] 陆春悦, 郭躬德, 林崧. 基于量子计数的贝叶斯二元分类算法[J]. 南京师大学报(自然科学版), 2021, 44(4): 117-121.

    LU C Y, GUO G D, LIN S. A Bayesian binary classification algorithm based on quantum counting[J]. Nanjing Normal University Daily (Natural Science edition), 2021, 44(4): 117-121.
    [12] OZOLS M, ROETTELER M, ROLAND J. Quantum rejection sampling[J]. ACM Transactions on Computation Theory, 2011, 5(3): 1-11.
    [13] LOW G H, YODER T J, CHUANG I L. Quantum inference on Bayesian networks[J]. Physical Review A, 2014, 89(6): 1-12.
    [14] MD O, BARBOSA L S. Quantum Bayesian decision-making[J]. Foundations of Science, 2021, 9(7): 1572.
    [15] 毕文豪, 周杰, 张安, 等. 杂波环境下基于最大熵模糊聚类的JPDA算法[J]. 系统工程与电子技, 2022, 6(29): 1-11.

    BI W H, ZHOU J, ZHANG A, et al. JPDA algorithm based on maximum entropy fuzzy clustering in clutter environment[J]. Systems Engineering and Electronic Technology 2022, 6(29): 1-11.
    [16] 支建勋. 基于模糊K-means聚类算法的区域数据智能分析方法[J]. 电子设计工程, 2022, 30(10): 46-49.

    ZHI J X. Intelligent analysis method of regional data based on fuzzy K-means clustering algorithm[J]. Electronic Design Engineering, 2022, 30(10): 46-49.
    [17] 于涛. 基于故障树贝叶斯网络的TDS-8SA顶驱装置故障分析与诊断[D]. 大连: 大连海洋大学, 2022.

    YU T. Fault analysis and diagnosis of TDS-8SA top drive device based on fault tree bayesian network[D]. Dalian: Dalian Ocean University, 2022.
    [18] TANG Y, PAN W, LI H, et al. Fuzzy naive Bayes classifier based on fuzzy clustering[EB/OL]. [2022-08-21]. https://ieeexplore.ieee.org/document/1176401.
    [19] 王国才. 朴素贝叶斯分类器的研究与应用[D]. 重庆: 重庆交通大学, 2010.

    WANG G C. Research and application of the Naive Bayes classifier[D]. Chongqing: Chongqing Jiaotong University, 2010.
    [20] MICHAEL A, NIELSEN ISAAC L, CHUANG. Quantum computing, and quantum information[M]. Beijing: Tsinghua University Press, 2004.
    [21] BRASSARD G, HOYER P, MOSCA M, et al. Quantum amplitude amplification and estimation[EB/OL]. [2022-09-02]. https://arxiv.org/pdf/quant-ph/0005055.pdf.
  • [1] 冯世光, 高诚伸, 李绿周.  量子均值估计算法研究进展 . 电子科技大学学报, 2024, 53(4): 605-610. doi: 10.12178/1001-0548.2024012
    [2] 刘磊.  量子操作系统(QuOS)及软件栈的设计 . 电子科技大学学报, 2024, 53(6): 1-11. doi: 10.12178/1001-0548.2022360
    [3] 张仕斌, 黄晨猗, 李晓瑜, 郑方聪, 李闯, 刘兆林, 杨咏熹.  量子模糊信息管理数学模型研究 . 电子科技大学学报, 2024, 53(2): 284-290. doi: 10.12178/1001-0548.2022355
    [4] 陈欣, 李闯, 金凡.  量子自注意力神经网络的时间序列预测 . 电子科技大学学报, 2024, 53(1): 110-118. doi: 10.12178/1001-0548.2022340
    [5] 吴涵卿, 袁淏木, 陈柄任, 吴磊, 李鑫, 李晓瑜.  量子近似优化算法在投资组合优化中的应用 . 电子科技大学学报, 2023, 52(5): 642-648. doi: 10.12178/1001-0548.2022019
    [6] 张辰逸, 尚涛, 刘建伟.  基于交换门的前瞻启发式量子线路映射算法 . 电子科技大学学报, 2023, 52(4): 489-497. doi: 10.12178/1001-0548.2022339
    [7] 储贻达, 徐维, 周彦桦, 张学锋.  基于变分量子虚时演化和UCC Ansatz的基态求解器 . 电子科技大学学报, 2023, 52(1): 8-13. doi: 10.12178/1001-0548.2022429
    [8] 陈柄任, 袁淏木, 吴涵卿, 吴磊, 李鑫, 李晓瑜.  基于量子判别分析法的量子连续投资组合优化算法 . 电子科技大学学报, 2023, 52(6): 802-808. doi: 10.12178/1001-0548.2022109
    [9] 闫丽丽, 颜金歌, 张仕斌.  基于自适应网络的量子模糊推理系统 . 电子科技大学学报, 2023, 52(4): 482-488. doi: 10.12178/1001-0548.2022220
    [10] 侯晓凯, 吴热冰, 王子竹, 王晓霆.  基于变分量子分类器的量子对抗攻击生成算法 . 电子科技大学学报, 2023, 52(2): 162-167. doi: 10.12178/1001-0548.2023006
    [11] 王育齐, 陈庚, 钱伟中.  区块链环境下用户身份匿名的量子委托计算协议 . 电子科技大学学报, 2022, 51(6): 802-811. doi: 10.12178/1001-0548.2022178
    [12] 范兴奎, 刘广哲, 王浩文, 马鸿洋, 李伟, 王淑梅.  基于量子卷积神经网络的图像识别新模型 . 电子科技大学学报, 2022, 51(5): 642-650. doi: 10.12178/1001-0548.2022279
    [13] 颜世露, 相里朋, 崔巍.  区块链在量子时代的机遇和挑战 . 电子科技大学学报, 2022, 51(2): 162-169. doi: 10.12178/1001-0548.2021374
    [14] 李冠中, 李绿周.  精确Grover量子搜索算法概述 . 电子科技大学学报, 2022, 51(3): 342-346. doi: 10.12178/1001-0548.2022100
    [15] 朱献超, 侯晓凯, 吴绍君, 祝峰.  基于情景记忆的量子深度强化学习 . 电子科技大学学报, 2022, 51(2): 170-175. doi: 10.12178/1001-0548.2022043
    [16] 张仕斌, 黄曦, 昌燕, 闫丽丽, 程稳.  大数据环境下量子机器学习的研究进展及发展趋势 . 电子科技大学学报, 2021, 50(6): 802-819. doi: 10.12178/1001-0548.2021332
    [17] 陆鑫, 廖建明.  基于模糊集理论的软件质量评估研究 . 电子科技大学学报, 2007, 36(3): 652-655.
    [18] 刘震, 周明天.  基于核方法的贝叶斯邮件分类网络研究 . 电子科技大学学报, 2007, 36(3): 587-589,593.
    [19] 廖进昆, 侯文婷, 刘永智, 廖翊韬, 代志勇.  量子比特的门操作与共形映照 . 电子科技大学学报, 2007, 36(1): 132-133,149.
    [20] 沈伟慈.  一种基于模糊贝叶斯理论推测信元丢弃率分布的方法 . 电子科技大学学报, 1999, 28(4): 402-404.
  • 加载中
图(7) / 表(3)
计量
  • 文章访问数:  5797
  • HTML全文浏览量:  2032
  • PDF下载量:  33
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-10-11
  • 修回日期:  2022-12-17
  • 网络出版日期:  2024-01-27
  • 刊出日期:  2024-01-30

量子模糊朴素贝叶斯分类算法

doi: 10.12178/1001-0548.2022344
    基金项目:  国家自然科学基金(62076042);国家重点研发计划“网络空间安全治理”重点专项课题(2022YFB3103103);成都市重点研发项目(2023-XT00-00002-GX);四川省重点研发计划项目(2022YFS0571)
    作者简介:

    侯敏,主要从事量子通信、量子机器学习等方面的研究

    通讯作者: 张仕斌,E-mail:cuitzsb@cuit.edu.cn
  • 中图分类号: TP391

摘要: 以传统朴素贝叶斯算法为基础,研究并提出一种高效、准确的量子模糊贝叶斯分类算法。首先将“模糊集合理论 + 朴素贝叶斯理论”交叉融合,定义模糊先验概率、模糊条件概率,将朴素贝叶斯推广至模糊朴素贝叶斯,构建模糊贝叶斯模型;其次,将“模糊贝叶斯模型 + 量子计算”交叉融合,将模糊数据集量子化(编码到量子态上)并设计量子线路,提出一种量子模糊朴素贝叶斯分类算法;最后,将该算法应用到鸢尾花数据集。仿真实验表明,与传统朴素贝叶斯分类算法相比,该算法具有较高的分类效率和准确率。

English Abstract

侯敏, 张仕斌, 黄曦. 量子模糊朴素贝叶斯分类算法[J]. 电子科技大学学报, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
引用本文: 侯敏, 张仕斌, 黄曦. 量子模糊朴素贝叶斯分类算法[J]. 电子科技大学学报, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
HOU Min, ZHANG Shibin, HUANG Xi. Quantum Fuzzy Naive Bayesian Classification Algorithm[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
Citation: HOU Min, ZHANG Shibin, HUANG Xi. Quantum Fuzzy Naive Bayesian Classification Algorithm[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
  • 随着大数据日益增长,传统的机器学习算法很难满足海量大数据的处理[1]。大数据的复杂性也带来了不确定性,如何高效、准确地解决大数据的复杂性和不确定性问题已成为目前大数据领域的研究热点[2]

    朴素贝叶斯算法是较常见的机器学习算法,相比其他机器学习算法,它能准确地处理小规模数据集,计算速度远胜传统SVM,收敛速度快于逻辑回归算法[3]。近年来,朴素贝叶斯算法引起了不少学者关注。文献[4]提出了隐藏扩展的朴素贝叶斯分类算法、局部克隆的朴素贝叶斯排列算法和基于相似度的实例加权的朴素贝叶斯分类算法,并探讨了改进算法在若干实际问题的应用价值;文献[5]提出基于EM算法(期望值最大算法)自动训练的朴素贝叶斯算法,并验证了该算法具有高准确率;文献[6]对朴素贝叶斯的独立性假设进行改进,提高了分类准确率。然而,在当今大数据时代,在分析处理大数据问题时其高准确率与高效性难以同时满足。

    量子计算被认为是最有可能突破现有计算能力瓶颈的新兴技术[7]。学者们都在积极探索将“量子计算+机器学习”交叉融合,提出研究量子贝叶斯算法[8-9]。文献[10]提出了基于块编码的量子贝叶斯分类算法,实现了指数级加速,然而该算法只适用于厄米矩阵;文献[11]提出了一种基于量子计数的贝叶斯二元分类算法,实现了指数级加速,且适用于更广泛的数据集;文献[12]提出了量子拒绝采样算法,相比经典拒绝采样算法,它在运行时能提供平方级加速;文献[13]将贝叶斯网络图结构组织到量子态上,实现平方级加速;文献[14]基于文献[13]引入效用函数将量子贝叶斯推理扩展到量子贝叶斯决策,也能实现平方级加速。

    研究者们将模糊理论与传统人工智能算法相结合,陆续提出了模糊聚类算法[15]、模糊K-Means算法[16]、模糊贝叶斯网络[17]等算法。文献[18]提出了基于模糊聚类模糊朴素贝叶斯分类算法,该算法能高效处理连续变量分类的问题;文献[19]提出了一种基于粗糙集的特征加权朴素贝叶斯分类器,提高了分类性能。

    本文将“朴素贝叶斯算法+量子计算+模糊理论”交叉融合,提出一种量子模糊朴素贝叶斯分类算法。

    • 首先定义模糊先验概率、模糊条件概率,然后将朴素贝叶斯推广至模糊朴素贝叶斯,最后构建模糊贝叶斯模型。

      定义1 模糊先验概率:事件A是状态空间为$ {{A}} = \left\{ {{A_1},{A_2}, \cdots ,{A_n}} \right\} $的模糊事件,且状态$ {A_{{i}}} $发生的概率为$ {P_i} $,那么事件A的模糊先验概率$ \tilde p\left( {{A}} \right) $可表示为:

      $$ \tilde P\left( {{A}} \right) = \sum\limits_{i = 1}^n {\mu \left( {{A_i}} \right)} {P_i} = \mu \left( {{A}} \right)P\left( {{A}} \right) $$ (1)

      式中,$ \mu \left( {{A_{{i}}}} \right) $表示状态$ {A_{{i}}} $在状态空间的隶属度。

      定义2 模糊条件概率:在模糊事件A发生的情况下,模糊事件$ {{B}} = \left\{ {{B_1},{B_2}, \cdots ,{B_m}} \right\} $发生的概率称为模糊条件概率$ \tilde P\left( {{{B}}\left| {{A}} \right.} \right) $,表示为:

      $$ \tilde P\left( {{{B}}\left| {{A}} \right.} \right) = \frac{{\displaystyle\sum\limits_{i = 1}^{n}\displaystyle\sum\limits_{j = 1}^{m} {\mu \left( {{A_i}{B_{{j}}}} \right)} {P_{{{ij}}}}}}{{\displaystyle\sum\limits_{i = 1}^n {\mu \left( {{A_i}} \right)} {P_i}}} = \mu \left( {{{B}}\left| {{A}} \right.} \right)P\left( {{{B}}\left| {{A}} \right.} \right) $$ (2)

      式中,$ \mu ( {{A_{{i}}}{B_{{j}}}} ) $表示状态Ai和状态Bj同时出现的隶属度;Pij表示状态$ {A_{{i}}} $和状态Bj同时发生的联合概率。

      其中隶属度计算为:

      $$ \mu ( {{x^{\left( j \right)}}\left| y \right.} ) = \left\{ {\begin{array}{*{20}{c}} {\dfrac{{x \pm \sigma ( {{x^{\left( j \right)}}\left| y \right|} )}}{{{\rm{Mean}}\left( {{x^{\left( j \right)}}\left| y \right.} \right)}}} \\ {\dfrac{{{\rm{Mean}}( {{x^{\left( j \right)}}\left| y \right.} ) \pm \sigma ( {{x^{\left( j \right)}}\left| y \right|} )}}{x}} \end{array}} \right. $$ (3)

      式中,$ {\text{Mean}}( {{x^{\left( j \right)}}\left| y \right.} ) $代表均值;$ \sigma ( {{x^{\left( j \right)}}\left| y \right.} ) $代表方差,分别为:

      $$ {\text{Mean}}\left( x \right) = \dfrac{{\displaystyle\sum\limits_{i = 1}^n {{x_i}} }}{n} $$ (4)
      $$ \sigma \left( x \right) = \sqrt {\dfrac{{\displaystyle\sum\limits_{i = 1}^n {{{\left( {{x_i} - {\text{Mean}}\left( x \right)} \right)}^2}} }}{n}} $$ (5)

      在定义了模糊先验概率、模糊条件概率后,朴素贝叶斯分类模型可被推广至模糊朴素贝叶斯,模糊朴素贝叶斯分类模型定义如下:

      $$ f(x) = \arg {\max }_{{c_{\rm{k}}}} \tilde P( {{x^{\left( j \right)}} = {{\tilde x}^{\left( j \right)}}\left| {y = {c_k}} \right.} ) $$ (6)
    • 在模糊朴素贝叶斯模型的基础上,将模糊数据集量子化(编码到量子态上)并设计量子线路,提出一种量子模糊朴素贝叶斯分类算法,具体步骤如图1所示。

      图  1  量子模糊朴素贝叶斯算法的分类过程

    • 定义3 量子模糊先验概率:模糊事件$ A = \left\{ {A_1}, {A_2}, \cdots ,{A_n} \right\} $的模糊先验概率$ \tilde p\left( A \right) $用量子态表示为:

      $$ \begin{split} &\qquad\qquad \left| A \right\rangle = \sqrt {\mu \left( {{A_1}} \right){p_1}} \left| 0 \right\rangle + \cdots + \\ & \sqrt {\mu \left( {{A_{{i}}}} \right){p_i}} \left| {{{i}} - 1} \right\rangle + \cdots +\sqrt {\mu \left( {{A_{{n}}}} \right){p_n}} \left| {{{n}} - 1} \right\rangle \end{split}$$ (7)

      定义4 量子模糊条件概率:在模糊事件A发生的情况下,模糊事件$ B = \left\{ {{B_1}, {B_2}, \cdots ,{B_m}} \right\} $发生的概率用量子态表示为:

      $$ \begin{split} & \left| {B\left| A \right.} \right\rangle = \sqrt {\frac{{\mu \left( {{A_1}{B_1}} \right){p_{11}}}}{{\mu \left( {{A_1}} \right){p_1}}}} \left| {00} \right\rangle + \cdots + \\ &\sqrt {\frac{{\mu \left( {{A_i}{B_j}} \right){p_{ij}}}}{{\mu \left( {{A_i}} \right){p_j}}}} \left| {(i - 1)(j - 1)} \right\rangle + \cdots +\\ & \sqrt {\frac{{\mu \left( {{A_n}{B_m}} \right){p_{nm}}}}{{\mu \left( {{A_n}} \right){p_n}}}} \left| {(n - 1)(m - 1)} \right\rangle \end{split} $$ (8)
    • 量子模糊朴素贝叶斯模型分为两个阶段:1)训练阶段,主要包括量子态编码、量子计数两个步骤,其目的是通过统计学习推断数据中随机变量之间的相关性;2)预测阶段,主要包括量子模糊概率编码、量子振幅扩大两个步骤,其目的是基于前一步骤所获得的相关性关系对待测样本进行分类。

    • 1)将训练数据集$D={\left\{{x}_{i}^{(j)},{y}_{i}\right\}}_{i=1,j=1}^{N,M}$编码到量子态:

      $$ \left| D \right\rangle = \frac{1}{{\sqrt {MN} }}\sum\limits_{i = 1,j = 1}^{N,M} {\left| {x_i^{\left( j \right)}} \right\rangle } \frac{1}{{\sqrt N }}\sum\limits_{i = 1}^N {\left| {{y_i}} \right\rangle } $$ (9)

      2)量子计数[20]模块(其量子线路如图2所示)是训练阶段的核心步骤,目的在于计算训练数据集中满足$ {x^{\left( j \right)}} = {\tilde x^{\left( j \right)}},y = {c_k} $的个数,其中$ {\tilde{x}}^{\left(j\right)}、{c}_{k} $分别代表特征向量的值和类别标签的假设。将满足$ {x^{\left( j \right)}} = {\tilde x^{\left( j \right)}},y = {c_k} $的量子态记为$ \left| x \right\rangle $,初始量子态为$ \left| D \right\rangle $

      图  2  量子计数线路图

      量子计数模块的详细步骤如下:

      $$ \left| {x_i^{\left( j \right)}} \right\rangle \left| {{y_i}} \right\rangle \frac{{\left| 0 \right\rangle - \left| 1 \right\rangle }}{{\sqrt 2 }} \to \left\{ {\begin{array}{*{20}{c}} {\left| {x_i^{\left( j \right)} \oplus {{\tilde x}^{\left( j \right)}}} \right\rangle \left| {{y_i} \oplus {c_k}} \right\rangle \dfrac{{\left| 0 \right\rangle - \left| 1 \right\rangle }}{{\sqrt 2 }}} \\ {\left| {x_i^{\left( j \right)} \oplus {{\tilde x}^{\left( j \right)}}} \right\rangle \left| {{y_i} \oplus {c_k}} \right\rangle \dfrac{{\left| 1 \right\rangle - \left| 0 \right\rangle }}{{\sqrt 2 }}} \end{array}} \right. $$ (10)

      此时实现了:

      $$ O\left| \varphi \right\rangle = \left\{ {\begin{array}{*{20}{c}} {\left| \varphi \right\rangle x_i^{\left( j \right)} \ne {{\tilde x}^{\left( j \right)}}\;\;\;{y_i} \ne {c_k}} \\ { - \left| \varphi \right\rangle x_i^{\left( j \right)} = {{\tilde x}^{\left( j \right)}}\;\;\;{y_i} = {c_k}} \end{array}} \right. $$ (11)

      G算子的本征态上重新描述$ \left| D \right\rangle $,有:

      $$ \left| D \right\rangle = \frac{{{{\rm{e}}^{i\theta kj}}\left| x \right\rangle + {{\rm{e}}^{ - i\theta kj}}\left| {\neg x} \right\rangle }}{{\sqrt 2 }} $$ (12)

      借助辅助量子态进行相位估计,有:

      $$ \left| 0 \right\rangle \left| D \right\rangle \to \frac{{\displaystyle\sum\limits_{j = 1}^M {\displaystyle\sum\limits_{k = 1}^K {\left( {{{\rm{e}}^{{\rm{i}}\theta kj}}\left| {{{\tilde \theta }^{kj}}} \right\rangle \left| x \right\rangle + {{\rm{e}}^{ - {\rm{i}}\theta kj}}\left| {{\text{π}} - {{\tilde \theta }^{kj}}} \right\rangle \left| {\neg x} \right\rangle } \right)} } }}{{\sqrt {2MK} }} $$ (13)

      对量子态进行测量,当对第2量子寄存器进行投影测量得到量子态$ \left| x \right\rangle $时,第1量子寄存器就塌缩到$| {{{\tilde \theta }^{kj}}} \rangle $,由此可得问题的解数,记为$ {\eta _{kj}} $

      3)改变$ {x^{\left( j \right)}} = {\tilde x^{\left( j \right)}},y = {c_k} $$ {\tilde{x}}^{\left(j\right)}、{c}_{k} $的取值,依次计算满足不同取值的问题解的数目$ {\eta _{kj}} $,并根据$ {\eta _{kj}} $计算出模糊条件概率,详细步骤如下:

      $$ \tilde P\left( {y = {c_k}} \right) = \mu \left( {y = {c_k}} \right)\frac{{\displaystyle\sum\limits_{y = {c_k}} {{\eta _k}} }}{N} $$ (14)
      $$ \tilde{P}\left({x}^{\left(j\right)}={\tilde{x}}^{\left(j\right)}|y={c}_{k}\right)=\mu \left({x}^{\left(j\right)}={\tilde{x}}^{\left(j\right)}|y={c}_{k}\right)\frac{{\displaystyle \sum _{{x}^{\left(j\right)}={\tilde{x}}^{\left(j\right)},\;y={c}_{k}}{\eta }_{kj}}}{{\displaystyle \sum _{y={c}_{k}}{\eta }_{k}}} $$ (15)
    • 1)量子模糊概率编码。训练阶段得到的模糊条件概率分别编码到量子态的概率幅上,如:

      $$ \begin{split} & \left| {{x^{\left( 1 \right)}}} \right\rangle = \sqrt {\mu \left( {{x^{\left( 1 \right)}}\left| {{y_1}} \right.} \right)p\left( {{x^{\left( 1 \right)}}\left| {{y_1}} \right.} \right)} \left| {{x^{(1)}}\left| {{y_1}} \right.} \right\rangle + \cdots +\\ &\quad\quad \sqrt {\mu \left( {{x^{\left( 1 \right)}}\left| {{y_k}} \right.} \right)p\left( {{x^{\left( 1 \right)}}\left| {{y_k}} \right.} \right)} \left| {{x^{(1)}}\left| {{y_k}} \right.} \right\rangle \\ & \left| {{x^{\left( 2 \right)}}} \right\rangle = \sqrt {\mu \left( {{x^{\left( 2 \right)}}\left| {{y_1}} \right.} \right)p\left( {{x^{\left( 2 \right)}}\left| {{y_1}} \right.} \right)} \left| {{x^{(2)}}\left| {{y_1}} \right.} \right\rangle + \cdots +\\ &\quad\quad \sqrt {\mu \left( {{x^{\left( 2 \right)}}\left| {{y_k}} \right.} \right)p\left( {{x^{\left( 2 \right)}}\left| {{y_k}} \right.} \right)} \left| {{x^{(2)}}\left| {{y_k}} \right.} \right\rangle\\ &\qquad\qquad\qquad\qquad\cdots \\ &\left| {{x^{\left( M \right)}}} \right\rangle = \sqrt {\mu \left( {{x^{\left( M \right)}}\left| {{y_1}} \right.} \right)p\left( {{x^{\left( M \right)}}\left| {{y_1}} \right.} \right)} \left| {{x^{(M)}}\left| {{y_1}} \right.} \right\rangle + \cdots +\\ &\qquad \sqrt {\mu \left( {{x^{\left( M \right)}}\left| {{y_k}} \right.} \right)p\left( {{x^{\left( M \right)}}\left| {{y_k}} \right.} \right)} \left| {{x^{(M)}}\left| {{y_k}} \right.} \right\rangle \end{split} $$ (16)

      式中,M个量子态的张量积表示为$ \left| \phi \right\rangle = \left| {{x^{\left( 1 \right)}}} \right\rangle \otimes \left| {{x^{\left( 2 \right)}}} \right\rangle \cdots \otimes \left| {{x^{\left( M \right)}}} \right\rangle $$ \left| \phi \right\rangle $表述M个特征属性独立时的联合概率密度。

      2)已知联合概率密度的情况下,根据$ {\tilde{x}}^{\left(j\right)}、 {c}_{k} $的取值,对量子态$ \left| \phi \right\rangle $应用振幅扩大技术[21],目的在于扩大特定类别标签的量子态的概率,减少无关概率幅的干扰,变换过程为:

      $$ \left( {\begin{array}{*{20}{c}} {{x^{\left( 1 \right)}}{y_1}}&{{x^{\left( 1 \right)}}{y_2}}& \cdots &{{x^{\left( 1 \right)}}{y_k}} \\ {{x^{\left( 2 \right)}}{y_1}}&{{x^{\left( 2 \right)}}{y_2}}& \cdots &{{x^{\left( 2 \right)}}{y_k}} \\ \vdots & \vdots & \vdots & \vdots \\ {{x^{\left( M \right)}}{y_1}}&{{x^{\left( M \right)}}{y_2}}& \cdots &{{x^{\left( M \right)}}{y_k}} \end{array}} \right) \to \left( {\begin{array}{*{20}{c}} {{x^{\left( 1 \right)}}{y_{{c_k}}}} \\ {{x^{\left( 2 \right)}}{y_{{c_k}}}} \\ \vdots \\ {{x^{\left( M \right)}}{y_{{c_k}}}} \end{array}} \right) $$ (17)

      3)对量子态$ \left| \phi \right\rangle $进行多次测量可得到满足$ {\tilde{x}}^{\left(j\right)}、 {c}_{k}\in \left\{{y}_{1},{y}_{2},\cdots ,{y}_{k}\right\} $的模糊条件概率。通过改变$ {c_k} $的取值并重复步骤2),根据模糊条件概率的取值,选择取值最大的假设对待测样本进行分类。

    • 1)仿真实验环境。本实验在本源量子云平台下进行,其中全振幅量子虚拟机设置为:蒙特卡罗方法,量子比特数为5,重复实验次数为100次。

      2)仿真数据来源。本实验的数据均来自鸢尾花数据集(公开数据集下载地址:http://archive.ics.uci.edu/ml/datasets/Iris)。该数据集的每个样本包括4个特性:花萼长度、花萼宽度、花瓣瓣长和花瓣宽度;3种类别,即Setosa、Versicolour和Virginica,每种类别的鸢尾花收集50份样本记录,共计150份,如图3所示。

      图  3  鸢尾花数据集

      图3为鸢尾花数据集,图4为本次仿真实验的测试数据集。实验将鸢尾花数据集划分为训练数据集与测试数据集。

      图  4  仿真实验的测试数据集

    • 1)将鸢尾花数据集编码到量子态上,根据训练阶段的步骤依次计算出训练样本4种属性的均值与方差,如表1表2所示。

      表 1  鸢尾花4种属性的均值 cm

      类别花萼长度花萼宽度花瓣瓣长花瓣宽度
      Setosa53.411.460.24
      Versicolour5.942.764.291.33
      Virginica6.552.975.491.99

      表 2  鸢尾花4种属性的方差 cm

      类别花萼长度花萼宽度花瓣瓣长花瓣宽度
      Setosa0.370.380.180.11
      Versicolour0.470.310.410.19
      Virginica0.630.320.520.27

      2)将步骤1)所得结果编码到量子态,通过训练阶段学习花萼长度、宽度、瓣长、宽度与鸢尾花类别标签的关系,得到量子模糊朴素贝叶斯分类模型。

      3)假设给定待测样本$ \tilde x = \left( {{\text{4}}{\text{.7, 3}}{\text{.2, 1}}{\text{.3, 0}}{\text{.2}}} \right) $,通过给定不同的类别标签假设,并对量子态进行多次测量,即可得到不同类别假设下的条件概率,选择使得条件概率值最大的假设作为最终分类的类别。

    • 分别对3种假设下的量子态进行测量,测量结果如图5所示。

      对鸢尾花数据进行分类是一个三分类问题,因此需要分别基于不同假设计算相应类别下的条件概率,并选择概率值最大的假设作为最终的分类类别,本次实验中待测样本的分类结果为Setosa。

      值得注意的是,即使对于二分类问题,也需要进行两次假设进行比较判断,因为基于不同假设的条件概率之和不一定为1。

      图  5  仿真实验测量结果

      对测试数据集中的所有样本采用本文算法进行分类,最终分类结果如图6图7所示。

      仿真实验表明,本文算法对鸢尾花数据集具有良好的分类效果。通过数据可视化可以直观地看出样本的分类情况,在本次实验的20个测试样本中只有一个错误分类,将Versicolour误分类为Virginica样本,准确率为95%。本文算法与朴素贝叶斯算法、基于模糊聚类的模糊朴素贝叶斯算法的对比如表3所示。

      图  6  测试数据集中样本及真实类别标签

      图  7  本文算法所对应的样本与分类标签

      表 3  算法准确率对比

      参数文献[3]文献[10]文献[11]本文算法
      数据集iris datasetiris dataset
      测试集的比例0.250.25
      时间复杂度$ O\left( {MN} \right) $$ O\left( {\dfrac{{{{\log }^2}M + \log N}}{{{\partial ^3}}}} \right) $$ O\left( {M\log \left( {MN + \sqrt M } \right)} \right) $$ O\left( {\sqrt {MN} } \right) $
      准确率/%84.2195

      在时间复杂度方面,对于拥有M个属性的N个样本,朴素贝叶斯的时间复杂度为$ O\left( {MN} \right) $。而本文算法首先在训练阶段引入量子计数模块,计算次数由$ NM $降至$ \sqrt {MN} $;其次在预测阶段,基于$ K $种假设计算对应的模糊条件概率,传统算法的计算次数为$ K\left( {MN} \right) $,而量子算法将模糊条件概率编码到量子态上,并借助振幅放大算法,计算次数为$ K\sqrt {MN} $,故本文算法的时间复杂度可记为$ O\left( {\sqrt {MN} } \right) $

      因此,通过该仿真实验可以验证本文算法相比传统算法具有更高的准确率。同时由于结合量子计算理论,时间复杂度为$ O\left( {\sqrt {MN} } \right) $,相比传统朴素贝叶斯算法获得了平方级的加速。

    • 本文将“模糊集合理论 + 朴素贝叶斯 + 量子计算”交叉融合,提出了量子模糊贝叶斯分类算法,并将该算法应用到鸢尾花数据集,准确率较高,相比传统朴素贝叶斯分类算法能够实现平方级加速。

参考文献 (21)

目录

    /

    返回文章
    返回