基于情景记忆的量子深度强化学习

朱献超; 侯晓凯; 吴绍君; 祝峰

doi:10.12178/1001-0548.2022043

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

基于情景记忆的量子深度强化学习

电子科技大学基础与前沿研究院　成都　611731

基金项目: 科技部重点研发计划(2018YFA0306703)

详细信息

作者简介:
朱献超(1990 − )，男，博士生，主要从事强化学习、量子强化学习方面的研究

通讯作者: 祝峰，E-mail：wfzhu@uestc.edu.cn

中图分类号: TP391

Quantum Deep Reinforcement Learning Based on Episodic Memory

Institute of Fundamental and Frontier Sciences, University of Electronic Science and Technology of China　Chengdu　611731

摘要: 作为量子机器学习的一个新兴子领域，量子深度强化学习旨在利用量子神经网络构建一个量子智能体，使其通过与环境进行不断交互习得一个最优策略，以达到期望累积回报最大化。然而，现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互，从而导致大量多次调用量子线路。为此，该文提出了一种基于情景记忆的量子深度强化学习模型，称为量子情景记忆深度Q网络，该模型利用情景记忆来加速量子智能体的训练过程。具体来说，该模型将历史上出现的拥有高奖励值的经验记录到情景记忆中，使得在当前环境的状态与情景记忆中的某状态相似时，量子智能体可以根据该历史状态快速地获得想要的动作，从而减少了算法优化的迭代次数。在5个经典的雅达利游戏上的数值模拟表明，该文提出的方法可以显著地减少训练量子智能体的迭代次数，进而可以获得比其他量子深度强化学习方法更高的分数。

关键词:

Abstract: As an emerging subfield of quantum machine learning, quantum deep reinforcement learning (QDRL) utilizes quantum neural networks (QNNs) to construct a quantum agent and trains QNNs through multiple interactions with an environment to maximize the expected cumulative return. However, existing QDRL methods require the quantum agent to interact with a classical environment many times, requiring a huge number of executions of the QNN circuit. To address this problem, this work proposes a QDRL model, a quantum episodic memory deep Q-network, which utilizes episodic memory to accelerate the training process. Specifically, the proposed model stores experiences with high rewards in history into the episodic memory, which then helps the quantum agent to obtain the desired action with significantly fewer iterations when the environment state is similar to one of those stored in the episodic memory. Numerical simulations on five typical Atari games show that the proposed method can significantly reduce the number of training iterations and can achieve a higher score compared to other conventional QDRL methods.

Key words:

方法

Frozen-lake

Cognitive-ratio

Cartpole

Acrobat

Blackjack

QEMDQN_SGD

7131.23

1352.67

4988.04

8706.83

10.72

QEMDQN_RMSprop

6199.15

889.98

4822.28

8655.77

10.44

QEMDQN_Adam

4308.87

676.43

4463.86

5142.92

8.13

QDQN_SGD

8706.83

3142.92

6903.91

11007.89

22.44

QDQN_RMSprop

8545.32

2880.15

5886.79

9917.65

17.41

QDQN_Adam

7846.82

2133.37

5571.79

8706.83

14.5

基于情景记忆的量子深度强化学习

电子科技大学基础与前沿研究院　成都　611731

基金项目: 科技部重点研发计划(2018YFA0306703)

作者简介:
朱献超(1990 − )，男，博士生，主要从事强化学习、量子强化学习方面的研究

通讯作者: 祝峰，E-mail：wfzhu@uestc.edu.cn

收稿日期: 2022-01-10

录用日期: 2022-02-17

修回日期: 2022-02-19

刊出日期: 2022-03-25

中图分类号: TP391

关键词:

全文HTML

强化学习(reinforcement learning, RL)是机器学习的一个重要子领域，已被广泛应用于解决智能体如何在环境中采取行动以最大化其累积奖励的问题^[1]。其中，深度强化学习(deep reinforcement learning, DRL)通过利用深度神经网络(deep neural networks, DNN)卓越的函数近似能力，已经在许多方面取得了显著成果^[2]，如围棋游戏^[3-4]、雅达利游戏^[5-7]、机器人控制^[8]等。作为深度强化学习的重要算法之一，深度Q值网络(deep Q-network, DQN)^[6]通过结合卷积神经网络(convolution neural network, CNN)^[9]和Q学习算法(Q-learning)^[10]，在一些雅达利游戏上已经能达到人类玩家的水平。然而，现有深度强化学习仍然存在许多问题，如样本效率低、探索−利用困境、面对复杂任务环境的维数灾难等，这些问题将严重限制深度强化学习的应用范围。

最近，量子计算在加速经典机器学习算法方面显示出强大的能力^[11-14]，同时也已被用以解决强化学习问题^[15-21]。一种量子强化学习的实现方案是利用量子纠缠和量子叠加态等资源以提升经典强化学习算法的学习效率^[15-16]。还有一些量子强化学习算法主要研究量子智能体在量子环境下的交互学习模式以及如何基于量子交互框架实现学习效率的平方或者指数加速^[17-19]。除此之外，随着含噪中等规模量子(noisy intermediate-scale quantum, NISQ)计算机的发展，变分量子线路(variational quantum circuit, VQC)作为一种适用于NISQ设备的可优化量子线路模块，已被广泛应用于量子神经网络的设计，进而被用于构建量子深度强化学习算法^[20-21]。与经典强化学习算法相比，这种基于VQC的量子深度强化学习算法在减少参数数量方面展现出一定优势。然而，现有的量子深度强化学习方法仍然存在样本效率低下的问题，即它们的训练过程需要大量的量子智能体与经典环境进行交互，这会导致执行量子电路的调用次数迅速增加。

最近，基于情景记忆的传统强化学习方法由于可以快速锁定先前好的策略来加速强化学习训练而引起广泛关注。受这些研究工作的启发，本文提出了一种量子情景记忆深度Q网络(quantum episode memory deep Q-network, QEMDQN)模型以提高样本效率。该模型通过使用情景记忆监督量子智能体的训练，学习更优策略，使用情景记忆存储高奖励的历史经验信息，使用情景记忆中的高奖励的历史信息以指导量子智能体训练，显著地降低了学习最优策略所需的算法迭代次数。此外，在训练过程中，该模型可以随时从情景记忆中提取高奖励的历史信息，并将这些信息整合到量子神经网络中从而更有效地利用样本。在5种实验环境中与几种量子深度强化学习方法进行对比，本文方法获得了更好的性能和更低的算法运行时间。

4. 结束语

本文提出了一种基于情景记忆的量子深度强化学习方法，通过使用情景记忆来加速量子智能体的训练过程。该方法将历史上出现的拥有高奖励值的经验记录到情景记忆中，并使用它们提供额外的监督信息来指导量子智能体的训练。通过这种方式，当量子智能体在当前状态与情景记忆中的某个状态相似时，可以快速获得想要的动作，从而显著地加快收敛速度。本文针对5种典型的雅达利游戏做了数值模拟，结果显示，本文方法可以获得更高的期望累积回报和更低的算法运行时间。

参考文献 (44)

[1]	YANN L, YOSHUA B, GEOFFREY H. Deep learning[J]. Nature, 2015, 521(7553): 436-444. doi: 10.1038/nature14539
[2]	LAN G, YOSHUA B, ARON C. Deep Learning[M]. Cambridge: MIT Press, 2016.
[3]	DAVID S, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. doi: 10.1038/nature16961
[4]	DAVID S, JULIAN S, KAREN S, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354-359. doi: 10.1038/nature24270
[5]	RICHARD, ANDRE G. Reinforcement learning: An introduction[M]. Cambridge: MIT Press, 2018.
[6]	VOLODYMY M, KORAY K, DAVID S, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. doi: 10.1038/nature14236
[7]	MATTEO H, JOSEPH M, HASSELT V, et al. Rainbow: Combining improvements in deep reinforcement learning[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, Louisiana: AAAI Press, 2018: 3215-3222.
[8]	MARCIN A, BOWEN B, MACIEK C, et al. Learning dexterous in-hand manipulation[J]. The International Journal of Robotics Research, 2020, 39(1): 3-20. doi: 10.1177/0278364919887447
[9]	LAN G, YOSHUA B. Convolutional networks for images, speech, and time-series[M]. Cambridge: MIT Press, 1995.
[10]	CHRIS W, PETER D. Q-learning[J]. Machine learning, 1992, 8(3-4): 279-292. doi: 10.1007/BF00992698
[11]	LIU, Y, SRINIVASAN A, KRISTAN T. A rigorous and robust quantum speed-up in supervised machine learning[J]. Nature Physics, 2021, 17(9): 1013-1017. doi: 10.1038/s41567-021-01287-z
[12]	CAI X, WU D, SU Z, et al. Entanglement-based machine learning on a quantum computer[J]. Physical Review Letters, 2015, 114(11): 110504. doi: 10.1103/PhysRevLett.114.110504
[13]	JACOB B, PETER W, NICOLA P, et al. Quantum machine learning[J]. Nature, 2017, 549(7671): 195-202. doi: 10.1038/nature23474
[14]	SETH L, CHRISTIAN W. Quantum generative adversarial learning[J]. Physical Review Letters, 2018, 121(4): 040502. doi: 10.1103/PhysRevLett.121.040502
[15]	LOCKWOOD O, SI M. Reinforcement learning with quantum variational circuits[C]//Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment. New York: AAAI Press, 2020: 245-251.
[16]	WANG Z, ASHIDA Y. Deep reinforcement learning control of quantum cartpoles[J]. Physical Review Letters, 2020, 125(10): 100401. doi: 10.1103/PhysRevLett.125.100401
[17]	BRIEGEL H, CUEVAS G. Projective simulation for artificial intelligence[J]. Scientific Reports, 2012, 2(1): 1-16.
[18]	PAPARO D, DUNJK V, MAKMAL A, et al. Quantum speedup for active learning agents[J]. Physical Review X, 2014, 4(3): 031002. doi: 10.1103/PhysRevX.4.031002
[19]	DUNJK V, JACOB M, BRIEGEL, H, et al. Quantum-enhanced machine learning[J]. Physical Review Letters, 2016, 117(13): 130501. doi: 10.1103/PhysRevLett.117.130501
[20]	JERB S, GYURIK C, MARSHALL S, et al. Parametrized quantum policies for reinforcement learning[EB/OL]. (2021-03-09). https://arxiv.org/abs/2103.05577..
[21]	DONG D, MA H, XING X, et al. Learning-based quantum robust control: Algorithm, applications, and experiments[J]. IEEE Transactions on Cybernetics, 2019, 50(8): 3581-3593.
[22]	MICHAEL L. Reinforcement learning improves behaviour from evaluative feedback[J]. Nature, 2015, 521(7553): 445-451. doi: 10.1038/nature14540
[23]	MARTIN L. Markov decision processes: Discrete stochastic dynamic programming[M]. New Jersey: John Wiley & Sons, 2014.
[24]	ARULKUMARAN K, DEISENROTH M, BRUNDAGE M, et al. Deep reinforcement learning: A brief survey[J]. IEEE Signal Processing Magazine, 2017, 34(5): 26-38.
[25]	ROBERT S, JERRY R. Configural association theory: The role of the hippocampal formation in learning, memory, and amnesia[J]. Psychobiology, 1989, 17(2): 129-144. doi: 10.3758/BF03337828
[26]	MATTHEW B, SAM R, WANG J, et al. Reinforcement learning, fast and slow[J]. Trends in Cognitive Sciences, 2019, 23(5): 408-422. doi: 10.1016/j.tics.2019.02.006
[27]	JENNIFER T, PERNILLE H. The generalized quantum episodic memory model[J]. Cognitive Science, 2017, 41(8): 2089-2125. doi: 10.1111/cogs.12460
[28]	MATE L, DAYAN P. Hippocampal contributions to control: The third way[C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2007, 20: 889-896.
[29]	ALEXANDER P, BENIGNO U, SRINIVASAN S, et al. Neural episodic control[C]//Proceedings of the 34th International Conference on Machine Learning. New York: ACM, 2017: 2827-2836.
[30]	SAMUEL G, NATHANIEL D. Reinforcement learning and episodic memory in humans and animals: An integrative framework[J]. Annual Review of Psychology, 2017, 68: 101-128. doi: 10.1146/annurev-psych-122414-033625
[31]	LIN Z, ZHAO T, YANG G, et al. Episodic memory deep Q-networks[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2018: 2433-2439.
[32]	LOV G. Quantum computers can search arbitrarily large databases by a single query[J]. Physical Review Letters, 1997, 79(23): 4709-4712. doi: 10.1103/PhysRevLett.79.4709
[33]	ABHINAV K, ANTONIO M, KRISTAN T, et al. Hardware-Efficient variational quantum eigensolver for small molecules and quantum magnets[J]. Nature, 2017, 549(7671): 242-246. doi: 10.1038/nature23879
[34]	JARROD M, JONATHAN R, BABBUSH R, et al. The theory of variational hybrid quantum-classical algorithms[J]. New Journal of Physics, 2016, 18(2): 023023. doi: 10.1088/1367-2630/18/2/023023
[35]	KOSUKE M, MAKOTO N, KITAGAWA M, et al. Quantum circuit learning[J]. Physical Review A, 2018, 98(3): 032309. doi: 10.1103/PhysRevA.98.032309
[36]	FRANK A, KUNAL A, BABBUSH R, et al. Quantum supremacy using a programmable superconducting processor[J]. Nature, 2019, 574(7779): 505-510. doi: 10.1038/s41586-019-1666-5
[37]	MARIA S, VILLE B, GOGOLIN C, et al. Evaluating analytic gradients on quantum hardware[J]. Physical Review A, 2019, 99(3): 032331. doi: 10.1103/PhysRevA.99.032331
[38]	MARIA S, PETRUCCIONE F. Information encoding[M]. Berlin: Springer, 2018.
[39]	PRAFULLA D, CHRISTOPHER H, KLIMOV O, et al. Openai baselines[EB/OL]. [2021-12-13]. https://github.com/openai/baselines.
[40]	PIOTR G, ANATOLIJ Z. Ns-3 meets openAI gym: The playground for machine learning in networking research[C]//Proceedings of the 22nd International ACM Conference on Modeling. New York: ACM, 2019: 113-120.
[41]	SERGEY Z, ADAM L, LIN T, et al. A multipath network for object detection[C]//Proceedings of the British Machine Vision Conference. New York: BMVA Press, 2016: 1-12.
[42]	TIJMEN T, GEOFFREY H. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude[J]. COURSERA: Neural Networks for Machine Learning, 2012, 4(2): 26-31.
[43]	DIEDRIK P. KINGMA, JIMMY B. Adam: A method for stochastic optimization[C]//International Conference on Learning Representations. San Diego, CA: [s.n.], 2015: arXiv:1412.6980.
[44]	SEBASTIAN RUDER. An overview of gradient descent optimization algorithms[EB/OL]. [2016-09-15]. https://arxiv.org/abs/1609.04747.

[1]	陈欣, 李闯, 金凡. 量子自注意力神经网络的时间序列预测 . 电子科技大学学报, 2024, 53(1): 110-118. doi: 10.12178/1001-0548.2022340
[2]	张仕斌, 黄晨猗, 李晓瑜, 郑方聪, 李闯, 刘兆林, 杨咏熹. 量子模糊信息管理数学模型研究 . 电子科技大学学报, 2024, 53(2): 284-290. doi: 10.12178/1001-0548.2022355
[3]	侯敏, 张仕斌, 黄曦. 量子模糊朴素贝叶斯分类算法 . 电子科技大学学报, 2024, 53(1): 149-154. doi: 10.12178/1001-0548.2022344
[4]	胡浪涛, 杨瑞, 刘全金, 吴建岚, 嵇文, 吴磊. 深度强化学习下连续和离散相位RIS毫米波通信 . 电子科技大学学报, 2024, 53(1): 50-59. doi: 10.12178/1001-0548.2022285
[5]	吴涵卿, 袁淏木, 陈柄任, 吴磊, 李鑫, 李晓瑜. 量子近似优化算法在投资组合优化中的应用 . 电子科技大学学报, 2023, 52(5): 642-648. doi: 10.12178/1001-0548.2022019
[6]	张辰逸, 尚涛, 刘建伟. 基于交换门的前瞻启发式量子线路映射算法 . 电子科技大学学报, 2023, 52(4): 489-497. doi: 10.12178/1001-0548.2022339
[7]	储贻达, 徐维, 周彦桦, 张学锋. 基于变分量子虚时演化和UCC Ansatz的基态求解器 . 电子科技大学学报, 2023, 52(1): 8-13. doi: 10.12178/1001-0548.2022429
[8]	闫丽丽, 颜金歌, 张仕斌. 基于自适应网络的量子模糊推理系统 . 电子科技大学学报, 2023, 52(4): 482-488. doi: 10.12178/1001-0548.2022220
[9]	陈柄任, 袁淏木, 吴涵卿, 吴磊, 李鑫, 李晓瑜. 基于量子判别分析法的量子连续投资组合优化算法 . 电子科技大学学报, 2023, 52(6): 802-808. doi: 10.12178/1001-0548.2022109
[10]	侯晓凯, 吴热冰, 王子竹, 王晓霆. 基于变分量子分类器的量子对抗攻击生成算法 . 电子科技大学学报, 2023, 52(2): 162-167. doi: 10.12178/1001-0548.2023006
[11]	胡浪涛, 毕松姣, 刘全金, 吴建岚, 杨瑞. 基于深度强化学习的多小区NOMA能效优化功率分配算法 . 电子科技大学学报, 2022, 51(3): 384-391. doi: 10.12178/1001-0548.2021193
[12]	罗欣, 陈艳阳, 耿昊天, 许文波, 张民. 基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
[13]	范兴奎, 刘广哲, 王浩文, 马鸿洋, 李伟, 王淑梅. 基于量子卷积神经网络的图像识别新模型 . 电子科技大学学报, 2022, 51(5): 642-650. doi: 10.12178/1001-0548.2022279
[14]	颜世露, 相里朋, 崔巍. 区块链在量子时代的机遇和挑战 . 电子科技大学学报, 2022, 51(2): 162-169. doi: 10.12178/1001-0548.2021374
[15]	李冠中, 李绿周. 精确Grover量子搜索算法概述 . 电子科技大学学报, 2022, 51(3): 342-346. doi: 10.12178/1001-0548.2022100
[16]	张凤荔, 赵佳君, 刘东, 王瑞锦. 基于深度强化学习的边云协同串行任务卸载算法 . 电子科技大学学报, 2021, 50(3): 398-404. doi: 10.12178/1001-0548.2021015
[17]	张仕斌, 黄曦, 昌燕, 闫丽丽, 程稳. 大数据环境下量子机器学习的研究进展及发展趋势 . 电子科技大学学报, 2021, 50(6): 802-819. doi: 10.12178/1001-0548.2021332
[18]	吴佳, 陈森朋, 陈修云, 周瑞. 基于强化学习的模型选择和超参数优化 . 电子科技大学学报, 2020, 49(2): 255-261. doi: 10.12178/1001-0548.2018279
[19]	谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法 . 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
[20]	廖进昆, 侯文婷, 刘永智, 廖翊韬, 代志勇. 量子比特的门操作与共形映照 . 电子科技大学学报, 2007, 36(1): 132-133,149.

留言板