基于强化学习的旋翼无人机智能追踪方法

史豪斌; 徐梦

doi:10.3969/j.issn.1001-0548.2019.04.012

基于强化学习的旋翼无人机智能追踪方法

doi: 10.3969/j.issn.1001-0548.2019.04.012

史豪斌,
徐梦

西北工业大学计算机学院西安 710129

基金项目:

陕西省重点研发计划 2018GY-187

详细信息

作者简介:
史豪斌(1978-), 副教授, 主要从事人工智能方面的研究.E-mail:shihaobin@nwpu.edu.cn

中图分类号: TP39

An Intelligent Tracking Method of Rotor UAV Based on Reinforcement Learning

School of Computer Science, Northwestern Polytechnical University Xi'an 710129

摘要: 针对旋翼无人机追踪场景中常用的PID控制方法与视觉伺服控制方法的不足，该文尝试将视觉伺服控制与强化学习结合，提出了一种基于强化学习的旋翼无人机智能追踪方法。首先使用基于图像的视觉伺服实现旋翼无人机的闭环控制，然后建立使用Sarsa学习算法调节伺服增益的强化学习模型，通过训练可以使得旋翼无人机自主选择视觉伺服增益。该文设计了旋翼无人机在实物场景与仿真场景下的运动目标追踪实验，实验结果论证了该方法相对于PID控制与基于图像的视觉伺服控制方法具有更好的追踪效果。
- 智能追踪 /
- 强化学习 /
- 旋翼无人机 /
- 视觉伺服
Abstract: Aiming at the deficiencies of PID control method and visual servo control method commonly used in the tracking scene of Rotor UAV(unmanned aerial vehicle), this paper attempts to combine visual servo control with reinforcement learning, and proposes an intelligent tracking method for Rotor UAV based on reinforcement learning. Firstly, image-based visual servo is used to track the closed-loop control of the Rotor UAV, and then a reinforcement learning model is established to adjust the servo gain with Sarsa learning algorithm. After many training sessions, the Rotor UAV can choose its own visual servo gain. In this paper, the experiment of tracking the moving target of Rotor UAV in physical and simulation scenarios is designed. The experimental results demonstrate that the proposed method has better tracking effect than PID control and classical image-based visual servo control method.
- intelligent tracking /
- reinforcement learning /
- rotorcraft UAV /
- visual servo

图 1 旋翼无人机的视觉模型

下载: 全尺寸图片幻灯片

图 2 x方向运动受力分析

下载: 全尺寸图片幻灯片

图 3 状态划分

下载: 全尺寸图片幻灯片

图 5 仿真与实物场景下的追踪实验

下载: 全尺寸图片幻灯片

图 6 目标不同线速度追踪实验对比图

下载: 全尺寸图片幻灯片

图 7 目标不同角速度追踪实验对比图

下载: 全尺寸图片幻灯片

表 1 实验参数设置

参数	值	描述
$\lambda $	0.5	伺服增益初始值
$n$	7	动作空间大小
$\alpha $	0.5	学习率
$\gamma $	0.6	折扣因子
${T_{\max }}$	1 800	最大时间步
${T_{\min }}$	0	最小时间步
$\omega /(^\circ )$	120	旋翼无人机初始偏航角
${n_x}$	10	成像平面沿X轴划分段数
${n_y}$	10	成像平面沿Y轴划分段数

下载: 导出CSV

[1]	CHOI S, KIM S, KIM H J. Inverse reinforcement learning control for trajectory tracking of a multirotor UAV[J]. International Journal of Control Automation & Systems, 2017, 15(4):1826-1834. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=6e90110641b0847a79bb5b48e95946b5
[2]	LIU Y, MONTENBRUCK J M, ZELAZO D, et al. A distributed control approach to formation balancing and maneuvering of multiple multirotor UAVs[J]. IEEE Transactions on Robotics, 2018, 34(4):870-882. doi: 10.1109/TRO.8860
[3]	SI W, SHE H, WANG Z. Fuzzy PID controller for UAV tracking moving target[C]//Control and Decision Conference. Chongqing, China: IEEE, 2017: 3023-3027. https://www.semanticscholar.org/paper/Fuzzy-PID-controller-for-UAV-tracking-moving-target-Si-She/30170ffae04a581a81a5485e303948ab04980f92
[4]	TEULIERE C, MARCHAND E, ECK L. 3-D Model-based tracking for UAV indoor localization[J]. IEEE Transactions on Cybernetics, 2015, 45(5):869-879. doi: 10.1109/TCYB.2014.2337652
[5]	ZHENG D, WANG H, CHEN W, et al. Planning and tracking in image space for image-based visual servoing of a quadrotor[J]. IEEE Transactions on Industrial Electronics, 2018, 65(4):3376-3385. doi: 10.1109/TIE.2017.2752124
[6]	WANG Y, ZHANG G L, LANG H, et al. A modified image-based visual servo controller with hybrid camera configuration for robust robotic grasping[J]. Robotics & Autonomous Systems, 2014, 62(10):1398-1407. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=e41ec5026b3f1fb7eedc47369a8eeeed
[7]	CHAUMETTE F, HUTCHINSON S. Visual servo control, part Ⅰ:Basic approaches[J]. IEEE Robotics & Automation Magazine, 2009, 13(4):82-90. http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0212626747/
[8]	CHO S, LEE D, SHIM D H. Image-based visual servoing framework for a multirotor UAV using sampling-based path planning[C]//AIAA Guidance, Navigation, & Control Conference. Kissimmee, Floride: AIAA, 2015: 1-15. doi: 10.2514/6.2015-0846
[9]	SERRA P, CUNHA R, HAMEL T, et al. Landing of a quadrotor on a moving target using dynamic image-based visual servo control[J]. IEEE Transactions on Robotics, 2016, 32(6):1524-1535. doi: 10.1109/TRO.2016.2604495
[10]	LEE D, KIM S J. Modified chain-code-based object recognition[J]. Electronics Letters, 2015, 51(24):1996-1997. doi: 10.1049/el.2015.1019
[11]	ZHENG N, MA Q, JIN M, et al. Abdominal-waving control of tethered bumblebees based on Sarsa with transformed reward[J]. IEEE Transactions on Cybernetics, 2018, 49(8):3064-3073. http://cn.bing.com/academic/profile?id=1d473ee2a388aa181034b0d18625be22&encoded=0&v=paper_preview&mkt=zh-cn
[12]	LI J, CHAI T, LEWIS F, et al. Off-policy Q-learning:Set-point design for optimizing dual-rate rougher flotation operational processes[J]. IEEE Transactions on Industrial Electronics, 2017, 65(5):4092-4102. http://cn.bing.com/academic/profile?id=8e906eb7e2a177916cd9b56a8a294347&encoded=0&v=paper_preview&mkt=zh-cn

[1]	胡浪涛, 杨瑞, 刘全金, 吴建岚, 嵇文, 吴磊. 深度强化学习下连续和离散相位RIS毫米波通信 . 电子科技大学学报, 2024, 53(1): 50-59. doi: 10.12178/1001-0548.2022285
[2]	翟社平, 李航, 亢鑫年, 杨锐. 融合强化学习的实体关系联合抽取模型 . 电子科技大学学报, 2024, 53(2): 243-251. doi: 10.12178/1001-0548.2023107
[3]	郭磊, 林啸宇, 王勇, 陈正武, 常伟. 基于深度学习的直升机旋翼声信号检测与识别一体化算法 . 电子科技大学学报, 2023, 52(6): 925-931. doi: 10.12178/1001-0548.2023108
[4]	杨彦祥, 张翔引, 李波, 秦开宇. 基于群体智能算法的无人机蜂群拓扑构型方法 . 电子科技大学学报, 2023, 52(2): 203-208. doi: 10.12178/1001-0548.2022091
[5]	朱献超, 侯晓凯, 吴绍君, 祝峰. 基于情景记忆的量子深度强化学习 . 电子科技大学学报, 2022, 51(2): 170-175. doi: 10.12178/1001-0548.2022043
[6]	胡浪涛, 毕松姣, 刘全金, 吴建岚, 杨瑞. 基于深度强化学习的多小区NOMA能效优化功率分配算法 . 电子科技大学学报, 2022, 51(3): 384-391. doi: 10.12178/1001-0548.2021193
[7]	罗欣, 陈艳阳, 耿昊天, 许文波, 张民. 基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
[8]	高远翔, 罗龙, 孙罡. 基于强化学习的多阶段网络分组路由方法 . 电子科技大学学报, 2022, 51(2): 200-206. doi: 10.12178/1001-0548.2021260
[9]	李新民, 尹宝林, 魏李莉, 张晓强. 强化学习无人机通信系统中的信息年龄优化 . 电子科技大学学报, 2022, 51(2): 213-218. doi: 10.12178/1001-0548.2021128
[10]	张凤荔, 赵佳君, 刘东, 王瑞锦. 基于深度强化学习的边云协同串行任务卸载算法 . 电子科技大学学报, 2021, 50(3): 398-404. doi: 10.12178/1001-0548.2021015
[11]	鲁华祥, 尹世远, 龚国良, 刘毅, 陈刚. 基于深度确定性策略梯度的粒子群算法 . 电子科技大学学报, 2021, 50(2): 199-206. doi: 10.12178/1001-0548.2020420
[12]	叶进, 肖庆宇, 陈梓晗, 陈贵豪, 李陶深. 以用户QoE预测值为奖励的视频自适应比特率算法 . 电子科技大学学报, 2021, 50(2): 236-242. doi: 10.12178/1001-0548.2020325
[13]	林粤伟. 基于强化学习的LTE与WiFi异构网络共存机制 . 电子科技大学学报, 2021, 50(3): 375-381. doi: 10.12178/1001-0548.2019303
[14]	秦爽, 赵冠群, 冯钢. 基于多智体强化学习的接入网络切片动态切换 . 电子科技大学学报, 2020, 49(2): 162-168. doi: 10.12178/1001-0548.2020049
[15]	吴佳, 陈森朋, 陈修云, 周瑞. 基于强化学习的模型选择和超参数优化 . 电子科技大学学报, 2020, 49(2): 255-261. doi: 10.12178/1001-0548.2018279
[16]	谭俊杰, 梁应敞. 面向智能通信的深度强化学习方法 . 电子科技大学学报, 2020, 49(2): 169-181. doi: 10.12178/1001-0548.2020040
[17]	黄庆东, 石斌宇, 郭民鹏, 袁润芝, 陈晨. 基于Q-learning的分布式自适应拓扑稳定性算法 . 电子科技大学学报, 2020, 49(2): 262-268. doi: 10.12178/1001-0548.2019076
[18]	吕科, 施泽南, 李一鹏. 微型无人机视觉定位与环境建模研究 . 电子科技大学学报, 2017, 46(3): 543-548. doi: 10.3969/j.issn.1001-0548.2017.03.011
[19]	王富治, 黄大贵. 相机光轴视觉反馈校正研究 . 电子科技大学学报, 2009, 38(1): 157-160.
[20]	向中凡. Q学习角色值法在机器人足球比赛中的应用 . 电子科技大学学报, 2007, 36(4): 809-812.

点击查看大图

图(6) / 表(1)

计量

文章访问数: 5430
HTML全文浏览量: 1617
PDF下载量: 108
被引次数: 0

全文HTML

近年来，随着旋翼无人机相关技术的发展，广大学者对旋翼无人机的追踪与控制问题进行了广泛的研究^[1-2]。文献[3]针对旋翼无人机追踪地面目标车辆过程中存在的精度不高以及参数固定的问题进行研究，提出了一种模糊PID控制方法，但是PID控制器在处理非线性不确定系统时的抗干扰能力差，控制精度也不高。文献[4]应用了一种基于位置的视觉伺服(position-based visual servoing, PBVS)的控制方法实现旋翼无人机的追踪控制, 但是基于位置的视觉伺服的误差定义在三维笛卡尔空间，对初始条件、噪声、摄像机参数误差和目标位姿的估计精度都非常敏感。文献[5]提出了一种新型的基于图像的视觉伺服旋翼无人机最优路径规划方法，提高了旋翼无人机的控制效果。但是基于图像的视觉伺服控制对于伺服增益的选取大多通过人工赋值的方式，选取合适的伺服增益值往往依靠经验, 因此该方法不能很好地在复杂的非线性环境中实现精确的控制。

针对经典的PID控制与基于图像的视觉伺服控制在旋翼无人机追踪与控制过程中存在的收敛性差、控制精度不高等问题，本文设计了一种基于强化学习的旋翼无人机追踪控制方法，通过基于图像的视觉伺服形成旋翼无人机的闭环反馈控制，结合强化学习调节伺服增益值，可以实现旋翼无人机智能系统对于环境的适应能力。

4. 结束语

针对在旋翼无人机追踪场景下的PID控制与基于图像视觉伺服控制的不足，本文结合强化学习与视觉伺服控制提出了一种基于Sarsa学习的旋翼无人机视觉伺服智能追踪方法。本文建立了基于强化学习的旋翼无人机视觉伺服增益调节模型，通过对旋翼无人机在不同的场景下进行训练，使得旋翼无人机通过训练能够选择相对合理的伺服增益值。本文设计了PID控制、视觉伺服控制和使用Sarsa学习算法调节伺服增益的旋翼无人机目标追踪实验，实验结果说明了本文所提出方法具有更好的追踪效果。

参考文献 (12)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于强化学习的旋翼无人机智能追踪方法

doi: 10.3969/j.issn.1001-0548.2019.04.012

作者简介:
史豪斌(1978-), 副教授, 主要从事人工智能方面的研究.E-mail:shihaobin@nwpu.edu.cn

An Intelligent Tracking Method of Rotor UAV Based on Reinforcement Learning

计量

基于强化学习的旋翼无人机智能追踪方法

doi: 10.3969/j.issn.1001-0548.2019.04.012

西北工业大学计算机学院西安 710129

作者简介:
史豪斌(1978-), 副教授, 主要从事人工智能方面的研究.E-mail:shihaobin@nwpu.edu.cn

English Abstract

An Intelligent Tracking Method of Rotor UAV Based on Reinforcement Learning

School of Computer Science, Northwestern Polytechnical University Xi'an 710129

全文HTML

1.1. 基于图像的视觉伺服

1.2. 旋翼无人机的动力学扩展

1.3. 图像关联矩阵

1.4. 旋翼无人机视觉特征提取算法

2.1. 状态划分

2.2. 动作划分

2.3. 奖励函数

2.4. Sarsa学习算法

3.1. 不同线速度目标动态追踪对比实验

3.2. 不同角速度目标动态追踪对比实验

目录

期刊在线

编辑办公

友情链接

留言板

基于强化学习的旋翼无人机智能追踪方法

doi: 10.3969/j.issn.1001-0548.2019.04.012

作者简介: 史豪斌(1978-), 副教授, 主要从事人工智能方面的研究.E-mail:shihaobin@nwpu.edu.cn

An Intelligent Tracking Method of Rotor UAV Based on Reinforcement Learning

计量

出版历程

基于强化学习的旋翼无人机智能追踪方法

doi: 10.3969/j.issn.1001-0548.2019.04.012

西北工业大学计算机学院 西安 710129

作者简介: 史豪斌(1978-), 副教授, 主要从事人工智能方面的研究.E-mail:shihaobin@nwpu.edu.cn

English Abstract

An Intelligent Tracking Method of Rotor UAV Based on Reinforcement Learning

School of Computer Science, Northwestern Polytechnical University Xi'an 710129

全文HTML

1.1. 基于图像的视觉伺服

1.2. 旋翼无人机的动力学扩展

1.3. 图像关联矩阵

1.4. 旋翼无人机视觉特征提取算法

2.1. 状态划分

2.2. 动作划分

2.3. 奖励函数

2.4. Sarsa学习算法

3.1. 不同线速度目标动态追踪对比实验

3.2. 不同角速度目标动态追踪对比实验

目录

期刊在线

编辑办公

友情链接

作者简介:
史豪斌(1978-), 副教授, 主要从事人工智能方面的研究.E-mail:shihaobin@nwpu.edu.cn

西北工业大学计算机学院西安 710129

作者简介:
史豪斌(1978-), 副教授, 主要从事人工智能方面的研究.E-mail:shihaobin@nwpu.edu.cn