-
下肢助力外骨骼机器人是一种新型的可穿戴式智能设备,它将机械系统的“体力”和人类的“智力”集成到一个系统中,机械系统成为人身体的一部分,这样穿戴者就能够完成仅凭人体自身条件无法完成的任务,提高人体的运动能力和负重能力。下肢助力外骨骼机器人与其他机器人相比,最大的不同在于,“人”属于机器人的一部分而不独立于机器人存在,人体与外骨骼之间有实在的物理接触。在医疗康复、紧急救灾、军事作战等领域,下肢助力外骨骼机器人都有着非常广阔的应用前景。
最早出现的外骨骼机器人是美国通用公司在1960年研制的哈迪曼。当时由于科学技术还不够发达,计算机技术、材料、能源等领域都比较落后,导致该外骨骼机器人在结构上无法设计得较好,穿戴起来十分不便,它的实用价值受到了限制。随着技术的不断进步,出现了一些比较成功的下肢外骨骼机器人。其中最典型的是美国伯克利大学的BLEEX系统[1-3],BLEEX系统由两条仿生机械腿、液压驱动系统、电源模块和超过30个传感器的感知系统组成。这套外骨骼机器人系统可以帮助人体在负重45 kg的同时以2 m/s的速度前进。日本筑波大学开发的HAL系列下肢外骨骼[4-6],最早是应用于医护人员在照顾病人时,能够帮助医护人员进行助力辅助作用,通过外骨骼的帮助,医护人员可以轻松抱起病人,帮助日常生活有困难的病人。国内也有一些高校或机构在进行外骨骼机器人的研究工作,如中国科学院合肥智能机械研究所的助老助残外骨骼机器人[7-8]、浙江大学的杨灿军等对下肢外骨骼步态模式生成的研究[9]、电子科技大学机器人研究所的助力和助行外骨骼机器人[10-11]等。
下肢助力外骨骼机器人通过感知系统得到人体的行为意图,同时对外部环境做出响应,再通过控制系统控制执行机构运行,实现外骨骼与人体运动协调一致的功能。BLEEX采用位置控制加灵敏度放大控制的混合控制算法[12],在不同阶段采用不同的控制算法,具有较好的控制效果。HAL通过获取肌电信号和步态预学习两种控制方式来达到助力的目的。中科院的外骨骼机器人通过多维力信息预测穿戴者的运动意图,并结合关节信息对外骨骼进行控制。文献[13]将基于模糊规则的阻抗控制应用于下肢外骨骼机器人的控制。文献[14]提出了一种分层交互式学习方法以减小下肢助力外骨骼机器人感知系统的复杂度并适应交互动力学模型的动态变化。
下肢助力外骨骼机器人的主要研究难点在于难以计算其精确的动力学模型,控制算法的精度难以保证。本文主要针对下肢助力外骨骼机器人的随动控制策略进行研究,提出了一种基于增强学习的自适应阻抗控制算法,该算法不需要知道外骨骼机器人的精确动力学模型。
-
人体行走步态十分复杂,可分为4个阶段[17],如图 2所示。以单条腿来看,一个步态周期主要分为两个阶段,分别为支撑相和摆动相,其中支撑相占整个步态周期的60%,摆动相占40%[18]。为简化控制器的复杂度,本文将整个外骨骼系统自由度建模为支撑相和摆动相两个阶段。
1) 摆动相
当外骨骼腿处于摆动相的时候,可以将其简化为顶端固定的二连杆模型,如图 3所示。连杆1的长度为L1,质量为m1;连杆2的长度为L2,质量为m2;CG1为连杆1的重心,与连杆1旋转轴的距离为L1cg;CG2为连杆2的重心,与连杆2旋转轴的距离为L2cg;θ1为连杆1偏离y轴的角度,θ2为连杆2偏离连杆1的角度。
通过拉格朗日动力学分析方法得到关节1的拉格朗日方程为:
$$\begin{gathered} {\tau _1} = \frac{{\text{d}}}{{{\text{d}}t}}\frac{{\partial L}}{{\partial {{\dot \theta }_1}}} - \frac{{\partial L}}{{\partial {\theta _1}}} + {F_{f1}} = \\ ({m_1}{L_{1{\text{cg}}}}^2 + {m_2}{L_1}^2 + {m_2}{L_{2{\text{cg}}}}^2 + 2{m_2}{L_1}{L_{2{\text{cg}}}}\cos {\theta _2}){{\ddot \theta }_1}\; + \\ ({m_2}{L_{2{\text{cg}}}}^2 + {m_2}{L_1}{L_{2{\text{cg}}}}\cos {\theta _2}){{\ddot \theta }_2} - {m_2}{L_1}{L_{2{\text{cg}}}}\sin {\theta _2}{{\dot \theta }_2} - \\ 2{m_2}{L_1}{L_{2{\text{cg}}}}\sin {\theta _2}{{\dot \theta }_1}{{\dot \theta }_2} + ({m_1}{L_{1{\text{cg}}}} + {m_2}{L_1})g\sin {\theta _1} + \\ {m_2}g{L_{2{\text{cg}}}}\sin ({\theta _1} + {\theta _2}) + {F_{f1}} \\ \end{gathered} $$ (1) 式中,${\dot \theta _1}$、${\dot \theta _2}$分别为关节1和关节2的速度;${\ddot \theta _1}$、${\ddot \theta _2}$分别为关节1和关节2的加速度;Ff1为关节1的阻力。
关节2的拉格朗日方程为:
$$\begin{gathered} {\tau _2} = \frac{{\text{d}}}{{{\text{d}}t}}\frac{{\partial L}}{{\partial {{\dot \theta }_2}}} - \frac{{\partial L}}{{\partial {\theta _2}}} + {F_{f2}}{\kern 1pt} = \\ ({m_2}{L_{2{\text{cg}}}}^2 + {m_2}{L_1}{L_{2{\text{cg}}}}\cos {\theta _2}){{\ddot \theta }_1} + {m_2}{L_{2{\text{cg}}}}^2{{\ddot \theta }_2} + \\ {m_2}{L_1}{L_{2{\text{cg}}}}\sin {\theta _2}{{\dot \theta }_1}^2 + {m_2}g{L_{2{\text{cg}}}}\sin ({\theta _1} + {\theta _2}) + {F_{f2}} \\ \end{gathered} $$ (2) 式中,Ff2为关节2的阻力。
2) 支撑相
当外骨骼腿处于支撑相的时候,可以将其简化为底端固定的三连杆模型,如图 4所示。在行走的过程中,外骨骼的躯干与地面保持垂直才能够保证行走稳定,即图中连杆3与地面垂直。连杆1的长度为L1,质量为m1;连杆2的长度为L2,质量为m2;CG1为连杆1的重心,与连杆1旋转轴的距离为L1cg;CG2为连杆2的重心,与连杆2旋转轴的距离为L2cg;CG3为连杆3的重心,与连杆3旋转轴的距离为L3cg;θ1为连杆1偏离y轴的角度,θ2为连杆2偏离连杆1的角度。θ3为连杆3偏离连杆2的角度。特别的,如图 2所示在支撑相中有两种情况:单腿支撑和两腿支撑。然而,这两种支撑情况逆动力学模的计算方法类似,只是外骨骼躯干处的质量和重心不同。
通过拉格朗日动力学分析方法得到关节2的拉格朗日方程为:
$$\begin{gathered} {\tau _2} = \frac{d}{{dt}}\frac{{\partial L}}{{\partial {{\dot \theta }_2}}} - \frac{{\partial L}}{{\partial {\theta _2}}} + {F_{f2}}{\kern 1pt} = \\ {m_2}L_{2{\text{cg}}}^{\text{2}}{({{\ddot \theta }_1} + {{\ddot \theta }_2})^2} - {m_2}{L_1}{L_{2{\text{cg}}}}\sin {\theta _2}{{\dot \theta }_1}{{\dot \theta }_2} + \\ {m_2}{L_1}{L_{2{\text{cg}}}}\cos {\theta _2}{{\ddot \theta }_1} + {m_2}{L_1}{L_{2{\text{cg}}}}\sin {\theta _2}({{\dot \theta }_1}^2 + {{\dot \theta }_1}{{\dot \theta }_2}) + \\ {m_2}g{L_{2{\text{cg}}}}\cos ({\theta _1} + {\theta _2}) + {F_{f2}} \\ \end{gathered} $$ (3) 关节3的拉格朗日方程为:
$$\begin{gathered} {\tau _3} = \frac{{\text{d}}}{{{\text{d}}t}}\frac{{\partial L}}{{\partial {{\dot \theta }_3}}} - \frac{{\partial L}}{{\partial {\theta _3}}} + {F_{f3}}{\kern 1pt} = \\ {m_3}{L_2}^2{{\ddot \theta }_3} + {m_3}{L_1}{L_2}\cos ({\theta _1} - {\theta _3}){{\dot \theta }_1}({{\dot \theta }_1} - {{\dot \theta }_3}) + \\ {m_3}{L_1}{L_2}\sin ({\theta _1} - {\theta _3}){{\ddot \theta }_1} + \\ {\kern 1pt} {m_3}{L_1}{L_2}\cos ({\theta _1} - {\theta _3}){{\dot \theta }_1}{{\dot \theta }_3} - {m_3}g{L_2}\sin {\theta _3} + {F_{f3}} \\ \end{gathered} $$ (4) 式中,Ff3为关节3的阻力。
-
在传统的机器人控制算法中,阻抗控制算法由于不需要知道控制对象和外界环境的精确动力学模型[17],而被广泛应用于复杂机器人系统的力/位控制中。
-
从本质上看,阻抗控制策略是一种通过调节机器人的位置和交互力之间的动态关系-阻抗模型。原则上,机器人的阻抗模型可以是任意阶数的微分方程,但本团队通常使用二阶微分方程的目标阻抗模型,即将机器人的力/位控制等效为“弹簧-质量-阻尼”模型,这样做的原因主要考虑到算法的实现难易度,目标阻抗模型为:
$$F = M({\ddot X_d} - \ddot X) + B({\dot X_d} - \dot X) + K({X_d} - X)$$ (5) 式中,M为目标阻抗惯性参数矩阵;B为目标阻抗阻尼参数矩阵;K为目标阻抗刚度参数矩阵;Xd、${\dot X_d}$、${\ddot X_d}$分别为机器人的期望位置、期望速度、期望加速度;X、$\dot X$、$\ddot X$分别为机器人的实际位置、实际速度、实际加速度;F为机器人与外界的实际交互力。
目前,阻抗控制的实现多是根据反馈的位置偏差进行控制,通常叫做基于力的阻抗控制[19-20],图 5为基于力的阻抗控制框图。
-
增强学习通过利用外部环境对不同行为的评价性反馈信息来改变选择策略以实现学习的目的,具有不需要知道外界环境的模型信息的优点。目前,增强学习已经广泛应用于机器人控制、非线性控制和优化与调度等领域。
增强学习的基本原理是[21]:如果agent的某个动作导致环境正的奖赏,即为强化信号,则agent以后的每个动作的趋势便会加强;反之agent产生这个动作的趋势减弱。这与生理学中的条件反射原理是一致的。因此,增强学习的目标是学习一个行为策略,使得agent选择的动作能够获得环境最大的奖赏。一个标准的增强学习框架主要包括4个要素:3个必需要素—策略(policy)、回报函数(reward-function)、值函数(value-function);1个非必需要素—环境模型(model of environment)。
增强学习是一种思想,其具体的算法有多种,主要包括:时序差分算法[21]、Q学习算法[22]、Sarsa学习算法[23]、PI2学习算法[24]。本文采用的是PI2学习算法,下面将对该算法作一个简单介绍。
PI2学习算法是一种从随机最优控制的首要原则得出的基于采样的与模型无关的学习算法。基于函数逼近方法的传统值函数为多维连续系统的控制提供了一种解决办法,但是当系统超过5~10维度的时候,值函数的非平稳迭代学习过程下的函数逼近十分困难。因此,传统的增强学习算法并不能扩展到高维连续的系统控制中,为解决这一问题,许多学者开始把成熟的统计学和经验统计推断与传统的增强学习方法相结合。在此思想的指导下,便有了PI2学习算法,PI2学习算法源自随机优化控制框架和路径积分,比传统的学习算法速度快一个数量级,同时还不需要开放的参数调整。PI2算法流程如图 6所示。
-
本文提出基于PI2的自适应阻抗控制算法,其在原有的阻抗控制框架的外环加上PI2参数优化器,实现比较简单,其算法框架如图 7所示。
为减小控制算法的运算量,将控制方程简化为:
$$T = B({\dot q_d} - \dot q) + K({q_d} - q) + {T_{{\text{inv}}}}$$ (6) 式中,T是由逆动力学方程得到的力矩。外骨骼机器人的阻抗由B、K两个参数决定,即参数B、K的取值决定了控制效果的好坏。而PI2学习算法的任务就是根据实际运行轨迹与期望轨迹之间的偏差,优化阻抗控制参数达到最好的控制效果。
进一步将阻抗模型简化为式(7),以减小PI2算法的运算量。
$${T_i} = {K_i}({q_{d, i}} - {q_i}) + {\xi _i}\sqrt {{K_i}} ({\dot q_{d, i}} - {\dot q_i})$$ (7) 式中,Ti表示关节i的阻抗模型;${\xi _i}$是一个用户自定义的系数。这样,便只需要运用PI2参数调节器调节一个参数,大大减小了运算量。
Learning-Based Adaptive Impedance Control for a Human-Powered Augmentation Lower Exoskeleton
-
摘要: 当前用于人体运动增强的下肢助力外骨骼系统获得越来越多的关注。获取高精度跟随控制是下肢助力外骨骼机器人研制的主要挑战。针对当前基于位置的控制算法需要复杂的外骨骼动力学模型的问题,该文提出了基于增强学习的变参数阻抗控制算法。首先介绍了HUALEX助力外骨骼系统并对HUALEX建立简单动力学模型。基于此,提出一种基于增强学习的自适应阻抗控制算法,验证了阻抗参数对控制效果的影响,并通过仿真实验验证了该算法的有效性。Abstract: A learning-based adaptive impedance control algorithm for a human-powered augmentation lower exoskeleton (HUALEX) is presented. The HUALEX system architecture is introduced first, which is divided into three parts including the mechanical subsystems, the sensing subsystem and the control subsystem. By using impedance control method, the inverse dynamics model of HUALEX is established and the control effect of impedance parameters is studied. And then, a reinforcement learning-based adaptive impedance control algorithm, including the reinforcement learning, PI2 (policy improvement with path integrals) learning algorithm and adaptive impedance control, is proposed. The effectiveness of the algorithm is verified simulation experiment.
-
[1] KAZEROONI H. Human augmentation and exoskeleton systems in Berkeley[J]. International Journal of Humanoid Robotics, 2007, 4(3):575-605. doi: 10.1142/S0219843607001187 [2] KAZEROONI H, STEGER R. That which does not stabilize, will only make us stronger[C]//IEEE International Conference on Rehabilitation Robotics.[S.l.]:IEEE, 2007:373-395. http://cn.bing.com/academic/profile?id=2169575066&encoded=0&v=paper_preview&mkt=zh-cn [3] GHAN J, KAZEROONI H. System identification for the Berkeley lower extremity exoskeleton (BLEEX)[C]//Proceedings of the 2006 IEEE International Conference on Robotices and Automation. Orlando, Florida:IEEE, 2006. http://cn.bing.com/academic/profile?id=2169051170&encoded=0&v=paper_preview&mkt=zh-cn [4] KAWAMOTO H, SANKAI Y. Power assist system HAL-3 for gait disorder person[J]. Lecture Notes in Computer Science, 2002, 2398:196-203. doi: 10.1007/3-540-45491-8 [5] SANKAI Y. HAL:Hybrid assistive limb based on cybernics[J]. Springer Tracts in Advanced Robotics, 2007, 66:25-34. http://cn.bing.com/academic/profile?id=1956237300&encoded=0&v=paper_preview&mkt=zh-cn [6] KAWAMOTO H, SANKAI Y. Power assist method based on phase sequence driven by interaction between human and robot suit[C]//IEEE International Workshop on Robot and Human Interactive Communication.[S.l.]:IEEE, 2004:491-496. [7] 陈峰.可穿戴型助力机器人技术研究[D].合肥:中国科学技术大学, 2006. http://cdmd.cnki.com.cn/article/cdmd-10358-2007097284.htm CHEN Feng. Research on the wearable power assist robot[D]. Hefei:University of Science and Technology of China, 2006. http://cdmd.cnki.com.cn/article/cdmd-10358-2007097284.htm [8] 方郁.可穿戴下肢助力机器人动力学建模及其控制研究[D].合肥:中国科学技术大学, 2009 FANG Yu. Research on dynamic analysis and control of the wearable power assist robot[D]. Hefei:University of Science and Technology of China, 2009. [9] 牛彬.可穿戴式的下肢步行外骨骼控制机理研究与实现[D].杭州:浙江大学, 2006. http://cdmd.cnki.com.cn/article/cdmd-10335-2006175574.htm NIU Bin. Study on the design and control of a wearable exoskeleton leg for humans walking power augmentation[D]. Hangzhou:Zhejiang University, 2006. http://cdmd.cnki.com.cn/article/cdmd-10335-2006175574.htm [10] HUANG R, CHENG H, ZHENG H, et al. Study on master-slave control strategy of lower extremity exoskeleton robot[C]//Intelligent Control and Automation.[S.l.]:IEEE, 2014:1362-1365. [11] HUANG R, CHENG H, CHEN Q, et al. Interactive learning for sensitivity factors of a human-powered augmentation lower exoskeleton[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems(RIOS).[S.l.]:IEEE, 2015. [12] KAZEROONI H, RACINE J L, HUANG L, et al. Hybrid control of the Berkeley lower extremity exoskeleton (BLEEX)[J]. International Journal of Robotics Research, 2006, 25(5-6):561-573. doi: 10.1177/0278364906065505 [13] TRAN H T, CHENG H, DUONG M K, et al. Fuzzy-based impedance regulation for control of the coupled human-exoskeleton system[C]//IEEE Robotics and Biomimetics (ROBIO).[S.l.]:IEEE, 2015:986-992. [14] HUANG R, CHENG H, GUO H L, et al. Hierarchical interactive learning for a human-powered augmentation lower exoskeleton[C]//IEEE International Conference on Robotics and Automation (ICRA).[S.l.]:IEEE, 2016. [15] VAUGHAN C L. Dynamics of human gait[M]. Illinois, USA:Human Kinetics Publishers, 1992. [16] KELLY R, DAVILA V S, LORÍA A. Control of robot manipulators in joint space[M]. London:Springer, 2005. [17] ROSE J, GAMBLE J G. Human walking[M].[S.l.]:Williams & Wilkins, 1994. [18] BOWKER J H, MICHAEL J W. Atlas of limb prosthetics:Surgical, prosthetic, and rehabilitation principles[M].[S.l.]:Mosby-Year Book, 1992. [19] SERAJI H, COLBAUGH R. Force tracking in impedance control[C]//IEEE International Conference on Robotics and Automation.[S.l.]:IEEE, 1993:97-117. [20] HUANG L, GE S S, TONG H L, et al. An adaptive impedance control scheme for constrained robots[J]. International Journal of Computers, Systems and Signals, 2004, 5(2):17-26. http://cn.bing.com/academic/profile?id=2107790526&encoded=0&v=paper_preview&mkt=zh-cn [21] SUTTON R S, BARTO A G. Reinforcement learning:an introduction[M]. Cambridge:MIT, 1998. [22] WATKINS C. Learning from delayed rewards[J]. Robotics and Autonomous Systems, 1995, 15(4):233-235. doi: 10.1016/0921-8890(95)00026-C [23] SINGH S, JAAKKOLA T, LITTMAN M L, et al. Convergence results for single-step onpolicyreinforcement-learning algorithms[J]. Machine Learning, 2000, 38(3):287-308. doi: 10.1023/A:1007678930559 [24] THEODOROU E, BUCHLI J, SCHAAL S. A generalized path integral control approach to reinforcement learning[J]. Journal of Machine Learning Research, 2010, 11(11):3137-3181. http://cn.bing.com/academic/profile?id=1925816294&encoded=0&v=paper_preview&mkt=zh-cn [25] ARIMOTO S, HAN H Y, CHEAH C C, et al. Extension of impedance matching to nonlinear dynamics of robotic tasks[J]. Systems & Control Letters, 1999, 36(2):109-119. http://cn.bing.com/academic/profile?id=2059857205&encoded=0&v=paper_preview&mkt=zh-cn