基于动态运动原语和自适应控制的机器人技能学习

doi:10.16183/j.cnki.jsjtu.2021.379

基于动态运动原语和自适应控制的机器人技能学习

张文安^,, 高伟展, 刘安东

浙江工业大学信息工程学院,杭州 310023

Robot Skill Learning Based on Dynamic Motion Primitives and Adaptive Control

ZHANG Wenan^,, GAO Weizhan, LIU Andong

College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China

责任编辑: 王历历

收稿日期: 2021-09-26 接受日期: 2021-11-5

基金资助:

浙江省自然科学基金重大项目(LD21F030002)

Received: 2021-09-26 Accepted: 2021-11-5

作者简介 About authors

张文安(1982-),教授,博士生导师,现主要从事多源信息融合、机器人技能学习研究;E-mail:wazhang@zjut.edu.cn.

摘要

提出一种基于动态运动原语(DMP)和自适应控制的机器人技能学习方法. 现有的DMP从单示教轨迹中学习动作,且其高斯基函数分布方式固定,并不适用于各种不同特征的动作轨迹. 因此,将高斯混合模型和高斯混合回归引入DMP中,使其能从多示教轨迹中学习技能,并且将径向基神经网络(RBFNN)引入DMP中构成RBF-DMP方法,以梯度下降的方式学习高斯基中心位置和权重,提高技能学习的精度.设计自适应神经网络控制器,用于控制机械臂复现示教中学习的动作. 在Franka Emika Panda协作机械臂上开展实验研究,验证方法的有效性.

关键词： 动态运动原语; 高斯混合模型; 径向基神经网络; 机器人学习

Abstract

A novel robot skill learning method using dynamic movement primitive (DMP) and adaptive control is proposed. The existing DMP method learns actions from a single teaching trajectory, and its Gaussian basis function distribution mode is fixed, which is not suitable for multiple movement trajectories with different characteristics. Therefore, the Gaussian mixture model (GMM) and Gaussian mixture regression are introduced into DMP to enable the robot to learn skills from multi-teaching trajectory. Moreover, radial basis function neural network (RBFNN) is introduced into DMP to establish the RBF-DMP method, which is able to learn the central position and weight of Gaussian basis through gradient descent and improves the accuracy of skill modeling. Furthermore, an adaptive neural network controller is designed to control the learned actions of the manipulator in redemonstration. Finally, experiments on Franka Emika Panda manipulator prove the effectiveness of the proposed method.

Keywords： dynamic movement primitive (DMP); Gaussian mixture model (GMM); radial basis function neural network (RBFNN); robot learning

PDF (12357KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张文安, 高伟展, 刘安东. 基于动态运动原语和自适应控制的机器人技能学习[J]. 上海交通大学学报, 2023, 57(3): 354-365 doi:10.16183/j.cnki.jsjtu.2021.379

ZHANG Wenan, GAO Weizhan, LIU Andong. Robot Skill Learning Based on Dynamic Motion Primitives and Adaptive Control[J]. Journal of Shanghai Jiaotong University, 2023, 57(3): 354-365 doi:10.16183/j.cnki.jsjtu.2021.379

近年来,机器人产业迅速发展. 2019年全球机器人市场规模超过200亿美元^[1],使得机器人技术倍受世界关注,各国将机器人作为重点发展领域之一,如中国制造2025、美国的工业互联网、德国的工业4.0等. 传统的机器人主要应用于工业生产环境,但随着机器人智能化水平提升,人们越来越希望机器人能融入生活. 这就要求机器人具有更高的智能,能通过自主学习技能来完成更复杂的任务. 因此,提升机器人技能学习的能力具有重要实际意义.

示教学习是一种简化机器人技能学习的有效方法^[2],一般包含演示、学习和复现3个阶段. 演示阶段主要指人与机器人之间的动作传递过程,已有视觉示教、动觉示教和遥操作示教等成熟的方法. 学习阶段的主要问题在于如何对技能进行建模,常见的方法有动态系统(Dynamic System,DS)^[3]、高斯混合模型(Gaussian Mixture Model,GMM)^[4]和隐马尔科夫模型 ^[5]. 其中,由非线性DS发展而来的动态运动原语(Dynamic Movement Primitive,DMP)^[6]受到国内外学者的关注. Meier等^[7]将DMP重构成一个带有控制输入的线性动态系统概率模型,并将感知测量单元耦合到系统中使其可在线获取反馈信息,根据似然估计结果对任务成败作出预判. Gašpar等^[8]提出弧长参数化的动态原语模型,将空间信息与时间信息分开表示用于解决示教中存在较大运动速度差异的问题. Li等^[9]提出一种基于DMP的分层控制策略,该策略考虑运动建模和动态控制器的性能. 然而DMP建模精度受高斯基个数影响,而且单次示教数据往往存在噪声,导致DMP从单次示教中往往无法得到需要的动作模型. 因此研究如何让DMP从多轨迹中提取主要特征建模动作,并在更少的高斯基下提高建模精度非常有必要.

示教学习效果不仅取决于技能建模效果,还取决于技能复现中的轨迹跟踪精度. 然而机械臂的轨迹跟踪精度通常受机械臂自身动力学模型精度和外部负载力矩的影响^[10⇓-12],比如机械臂动力学模型中未辨识部分和搬运物体时受到的外部负载力矩.对于机械臂动力学模型的误差,通常利用神经网络逼近动力学模型中的非线性特性和辨识误差来补偿^[13⇓-15]. 文献[16]使用反向传播神经网络(BackPropagation Neural Network,BPNN)逼近减震装置模型中的未知非线性部分,用于控制器的设计;而文献[17]将径向基神经网络(Radial Basis Function Neural Network, RBFNN)用于逼近机械臂的动力学模型未辨识部分,与BPNN相比,RBFNN具有收敛到最优解、训练相对较快的优势,但因机械臂动力学参数完全由神经网络拟合,所以依旧会导致收敛过程较长. 对于机械臂外部负载力矩,文献[18-19]通过RBFNN网络补偿外部负载力矩,使机械臂能更好地完成任务.

为改善示教学习的效果,本文提出一种基于DMP和自适应神经网络控制的机器人技能学习方法. 主要创新点包括:① 将RBFNN引入DMP的非线性函数拟合中,改善高斯基函数的分布,提出一种RBF-DMP方法,从而提升DMP的建模能力; ② 为克服传统DMP只能从单条示教轨迹建模动作的局限性,将GMM和高斯混合回归(Gaussic Minture Regression, GMR)引入DMP的强迫项拟合,从多示教轨迹中建模动作,减少示教不确定性带来的动作建模误差; ③ 设计基于自适应神经网络的控制器来控制机械臂复现示教动作,并对闭环系统的稳定性进行分析.

1 基于动态运动原语的动作建模

1.1 动态运动基元

DMP模型^[6]由以下弹簧-阻尼系统和非线性强迫项函数组成:

(1)

τ_{s} \overset{\cdot}{z} = α_{z} [β_{z} (g - y) - z] + f (x)

(2)

τ_{s} \overset{\cdot}{y} = z

(3)

τ_{s} \overset{\cdot}{x} = - α_{x} x

式中: $y \in R^{n}$ 为机械臂的关节位置; $z \in R^{n}$ 为机械臂的关节速度;g为目标位置; $τ_{s}$ 为时间常数且可通过调节 $τ_{s}$ 改变动作的持续时间; x为状态量; $α_{z}$ 、 $β_{z}$ 和 $α_{x}$ 为正常数,通常选取 $β_{z} = α_{z} / 4$ 使得式(1)中的弹簧阻尼系统达到临界阻尼;强迫函数f(x)为一个非线性连续有界函数,定义为

(4)

f (x) = \frac{\overset{N_{g}}{\sum_{i = 1}} Ψ_{i} (x) w_{i}}{\overset{N_{g}}{\sum_{i = 1}} Ψ_{i} (x)} x (g - y_{0})

(5)

Ψ_{i} (x) = e x p [\frac{1}{2 σ_{i}^{2}} (x - c_{i})^{2}]

式中: $Ψ_{i} (x)$ 为高斯基函数, $c_{i}$ 和 $σ_{i}$ 决定了高斯基函数的中心位置和方差; $w_{i}$ 为权重; $y_{0}$ 为示教轨迹的起始位置; $N_{g}$ 为高斯基函数的个数.当x收敛到0时,强迫项f(x)=0,即y收敛到目标点g.因此,对于不同的任务只需确定参数 $w_{i}$ , $c_{i}$ ,即可对动作进行建模.

DMP拟合动作的过程即拟合非线性函数f(x),假设给定一组一维演示轨迹并编码成时间的序列 ${θ_{t}, {\overset{\cdot}{θ}}_{t}, {\ddot{θ}}_{t} |t = 1, 2, \dots, T}$ ,其中 $θ_{t}$ 、 ${\overset{\cdot}{θ}}_{t}$ 和 ${\ddot{θ}}_{t}$ 为采样时刻t的位置、速度和加速度,T为时间序列的最大长度,可以获得如下的强迫项函数:

(6)

\begin{matrix} \hat{f} (x) = τ_{s}^{2} {\ddot{θ}}_{t} - α_{z} β_{z} (g - θ_{t}) + α_{z} τ_{s} {\overset{\cdot}{θ}}_{t} \end{matrix}

权重项w_i可以通过局部线性回归(Locally Weighted Regression,LWR)求解下式获得:

(7)

\begin{matrix} m i n \sum (\hat{f} (x) - f {(x))}^{2} \end{matrix}

1.2 基于RBFNN的RBF-DMP

上述DMP在式(3)的x轨迹上等时间间隔选取 ${c_{i}}^{[5]}$ ,如图1(a)所示,再通过LWR求解式(7)获取权重w_i. 然而对于不同动作,应采用不同高斯基分布方式,从而提高建模精度,如图1(b)所示.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 DMP和RBF-DMP拟合同一技能得到的高斯基中心位c_i的分布

Fig.1 Distribution of center position c_i of Gaussian base obtained by DMP and RBF-DMP fitting the same action

为此,将RBFNN引入DMP中,提出RBF-DMP方法. 该方法以梯度下降的方式学习权重 $w_{i} 和高斯基中心位置 c_{i},$ 更充分地利用高斯基函数的拟合能力,从而提升动作建模精度. 其中RBFNN网络^[20]定义如下:

(8)

\begin{matrix} F (x) = W^{T} S (x) \end{matrix}

式中: $S (x) 由 s_{i} (x)$ 构成.

(9)

\begin{array}{l} s_{i} (x) = exp [- \frac{{(x - c_{i})}^{T} (x - c_{i})}{σ_{i}^{2}}] \\ i = 1, 2, . . ., N_{g} \end{array}

(10)

W = [w_{1} w_{2} \dots w_{N_{g}}]^{T}

最优权重被定义为

(11)

\begin{matrix} W = \underset{\hat{W} \in R^{N_{g}}}{a r g m i n} (\underset{x \in Ω_{x}}{s u p} | f (x) - {\hat{W}}^{T} S (x) |) \end{matrix}

即在输入空间 $x \in Ω_{x} 中最小化误差值, \hat{W} 为 W$ 的期望. 本文中带^符号的变量均表示该变量的期望.为保持DMP原有的稳定性,将 $x (g - y_{0})$ 分离出来,从而可将式(4)改写如下:

(12)

\begin{matrix} F (x) = \frac{\hat{f} (x)}{x (g - y_{0})} = \frac{\overset{N_{g}}{\sum_{i = 1}} Ψ_{i} (x) w_{i}}{\overset{N_{g}}{\sum_{i = 1}} Ψ_{i} (x)} \end{matrix}

由采样轨迹得出的强迫项$\text{\hat{f}}$和相位系统式(3)的输出x可计算一组函数值$ F\left( \lambda \right)\left| \lambda \right.=1,2,\ldots,T $.将其用于训练神经网络,DMP的强迫项即可写成下式:

(13)

\begin{matrix} f (x) = F (x) x (g - y_{0}) \end{matrix}

该方法相比DMP需要更大的计算量,但在相同的高斯基个数下具有更高的建模精度. 为将DMP和RBF-DMP两者的优势相结合,提出如图2所示的扩展框架,其通过式(3)将DMP和RBF-DMP结合到一起,并统一到同一相位系统以便于泛化.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 结合DMP和RBF-DMP的DMP扩展框架

Fig.2 DMP extension framework combining DMP and RBF-DMP

1.3 基于GMM和GMR的改进DMP

DMP从单次示教轨迹中建模动作^[6],但单次示教数据往往存在噪声和误差. 通常希望能通过多次示教,从多条轨迹中获得主要的动作特征以消除这些干扰. 鉴于GMM和GMR的统计特性,将二者引入到DMP中,利用GMM对多组强迫项进行建模,然后通过GMR去估计真实的强迫函数,如图3所示.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 使用GMM和GMR对DMP的强迫项进行建模和回归

Fig.3 Modeling and regression of DMP forcing terms by GMM and GMR

改进DMP算法流程如图4所示.先将 $N_{d}$ 条示教轨迹 ${(θ_{t, p}, {\overset{\cdot}{θ}}_{t, p}, {\ddot{θ}}_{t, p}) |t = 1, 2, \dots, T; p = 1, 2, \dots, N_{d}}$ 求取强迫项函数后,组成相位x与强迫项函数f的数据 ${(x_{t}, f_{t, p}) |t = 1, 2, \dots, T; p = 1, 2, \dots, N_{d}}$ .为了对这组数据集进行建模,定义如下GMM联合概率密度函数:

(14)

p (x, f) = \overset{K}{\sum_{k = 1}} α_{k} N (x, f; μ_{k}, Σ_{k})

(15)

\overset{K}{\sum_{k = 1}} α_{k} = 1

(16)

μ_{k} = [\begin{array}{l} μ_{x, k} \\ μ_{f, k} \end{array}], Σ_{k} = [\begin{array}{l} Σ_{x, k} & Σ_{x f, k} \\ Σ_{f x, k} & Σ_{f, k} \end{array}]

式中:N(·)为高斯概率分布,且

(17)

\begin{array}{l} N (x, f; μ_{k}, Σ_{k}) = \\ \frac{e x p [- \frac{1}{2} ({[x f]}^{T} - μ_{k})^{T} Σ_{k}^{- 1} ({[x f]}^{T} - μ_{k})]}{2 π \sqrt{(|Σ_{k}|)}} \end{array}

式中: K为高斯分布的数目; $α_{k} \geq 0$ 为权重; $μ_{k} \in R^{2 \times 1}$ 和 $Σ_{k} \in R^{2 \times 2}$ 为第K个高斯分布的均值和方差. $α_{k}$ , $μ_{k}$ , $Σ_{k}$ 均为需要学习的参数.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 改进DMP算法流程图

Fig.4 Flow chart of improved DMP algorithm

由于期望最大 (Expectation-Maximum, EM)算法求解GMM模型参数需要获取1组适当的初始参数, 所以先对数据进行K均值聚类,即最小化以下函数来把数据集分成K个子集合 $D = {D_{1}, D_{2}, \dots, D_{K}}$ .

(18)

\hat{D} = \underset{D}{a r g m i n} \overset{K}{\sum_{k = 1}} \sum_{x \in D_{k}} {(x - m_{k})}^{2}

式中: $x = [x_{t} f_{t, n}]^{T}$ , $m_{k}$ 为集合 $D_{k}$ 的均值.通过迭代上式使得集合不再变化,即可求取 $α_{k}$ , $μ_{k}$ , $Σ_{k}$ .

(19)

α_{k} = \frac{|D_{k}|}{\overset{K}{\sum_{i = 1}} |D_{i}|}

(20)

μ_{k} = m_{k}, Σ_{k} = {[\begin{array}{l} Σ_{x 1} & Σ_{x 1 x 2} \\ Σ_{x 2 x 1} & Σ_{x 2} \end{array}]}_{x \in D_{k}}

然后用EM算法估计GMM参数得到强迫项函数的模型,即通过最大化以下对数似然函数求取

(21)

π_{k} = (α_{k}, μ_{k}, Σ_{k}) : {\hat{π}}_{k} = \underset{π_{k}}{a r g m a x} l n (p (x, f| π_{k}))

最后用GMR估计f(x),将式(14)改写为

(22)

p (x, f) = \overset{K}{\sum_{k = 1}} α_{k} N (f; {\hat{η}}_{k}, {\hat{σ}}_{k}^{2}) N (x; μ_{x, k}, Σ_{x, k})

式中:

(23)

\begin{matrix} {\hat{η}}_{k} (x) = μ_{f, k} + Σ_{f x, k} (Σ_{x, k})^{- 1} (x - μ_{x, k}) \end{matrix}

(24)

{\hat{σ}}_{k}^{2} = Σ_{f, k} - Σ_{f x, k} (Σ_{x, k})^{- 1} Σ_{x f, k}

那么x的边缘密度为

(25)

p (x) = \int p (x, f) d x = \overset{K}{\sum_{k = 1}} α_{k} N (x; μ_{x, k}, Σ_{x, k})

由式(22)和式(25)可得条件概率:

(26)

\begin{matrix} p (f ∣ x) = \overset{K}{\sum_{k = 1}} β_{k} (x) N (f; {\hat{η}}_{k}, {\hat{σ}}_{k}^{2}) \end{matrix}

式中: $β_{k} (x) = \frac{α_{k} N (x; μ_{x, k}, Σ_{x, k})}{\overset{K}{\sum_{k = 1}} α_{k} N (x; μ_{x, k}, Σ_{x, k})} .$

由此得到如下GMR函数:

(27)

\begin{matrix} \hat{f} (x) = E (f | x) = \overset{K}{\sum_{k = 1}} β_{k} (x) {\hat{η}}_{k} (x) \end{matrix}

2 自适应神经网络控制器

2.1 控制器的设计

为设计控制律使机械臂跟踪期望的轨迹 $q_{d}$ , ${\overset{\cdot}{q}}_{d}$ , ${\ddot{q}}_{d}$ 运行,首先给出以下条件约束:C1期望轨迹需要满足 $(q_{d}) < c_{q}, ({\overset{\cdot}{q}}_{d}) < c_{\overset{\cdot}{q}}, ({\ddot{q}}_{d}) < c_{\ddot{q}}$ ,其中 $c_{q}, c_{\overset{\cdot}{q}}, c_{\ddot{q}} \in R_{+}$ .反馈增益矩阵K_p 和K_d 是正定的,K_d 最小特征值要大于正实数 $β \in R_{+}$ ,即 $σ_{m i n} (K_{d}) > β$ .

考虑如下具有外部负载力矩的n杆刚性机械臂动力学模型:

(28)

\begin{matrix} τ = H (q) \ddot{q} + C (q, \overset{\cdot}{q}) \overset{\cdot}{q} + G (q) + τ_{p} \end{matrix}

式中: $q \in R^{n}$ 为关节位移量; $τ \in R^{n}$ 为关节的力矩; $τ_{p}$ 为机械臂的外部负载力矩; $H (q) \in R^{n \times n}$ 为机械臂的惯性矩阵; $C (q, \overset{\cdot}{q}) \in R^{n \times n}$ 为向心力矩和科里奥利力矩的和, $G (q) \in R^{n}$ 包含重力项和其他力. 其中模型参数具有以下属性^[21],即

(1) H(q)对称且正定.

(2) $\overset{\cdot}{H}$ (q)-2C(q, $\overset{\cdot}{q}$ )∈Rⁿ^×ⁿ是反对称矩阵. 惯性矩阵有界并且Lipschitz连续,即 $(H (q))$ <∞和||H(q)-H(q')||≤L $(q - q')$ ,其中L≥0,q,q'∈Rⁿ.

(3) 矩阵C(q, $\overset{\cdot}{q}$ )是q上有界且关于 $\overset{\cdot}{q}$ 线性,即对所有的q, $\overset{\cdot}{q}$ , $\overset{\cdot}{p}$ ∈Rⁿ和c_c∈R⁺,||C(q, $\overset{\cdot}{q}$ )||≤c_c $(\overset{\cdot}{q})$ 以及C(q, $\overset{\cdot}{q}$ ) $\overset{\cdot}{p}$ =C(q, $\overset{\cdot}{p}$ ) $\overset{\cdot}{q}$ .

为加速控制器神经网络的收敛速度,将辨识参数作为训练网络参数的初始值,动力学模型的辨识参数表示为

(29)

\begin{matrix} τ_{m} = H_{m} (q) \ddot{q} + C_{m} (q, \overset{\cdot}{q}) \overset{\cdot}{q} + G_{m} (q) \end{matrix}

式中:H_m,C_m,G_m为动力学模型的估计参数. 设计如下控制律,即

(30)

\begin{array}{l} τ_{c} = \hat{H} (q) {\ddot{q}}_{d} + \hat{C} (q, \overset{\cdot}{q}) {\overset{\cdot}{q}}_{d} + \\ \hat{G} (q) + τ_{d m p} - K_{d} \overset{\cdot}{e} - K_{p} e \end{array}

式中:τ_dmp为RBF-DMP对τ_p的建模结果,其建模误差表示为ε_dmp=τ_p-τ_dmp,e=q-q_d是轨迹跟踪误差, $\hat{H}$ (q), $\hat{C}$ (q, $\overset{\cdot}{q}$ ), $\hat{G}$ (q)由机械臂模型参数H_m,C_m,G_m和RBFNN拟合结果组成,即

(31)

\begin{matrix} \begin{array}{l} \hat{H} (q) = H_{m} (q) + {\hat{W}}_{H}^{T} S_{H} (q) \\ \hat{C} (q, \overset{\cdot}{q}) = C_{m} (q, \overset{\cdot}{q}) + {\hat{W}}_{C}^{T} S_{C} (q, \overset{\cdot}{q}) \\ \hat{G} (q) = G_{m} (q) + {\hat{W}}_{G}^{T} S_{G} (q) \end{array}\} \end{matrix}

式中: ${\hat{W}}_{H}$ ∈ $R^{n N_{g} \times n}$ , ${\hat{W}}_{C}$ ∈ $R^{2 n N_{g} \times n}$ 和 ${\hat{W}}_{G}$ ∈ $R^{n N_{g} \times n}$ 为神经网络的权重矩阵,定义如下:

\begin{array}{l} W_{H} = [W_{H_{i, j}}], W_{C} = [W_{C_{i, j}}] \\ W_{G} = d i a g (W_{G_{i}}) \end{array}

其中: $W_{H_{i, j}} \in R^{N_{g}}$ , $W_{C_{i, j}} \in R^{2 N_{g}}$ , $W_{G_{i}} \in R^{N_{g}}$ 为权重向量用于估计 $H_{i, j} (θ) \in R$ , $C_{i, j} (θ) \in R$ 以及 $G_{i} (θ) \in R$ ,径向基函数矩阵 $S_{H} (θ)$ , $S_{C} (θ, \overset{\cdot}{θ})$ , $S_{G} (θ)$ 定义为

\begin{matrix} \begin{array}{l} S_{H} (θ) = d i a g (S_{θ}, \dots, S_{θ}) \\ S_{C} (θ, \overset{\cdot}{θ}) = d i a g ([\begin{array}{l} S_{θ} \\ S_{\overset{\cdot}{θ}} \end{array}], \dots, [\begin{array}{l} S_{θ} \\ S_{\overset{\cdot}{θ}} \end{array}]) \\ S_{G} (θ) = {[{S^{T}}_{θ} \dots {S^{T}}_{θ}]}^{T} \end{array} \end{matrix}

其中: $S_{H} \in R^{n N_{g} \times n}$ , $S_{C} \in R^{2 n N_{g} \times n}$ , $S_{G} \in R^{n N_{g}}$ , $S_{θ} = [s_{1} (θ) s_{2} (θ) \dots s_{N_{g}} {(θ)]}^{T} \in R^{l}$ , $S_{\overset{\cdot}{θ}} = [s_{1} (\overset{\cdot}{θ}) s_{2} (\overset{\cdot}{θ}) \dots s_{N_{g}} {(\overset{\cdot}{θ})]}^{T} .$

将式(30)代入机械臂的动力学方程式(28)中可得:

(32)

H (q) \ddot{q} + C (q, \overset{\cdot}{q}) \overset{\cdot}{q} + G (q) + τ_{p} = \hat{H} (q) {\ddot{q}}_{d} + \hat{C} (q, \overset{\cdot}{q}) {\overset{\cdot}{q}}_{d} + \hat{G} (q) + τ_{d m p} - K_{d} \overset{\cdot}{e} - K_{p} e

(33)

\begin{array}{l} H (q) = H_{m} (q) + W_{H}^{T} S_{H} (q) + ε_{H} \\ C (q, \overset{\cdot}{q}) = C_{m} (q, \overset{\cdot}{q}) + W_{C}^{T} S_{C} (q, \overset{\cdot}{q}) + ε_{C} \\ G (q) = G_{m} (q) + W_{G}^{T} S_{G} (q) + ε_{G} \end{array}\}

式中: $ε_{H} = H (q) - \hat{H} (q), ε_{C} = C (q, \overset{\cdot}{q}) - \hat{C} (q, \overset{\cdot}{q}), ε_{G} = G (q) - \hat{G} (q)$ 为估计误差,得到如下加速度误差:

(34)

\begin{array}{l} \ddot{e} = - H {(q)}^{- 1} ({\tilde{W}}_{H}^{T} S_{H} (q) {\ddot{q}}_{d} + {\tilde{W}}_{C}^{T} S_{C} (q, \overset{\cdot}{q}) {\overset{\cdot}{q}}_{d} + \\ {\tilde{W}}_{G}^{T} S_{G} (q) + C (q, \overset{\cdot}{q}) \overset{\cdot}{e} + K_{p} e + K_{d} \overset{\cdot}{e} + ε_{d m p} + \\ ε_{H} {\ddot{q}}_{d} + ε_{C} {\overset{\cdot}{q}}_{d} + ε_{G}) \end{array}

式中: ${\tilde{W}}_{H}$ =W_H- ${\hat{W}}_{H}$ , ${\tilde{W}}_{C}$ =W_C- ${\hat{W}}_{C}$ , ${\tilde{W}}_{G}$ =W_G- ${\hat{W}}_{G}$ 为神经网络拟合过程中的误差. 闭环系统结构如图5所示.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 闭环控制系统框图

Fig.5 Block diagram of closed-loop control system

2.2 系统稳定性分析

机械臂进行技能复现的过程中,系统的稳定性尤为重要,其保证了机械臂和操作者的安全. 以下将给出技能复现过程机械臂控制系统的稳定性分析结果.

定理1 考虑机械臂动力学模型式(28),在给定的有界q_d和 ${\overset{\cdot}{q}}_{d}$ 下,控制律式(30)和神经网络权重更新律将保证闭环系统的稳定性.

证明为系统式(33)选取Lyapunov函数:

(35)

\begin{matrix} V = V_{1} + V_{2} \end{matrix}

式中:

\begin{array}{l} V_{1} = \frac{1}{2} {\overset{\cdot}{e}}^{T} H \overset{\cdot}{e} + \frac{1}{2} e^{T} K_{p} e \\ V_{2} = \frac{1}{2} t r ({\tilde{W}}_{H}^{T} Γ_{H}^{- 1} {\tilde{W}}_{H}) + \frac{1}{2} t r ({\tilde{W}}_{C}^{T} Γ_{C}^{- 1} {\tilde{W}}_{C}) + \\ \frac{1}{2} t r ({\tilde{W}}_{G}^{T} Γ_{G}^{- 1} {\tilde{W}}_{G}) \end{array}

其中: $Γ_{H}^{- 1}$ , $Γ_{C}^{- 1}$ , $Γ_{G}^{- 1}$ 为正定矩阵,对V₁求导可得

(36)

\begin{matrix} {\overset{\cdot}{V}}_{1} = {\overset{\cdot}{e}}^{T} H \ddot{e} + \frac{1}{2} {\overset{\cdot}{e}}^{T} \overset{\cdot}{H} \overset{\cdot}{e} + {\overset{\cdot}{e}}^{T} K_{p} e \end{matrix}

令ε_dmp+ε_H ${\ddot{q}}_{d}$ +ε_C ${\overset{\cdot}{q}}_{d}$ +ε_G=ε_r,将式(34)代入式(36)可得:

(37)

\begin{array}{l} {\overset{\cdot}{V}}_{1} = {\overset{\cdot}{e}}^{T} ({\tilde{W}}_{H}^{T} S_{H} (q) {\ddot{q}}_{d} + {\tilde{W}}_{C}^{T} S_{C} (q, \overset{\cdot}{q}) {\overset{\cdot}{q}}_{d} + {\tilde{W}}_{G}^{T} S_{G} (q) + ε_{r} - C (q, \overset{\cdot}{q}) \overset{\cdot}{e} - K_{p} e - K_{d} \overset{\cdot}{e}) + {\overset{\cdot}{e}}^{T} K_{p} e + \\ {\overset{\cdot}{e}}^{T} [\frac{1}{2} (\overset{\cdot}{H} - 2 C (q, \overset{\cdot}{q})) + C (q, \overset{\cdot}{q})] \overset{\cdot}{e} \end{array}

由属性(2)可知 $\overset{\cdot}{H}$ -2C是一个反对称矩阵,从而可将式(37)转化为

(38)

\begin{array}{l} {\overset{\cdot}{V}}_{1} = {\overset{\cdot}{e}}^{T} ε_{r} - {\overset{\cdot}{e}}^{T} K_{d} \overset{\cdot}{e} + {\overset{\cdot}{e}}^{T} {\tilde{W}}_{H}^{T} S_{H} (q) {\ddot{q}}_{d} + \\ {\overset{\cdot}{e}}^{T} {\tilde{W}}_{C}^{T} S_{C} (q, \overset{\cdot}{q}) {\overset{\cdot}{q}}_{d} + {\overset{\cdot}{e}}^{T} {\tilde{W}}_{G}^{T} S_{G} (q) \end{array}

进一步对V₂求导可得:

(39)

\begin{array}{l} {\overset{\cdot}{V}}_{2} = t r ({\tilde{W}}_{H}^{T} Γ_{H}^{- 1} {\overset{\cdot}{\tilde{W}}}_{H}) + t r ({\tilde{W}}_{C}^{T} Γ_{C}^{- 1} {\overset{\cdot}{\tilde{W}}}_{C}) + \\ t r ({\tilde{W}}_{G}^{T} Γ_{G}^{- 1} {\overset{\cdot}{\tilde{W}}}_{G}) \end{array}

根据式(36),并结合 ${\overset{\cdot}{\tilde{W}}}_{H}$ = ${\overset{\cdot}{W}}_{H}$ - ${\overset{\cdot}{\hat{W}}}_{H}$ , ${\overset{\cdot}{\tilde{W}}}_{C}$ = ${\overset{\cdot}{W}}_{C}$ - ${\overset{\cdot}{\hat{W}}}_{C}$ , ${\overset{\cdot}{\tilde{W}}}_{G}$ = ${\overset{\cdot}{W}}_{G}$ - ${\overset{\cdot}{\hat{W}}}_{G}$ 可得:

(40)

\begin{array}{l} \overset{\cdot}{V} = - {\overset{\cdot}{e}}^{T} ε_{r} - {\overset{\cdot}{e}}^{T} K_{d} \overset{\cdot}{e} + \\ t r [{\tilde{W}}_{H}^{T} (S_{H} {\ddot{q}}_{d} {\overset{\cdot}{e}}^{T} + Γ_{H}^{- 1} {\overset{\cdot}{\hat{W}}}_{H})] + \\ t r [{\tilde{W}}_{C}^{T} (S_{C} {\overset{\cdot}{q}}_{d} {\overset{\cdot}{e}}^{T} + Γ_{C}^{- 1} {\overset{\cdot}{\hat{W}}}_{C})] + \\ t r [{\tilde{W}}_{G}^{T} (S_{G} {\overset{\cdot}{e}}^{T} + Γ_{G}^{- 1} {\overset{\cdot}{\hat{W}}}_{G})] \end{array}

设计神经网络的权重更新方式如下:

(41)

\begin{matrix} \begin{array}{l} {\overset{\cdot}{\hat{W}}}_{H} = - Γ_{H} (S_{H} {\ddot{q}}_{d} {\overset{\cdot}{e}}^{T} + ρ_{H} {\hat{W}}_{H}) \\ {\overset{\cdot}{\hat{W}}}_{C} = - Γ_{C} (S_{C} {\overset{\cdot}{q}}_{d} {\overset{\cdot}{e}}^{T} + ρ_{C} {\hat{W}}_{C}) \\ {\overset{\cdot}{\hat{W}}}_{G} = - Γ_{G} (S_{G} {\overset{\cdot}{e}}^{T} + ρ_{G} {\hat{W}}_{G}) \end{array}\} \end{matrix}

式中:ρ_H, ρ_G, ρ_C为设置的学习率,将式(41)代入式(40)可得:

(42)

\begin{array}{l} \overset{\cdot}{V} = - {\overset{\cdot}{e}}^{T} ε_{r} - {\overset{\cdot}{e}}^{T} K_{d} \overset{\cdot}{e} + t r (ρ_{H} {\tilde{W}}_{H}^{T} {\overset{\cdot}{\hat{W}}}_{H}) + \\ t r (ρ_{C} {\tilde{W}}_{C}^{T} {\overset{\cdot}{\hat{W}}}_{C}) + t r (ρ_{G} {\tilde{W}}_{G}^{T} {\overset{\cdot}{\hat{W}}}_{G}) \end{array}

根据杨氏不等式和tr( ${\tilde{W}}_{(•)}^{T} {\hat{W}}_{(•)}$ )≤- $\frac{1}{2}$ × ${({\tilde{W}}_{(•)})}_{F}^{2}$ + $\frac{1}{2} {(W_{(•)})}_{F}^{2}$ ,可得:

(43)

\dot{V} \leq - (K_{d} - \frac{1}{2}) {‖\dot{e}‖}^{2} + \tilde{ω} - \frac{ρ H}{2} {‖{\tilde{W}}_{H}‖}_{F}^{2} - \frac{ρ c}{2} {‖{\tilde{W}}_{c}‖}_{F}^{2} - \frac{ρ G}{2} {‖{\tilde{W}}_{G}‖}_{F}^{2}

式中:成立的条件为 $\tilde{ω} = \frac{ρ H}{2} {‖{\tilde{W}}_{H}‖}_{F}^{2} + \frac{ρ c}{2} {‖{\tilde{W}}_{c}‖}_{F}^{2} + \frac{ρ G}{2} {‖{\tilde{W}}_{G}‖}_{F}^{2} + \frac{1}{2} K_{F}^{2}$ ,其中K_F为 $‖ε_{r}‖$ 的上界，K_d的最小值，因此使得 $\dot{V} \leq 0$ 成立的条件为

ζ = (K_{d} - \frac{1}{2}) {‖\dot{e}‖}^{2} + \frac{ρ H}{2} {‖{\tilde{W}}_{H}‖}_{F}^{2} + \frac{ρ c}{2} {‖{\tilde{W}}_{c}‖}_{F}^{2} + \frac{ρ G}{2} {‖{\tilde{W}}_{G}‖}_{F}^{2}, ζ \geq \tilde{ω}

由此可知 $\overset{\cdot}{e}$ 会收敛到一个不变集:

(44)

Ω = \{(‖\dot{e}‖, ‖W_{H}‖, ‖W_{c}‖, ‖W_{G}‖) | ζ / \tilde{ω} \leq 1\}

定理1得证.

3 实验结果及分析

3.1 RBF-DMP算法的性能分析

提供DMP和RBF-DMP在人类手写数据库即LASA数据集上的仿真结果,并通过建模精度对比RBF-DMP和DMP的性能优劣.

为对比二者性能,设置DMP和RBF-DMP参数α_z=β_z/4=25,τ_s=1,α_x=1,且二者强迫项部分都采用50个高斯基. 将30类手写轨迹视为一个动作包含的30个特征,用DMP和RBF-DMP对其进行建模并复现.图6给出3组动作的示教轨迹和相应的DMP、RBF-DMP复现轨迹,可以看出RBF-DMP的复现效果普遍好于DMP.而且在相同高斯基个数下DMP和RBF-DMP的强迫项存在以下关系:

\frac{\overset{N_{g}}{\sum_{i = 1}} Ψ_{i} (x) w_{i}}{\overset{N_{g}}{\sum_{i = 1}} Ψ_{i} (x)} = \overset{N_{g}}{\sum_{i = 1}} \frac{Ψ_{i} (x)}{\overset{N_{g}}{\sum_{j = 1}} Ψ_{j} (x)} w_{i} = \overset{N_{g}}{\sum_{i = 1}} S_{i} (x) w_{i}

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 DMP和RBF-DMP在LASA数据集上的复现结果

Fig.6 Repeatable results of DMP and RBF-DMP on LASA dataset

可知RBF-DMP通过改善高斯基函数分布来提升建模精度.

为定量分析RBF-DMP相比于DMP在建模精度方面的优越性,通过均方误差(Mean Squared Error,MSE)描述动作建模误差,其计算公式如下:

M S E = \frac{1}{L} \overset{L}{\sum_{l = 1}} \frac{1}{M} \overset{M}{\sum_{m = 1}} (\hat{y} (m) - y {(m))}^{2}

其中: $\hat{y} (m)$ , y(m)分别为复现和示教轨迹;M为当前示教轨迹点的个数;L为示教的次数.MSE可以反映示教和复现的一致性.

分别计算DMP和RBF-DMP复现轨迹与演示轨迹之间的MSE,如图7(a)所示,其横坐标与图6中的演示轨迹类相对应. 再分别增加DMP的高斯基个数至70和90个,同时计算MSE得到图7(b). 结合图6和图7(a)可以看出,对于不同复杂度的轨迹,RBF-DMP在较为复杂的轨迹上能大幅提升建模精度,而对于较为简单的轨迹其建模精度与DMP相近. 从图7(b)中还可以看出RBF-DMP能在更少的高斯基下达到更好的建模效果,从而减少所需的高斯基个数,降低模型复杂度.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 DMP和RBF-DMP在LASA数据集上MSE分析

Fig.7 MSE analysis of DMP and RBF-DMP on LASA datasets

表1给出DMP和RBF-DMP两种方法在50个高斯基的情况下,对LASA数据集中所有演示轨迹进行建模所花费的时间,从表中可以看出RBF-DMP在耗时上长于DMP. 结合图7(a)的曲线,为了在提升建模精度的同时减少建模时间的增长,提出图2中的扩展框架,可以对动作中不同复杂度的特征采用不同的建模方法. 为体现这一框架的优越性,对LASA数据集中的不同类轨迹按照轨迹拐点个数进行分类,将拐点数大于2的示教轨迹作为复杂动作特征,而其余的作为常规特征. 然后利用扩展框架将DMP和RBF-DMP相结合,对LASA数据集进行建模和复现,最后计算出总MSE和总建模时间即拓展框架,可以看出其在少量增加总建模时间的情况下,大幅减少总MSE.

表1 DMP、RBF-DMP算法和扩展框架在LASA数据集上的性能比较

Tab.1 Performance comparison of DMP, RBF-DMP algorithm, and extended framework on LASA dataset

方法	总MSE	总建模时间/s
DMP	1.628	12.91
RBF-DMP	1.011	16.24
拓展框架	1.193	13.98

新窗口打开| 下载CSV

3.2 机械臂实验

为验证本文提出的机器人技能学习方法的有效性,在七自由度的机械臂Franka Emika Panda上进行实验验证.

(1) 从演示轨迹中学习技能.

示教人员将机械臂末端拖动至桌子上的物块点,然后将物块夹取并搬运到指定的位置, 如图8所示,其中物块的质量为1.03 kg. 通过4次演示,采集4组各个关节的运动轨迹用于技能学习, 在演示过程中加入少量的误操作与抖动,为便于表示,将从基座到末端的7个关节依次命名为J1-J7.

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 物块搬运的演示过程

Fig.8 Demonstration of block handling process

然后用改进的DMP对演示轨迹进行学习,其参数α_z=β_z/4=25,τ_s=1,α_x=1,用得到的模型生成复现动作,结果如图9(a)和9(b)所示.由于关节数较多,只展示J1和J3的效果,其中虚线为多次拖动演示得到的数据,实线为复现数据. 可以看出该方法能从多次示教中提取出主要的动作特征,消除不必要的演示干扰. 与此同时,对于较为复杂的负载力矩数据,采用RBF-DMP对其建模,其结果如图9(c)和9(d)所示. 最后通过扩展框架将二者统一到同一相位系统中,便于泛化. 图中:t'为实验时间点,τ为力矩,θ为关节角度.

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 基于改进DMP和RBF-DMP的动作特征建模

Fig.9 Motion feature modeling based on improved DMP and RBF-DMP

改进DMP从多次示教中学习技能,但多次示教中,物块放置的目标位置会存在误差,将导致学习到的动作在复现时,放置位置产生偏移. 另外,通过示教学习到的动作应当能用于处理一类近似的任务,而不是单一任务.

为解决这两类问题,需对学习到的技能进行泛化,通过相机测量物块放置的目标坐标,然后通过Track-IK工具包求逆解,得到新的期望关节位置g',然后调节式(1)和式(4)中的g,使得模型收敛到新的目标点g',其泛化结果如图10.

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 动作泛化

Fig.10 Action generalization

(2) 机械臂技能复现.

为验证所提出自适应神经网络控制器的有效性. 利用如图11所示的机械人技能学习系统复现从演示中学习得到的搬运技能.

图11

新窗口打开| 下载原图ZIP| 生成PPT

图11 机器人技能学习系统

Fig.11 Robot skill learning system

首先对自适应神经网络控制器参数进行设置:在每个输入维度上选取3个径向基网络节点,其节点的中心位置在关节位置和速度的可执行范围内均匀分布. 对于H(θ),G(θ)的补偿,设置网络节点数N_g=3⁷=2 187 个;同理,对C(θ, $\overset{\cdot}{θ}$ )选取2N_g个网络节点,并设置初始权重参数 ${\hat{W}}_{H}$ =0, ${\hat{W}}_{C}$ =0, ${\hat{W}}_{G}$ =0. 然后设置参数K_p=diag(50, 50, 40, 40, 35, 35, 30),K_d=diag(5, 5, 5, 5, 3, 3, 3). 对于机械臂的模型辨识参数,Panda机械臂具有动力学参数求取功能,可以估计出当前机械臂自身的动力学参数,但受外部因素影响而并不准确,因此将这些参数作为H_m,C_m,G_m. 然后通过DMP动作模型生成轨迹序列和力矩量. 最后结合上述自适应网络控制器数据,并根据式(28)~(29)即可得控制量,控制机械臂复现演示动作,如图12所示.

图12

新窗口打开| 下载原图ZIP| 生成PPT

图12 机械臂复现并泛化技能

Fig.12 Reproduction and generalization skills of mechanical arm

通过两组对比实验对本文设计的控制器的有效性进行检验. 第1组实验采用比例微分控制,不启用自适应神经网络和外部负载力矩补偿. 第2组实验使用本文提出的自适应神经网络控制器. 两次实验的期望关节轨迹(虚线)和实际关节轨迹(实线)如图13(a)和13(c)所示,对应的关节轨迹误差如图13(b)和13(d)所示. 可以看出,实验二中机械臂各个关节的轨迹跟踪精度明显好于实验一的结果,这是由于实验一中机械臂动力学参数不够准确以及外部负载的影响,而实验二通过自适应神经网络和外部负载力矩对其分别进行补偿,使得轨迹跟踪误差减少到[-0.05 rad, 0.05 rad].

图13

新窗口打开| 下载原图ZIP| 生成PPT

图13 机械臂的期望关节轨迹和实际关节轨迹以及跟踪误差曲线

Fig.13 Desired and actual joint trajectories and tracking error curves of manipulator

4 结语

提出一种基于DMP和自适应神经网络控制的机器人技能学习方法,主要就动作建模和动作复现两部分进行改善. 动作建模方面,首先引入RBFNN到DMP的强迫项拟合中提出RBF-DMP,再通过GMM-GMR建模和回归多组轨迹得到的强迫项函数,使改进后的DMP能从多轨迹中建模动作. 在动作复现方面,设计自适应神经网络控制器用于补偿机械臂动力学模型中的误差,使得机械臂能够更准确地复现建模的动作. 最后在LASA数据集上验证RBF-DMP算法的优越性,并在Franka Panda机械臂上验证所提出的机器人技能学习方法,实验结果显示该方法能有效提升机器人动作建模和复现的精度. 未来将研究如何更便捷地学习和生成动作,使得该方法可以更灵活地应用于技能学习.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

马良, 徐晓兰, 丁汉, 等.

2019年中国机器人产业发展报告

[R]. 北京: 中国电子学会, 2019.

[本文引用: 1]

Liang

, XU

Xiaolan

, DING

Han

, et al.

China robot industry development report 2019

[R]. Beijing: China Electronics Association, 2019.

[本文引用: 1]

[2]

EWERTON

, MAEDA

, KOLLEGGER

, et al.

Incremental imitation learning of context-dependent motor skills

[C]// 2016 IEEE-RAS 16th International Conference on Humanoid Robots (Humanoids). Cancun, Mexico: IEEE, 2016: 351-358.

[本文引用: 1]

[3]

BROCK

, KHATIB

Elastic strips: A framework for integrated planning and execution

[C]// Experimental Robotics VI. London: Springer, 2000: 329-338.

[本文引用: 1]

[4]

ZHANG

H W

, LENG

Y Q

Motor skills learning and generalization with adapted curvilinear Gaussian mixture model

[J]. Journal of Intelligent & Robotic Systems, 2019, 96(3/4): 457-475.

[本文引用: 1]

[5]

CHANG

G T

, KULIĆ

Motion learning from observation using affinity propagation clustering

[C]// 2013 IEEE RO-MAN. Gyeongju, Korea (South): IEEE, 2013: 662-667.

[本文引用: 1]

[6]

IJSPEERT

A J

, NAKANISHI

, HOFFMANN

, et al.

Dynamical movement primitives: Learning attractor models for motor behaviors

[J]. Neural Computation, 2013, 25(2): 328-373.

DOI:10.1162/NECO_a_00393 PMID:23148415 [本文引用: 3]

Nonlinear dynamical systems have been used in many disciplines to model complex behaviors, including biological motor control, robotics, perception, economics, traffic prediction, and neuroscience. While often the unexpected emergent behavior of nonlinear systems is the focus of investigations, it is of equal importance to create goal-directed behavior (e.g., stable locomotion from a system of coupled oscillators under perceptual guidance). Modeling goal-directed behavior with nonlinear systems is, however, rather difficult due to the parameter sensitivity of these systems, their complex phase transitions in response to subtle parameter changes, and the difficulty of analyzing and predicting their long-term behavior; intuition and time-consuming parameter tuning play a major role. This letter presents and reviews dynamical movement primitives, a line of research for modeling attractor behaviors of autonomous nonlinear dynamical systems with the help of statistical learning techniques. The essence of our approach is to start with a simple dynamical system, such as a set of linear differential equations, and transform those into a weakly nonlinear system with prescribed attractor dynamics by means of a learnable autonomous forcing term. Both point attractors and limit cycle attractors of almost arbitrary complexity can be generated. We explain the design principle of our approach and evaluate its properties in several example applications in motor control and robotics.

[7]

MEIER

, SCHAAL

A probabilistic representation for dynamic movement primitives

[EB/OL]. (2016-12-18) [2021-06-05]. https://arxiv.org/abs/1612.05932.

URL [本文引用: 1]

[8]

GAŠPAR

, NEMEC

, MORIMOTO

, et al.

Skill learning and action recognition by arc-length dynamic movement primitives

[J]. Robotics & Autonomous Systems, 2018, 100: 225-235.

[本文引用: 1]

[9]

J J

, LI

Z J

, LI

X D

, et al.

Skill learning strategy based on dynamic motion primitives for human-robot cooperative manipulation

[J]. IEEE Transactions on Cognitive & Developmental Systems, 2021, 13(1): 105-117.

[本文引用: 1]

[10]

YANG

C G

, JIANG

Y M

, LI

Z J

, et al.

Neural control of bimanual robots with guaranteed global stability and motion precision

[J]. IEEE Transactions on Industrial Informatics, 2017, 13(3): 1162-1171.

DOI:10.1109/TII.2016.2612646 URL [本文引用: 1]

[11]

BECKERS

, UMLAUFT

, HIRCHE

Stable model-based control with Gaussian process regression for robot manipulators

[J]. IFAC-PapersOnLine, 2017, 50(1): 3877-3884.

DOI:10.1016/j.ifacol.2017.08.359 URL [本文引用: 1]

[12]

YANG

C G

, JIANG

Y M

, NA

, et al.

Finite-time convergence adaptive fuzzy control for dual-arm robot with unknown kinematics and dynamics

[J]. IEEE Transactions on Fuzzy Systems, 2019, 27(3): 574-588.

DOI:10.1109/TFUZZ.91 URL [本文引用: 1]

[13]

ZHANG

, DONG

Y T

, OUYANG

Y C

, et al.

Adaptive neural control for robotic manipulators with output constraints and uncertainties

[J]. IEEE Transactions on Neural Networks & Learning Systems, 2018, 29(11): 5554-5564.

[本文引用: 1]

[14]

ZHANG

Y Y

, CHEN

S Y

, LI

, et al.

Adaptive projection neural network for kinematic control of redundant manipulators with unknown physical parameters

[J]. IEEE Transactions on Industrial Electronics, 2018, 65(6): 4909-4920.

DOI:10.1109/TIE.41 URL [本文引用: 1]

[15]

Z H

, LI

, ZHOU

X F

, et al.

Dynamic neural networks based kinematic control for redundant manipulators with model uncertainties

[J]. Neurocomputing, 2019, 329: 255-266.

DOI:10.1016/j.neucom.2018.11.001 URL [本文引用: 1]

[16]

MAO

Z Y

, ZHAO

F L

Structure optimization of a vibration suppression device for underwater moored platforms using CFD and neural network

[J]. Complexity, 2017, 2017: 5392539.

[本文引用: 1]

[17]

YIN

X C

, CHEN

Q J

Learning nonlinear dynamical system for movement primitives

[C]// 2014 IEEE International Conference on Systems, Man, and Cybernetics. San Diego, USA: IEEE, 2014: 3761-3766.

[本文引用: 1]

[18]

YANG

C G

, CHEN

C Z

, HE

, et al.

Robot learning system based on adaptive neural control and dynamic movement primitives

[J]. IEEE Transactions on Neural Networks & Learning Systems, 2019, 30(3): 777-787.

[本文引用: 1]

[19]

YANG

C G

, WANG

X Y

, CHENG

, et al.

Neural-learning-based telerobot control with guaranteed performance

[J]. IEEE Transactions on Cybernetics, 2017, 47(10): 3148-3159.

DOI:10.1109/TCYB.2016.2573837 PMID:28113610 [本文引用: 1]

In this paper, a neural networks (NNs) enhanced telerobot control system is designed and tested on a Baxter robot. Guaranteed performance of the telerobot control system is achieved at both kinematic and dynamic levels. At kinematic level, automatic collision avoidance is achieved by the control design at the kinematic level exploiting the joint space redundancy, thus the human operator would be able to only concentrate on motion of robot's end-effector without concern on possible collision. A posture restoration scheme is also integrated based on a simulated parallel system to enable the manipulator restore back to the natural posture in the absence of obstacles. At dynamic level, adaptive control using radial basis function NNs is developed to compensate for the effect caused by the internal and external uncertainties, e.g., unknown payload. Both the steady state and the transient performance are guaranteed to satisfy a prescribed performance requirement. Comparative experiments have been performed to test the effectiveness and to demonstrate the guaranteed performance of the proposed methods.

[20]

YANG

C G

, WANG

X J

, LI

Z J

, et al.

Teleoperation control based on combination of wave variable and neural networks

[J]. IEEE Transactions on Systems, Man, & Cybernetics: Systems, 2017, 47(8): 2125-2136.

[本文引用: 1]

[21]

GHORBEL

, SRINIVASAN

, SPONG

On the positive definiteness and uniform boundedness of the inertia matrix of robot manipulators

[C]// Proceedings of 32nd IEEE Conference on Decision and Control. San Antonio, USA: IEEE, 1993: 1103-1108.

[本文引用: 1]

2019年中国机器人产业发展报告

2019

... 近年来,机器人产业迅速发展. 2019年全球机器人市场规模超过200亿美元^[1],使得机器人技术倍受世界关注,各国将机器人作为重点发展领域之一,如中国制造2025、美国的工业互联网、德国的工业4.0等. 传统的机器人主要应用于工业生产环境,但随着机器人智能化水平提升,人们越来越希望机器人能融入生活. 这就要求机器人具有更高的智能,能通过自主学习技能来完成更复杂的任务. 因此,提升机器人技能学习的能力具有重要实际意义. ...

2019年中国机器人产业发展报告

2019

Incremental imitation learning of context-dependent motor skills

2016

... 示教学习是一种简化机器人技能学习的有效方法^[2],一般包含演示、学习和复现3个阶段. 演示阶段主要指人与机器人之间的动作传递过程,已有视觉示教、动觉示教和遥操作示教等成熟的方法. 学习阶段的主要问题在于如何对技能进行建模,常见的方法有动态系统(Dynamic System,DS)^[3]、高斯混合模型(Gaussian Mixture Model,GMM)^[4]和隐马尔科夫模型 ^[5]. 其中,由非线性DS发展而来的动态运动原语(Dynamic Movement Primitive,DMP)^[6]受到国内外学者的关注. Meier等^[7]将DMP重构成一个带有控制输入的线性动态系统概率模型,并将感知测量单元耦合到系统中使其可在线获取反馈信息,根据似然估计结果对任务成败作出预判. Gašpar等^[8]提出弧长参数化的动态原语模型,将空间信息与时间信息分开表示用于解决示教中存在较大运动速度差异的问题. Li等^[9]提出一种基于DMP的分层控制策略,该策略考虑运动建模和动态控制器的性能. 然而DMP建模精度受高斯基个数影响,而且单次示教数据往往存在噪声,导致DMP从单次示教中往往无法得到需要的动作模型. 因此研究如何让DMP从多轨迹中提取主要特征建模动作,并在更少的高斯基下提高建模精度非常有必要. ...

Elastic strips: A framework for integrated planning and execution

2000

Motor skills learning and generalization with adapted curvilinear Gaussian mixture model

2019

Motion learning from observation using affinity propagation clustering

2013

Dynamical movement primitives: Learning attractor models for motor behaviors

2013

... DMP模型^[6]由以下弹簧-阻尼系统和非线性强迫项函数组成: ...

... DMP从单次示教轨迹中建模动作^[6],但单次示教数据往往存在噪声和误差. 通常希望能通过多次示教,从多条轨迹中获得主要的动作特征以消除这些干扰. 鉴于GMM和GMR的统计特性,将二者引入到DMP中,利用GMM对多组强迫项进行建模,然后通过GMR去估计真实的强迫函数,如图3所示. ...

A probabilistic representation for dynamic movement primitives

2021

Skill learning and action recognition by arc-length dynamic movement primitives

2018

Skill learning strategy based on dynamic motion primitives for human-robot cooperative manipulation

2021

Neural control of bimanual robots with guaranteed global stability and motion precision

2017

... 示教学习效果不仅取决于技能建模效果,还取决于技能复现中的轨迹跟踪精度. 然而机械臂的轨迹跟踪精度通常受机械臂自身动力学模型精度和外部负载力矩的影响^[10⇓-12],比如机械臂动力学模型中未辨识部分和搬运物体时受到的外部负载力矩.对于机械臂动力学模型的误差,通常利用神经网络逼近动力学模型中的非线性特性和辨识误差来补偿^[13⇓-15]. 文献[16]使用反向传播神经网络(BackPropagation Neural Network,BPNN)逼近减震装置模型中的未知非线性部分,用于控制器的设计;而文献[17]将径向基神经网络(Radial Basis Function Neural Network, RBFNN)用于逼近机械臂的动力学模型未辨识部分,与BPNN相比,RBFNN具有收敛到最优解、训练相对较快的优势,但因机械臂动力学参数完全由神经网络拟合,所以依旧会导致收敛过程较长. 对于机械臂外部负载力矩,文献[18-19]通过RBFNN网络补偿外部负载力矩,使机械臂能更好地完成任务. ...

Stable model-based control with Gaussian process regression for robot manipulators

2017

Finite-time convergence adaptive fuzzy control for dual-arm robot with unknown kinematics and dynamics

2019

Adaptive neural control for robotic manipulators with output constraints and uncertainties

2018

Adaptive projection neural network for kinematic control of redundant manipulators with unknown physical parameters

2018

Dynamic neural networks based kinematic control for redundant manipulators with model uncertainties

2019

Structure optimization of a vibration suppression device for underwater moored platforms using CFD and neural network

2017

Learning nonlinear dynamical system for movement primitives

2014

Robot learning system based on adaptive neural control and dynamic movement primitives

2019

Neural-learning-based telerobot control with guaranteed performance

2017

Teleoperation control based on combination of wave variable and neural networks

2017

... 为此,将RBFNN引入DMP中,提出RBF-DMP方法. 该方法以梯度下降的方式学习权重

w_{i} 和 高 斯 基 中 心 位 置 c_{i},

更充分地利用高斯基函数的拟合能力,从而提升动作建模精度. 其中RBFNN网络^[20]定义如下: ...

On the positive definiteness and uniform boundedness of the inertia matrix of robot manipulators

1993

... 式中:

q \in R^{n}

为关节位移量;

τ \in R^{n}

为关节的力矩;

τ_{p}

为机械臂的外部负载力矩;

H (q) \in R^{n \times n}

为机械臂的惯性矩阵;

C (q, \overset{\cdot}{q}) \in R^{n \times n}

为向心力矩和科里奥利力矩的和,

G (q) \in R^{n}

包含重力项和其他力. 其中模型参数具有以下属性^[21],即 ...

〈

〉