基于深度强化学习算法的自主式水下航行器深度控制

doi:10.11959/j.issn.2096-6652.202038

基于深度强化学习算法的自主式水下航行器深度控制

王日中, 李慧平, 崔迪, 徐德民

西北工业大学航海学院，陕西西安 710072

Depth control of autonomous underwater vehicle using deep reinforcement learning

WANG Rizhong, LI Huiping, CUI Di, XU Demin

School of Marine Science and Technology, Northwestern Polytechnical University, Xi’an 710072, China

通讯作者: 李慧平，lihuiping@nwpu.edu.cn

修回日期: 2020-11-30 网络出版日期: 2020-12-15

基金资助:

国家自然科学基金资助项目.  61922068
国家自然科学基金资助项目.  61733014
陕西省杰出青年科学基金资助项目.  2019JC-14
西北工业大学翱翔青年学者项目.  20GH0201111

Revised: 2020-11-30 Online: 2020-12-15

Fund supported:

The National Natural Science Foundation of China.  61922068
The National Natural Science Foundation of China.  61733014
The Science Foundation for Distinguished Young Scholars of Shaanxi Province.  2019JC-14
Northwestern Polytechnical University Aoxiang Youth Scholar Program.  20GH0201111

作者简介 About authors

王日中（1995-），男，西北工业大学航海学院博士生，主要研究方向为多机器人协同、强化学习。。

李慧平（1983-），男，博士，西北工业大学航海学院教授，博士生导师，主要研究方向为水下机器人导航定位、智能决策与优化控制、模型预测控制、多机器人协同。。

崔迪（1995-），女，西北工业大学航海学院博士生，主要研究方向为事件触发控制、模型预测控制。。

徐德民（1937-），男，中国工程院院士，西北工业大学航海学院教授，博士生导师，主要研究方向为水下航行器总体设计、导航制导与控制。。

摘要

研究了基于深度强化学习算法的自主式水下航行器（AUV）深度控制问题。区别于传统的控制算法，深度强化学习方法让航行器自主学习控制律，避免人工建立精确模型和设计控制律。采用深度确定性策略梯度方法设计了actor与critic两种神经网络。actor神经网络给出控制策略，critic神经网络用于评估该策略，AUV的深度控制可以通过训练这两个神经网络实现。在OpenAI Gym平台上仿真验证了算法的有效性。

关键词： 自主式水下航行器 ; 深度控制 ; 深度强化学习

Abstract

The depth control problem of autonomous underwater vehicle (AUV) by using deep reinforcement learning method was mainly studied.Different from the traditional control algorithm, the deep reinforcement learning method allows the AUV to learn the control law independently, avoiding the artificial establishment of accurate model and design control law.The deep deterministic policy gradient method was used to design two neural networks: actor and critic.Actor neural network enabled agents to make corresponding control actions.Critic neural network was used to estimate the action-value function in reinforcement learning.The AUV depth control was conducted by training of actor and critic neural networks.The effectiveness of the algorithm was proved by simulation on OpenAI Gym.

Keywords： autonomous underwater vehicle ; depth control ; deep reinforcement learning

PDF (1662KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王日中, 李慧平, 崔迪, 徐德民. 基于深度强化学习算法的自主式水下航行器深度控制. 智能科学与技术学报[J], 2020, 2(4): 354-360 doi:10.11959/j.issn.2096-6652.202038

WANG Rizhong. Depth control of autonomous underwater vehicle using deep reinforcement learning. Chinese Journal of Intelligent Science and Technology[J], 2020, 2(4): 354-360 doi:10.11959/j.issn.2096-6652.202038

1 引言

随着机器人技术和传感器、控制、导航等相关技术的迅速发展，自主式水下航行器（autonomous underwater vehicle，AUV）在水下探测、搜救、检测等领域得到了广泛的应用。传统的 AUV 运动控制需要建立一个精确的 AUV 模型，控制质量与模型精度密切相关。而 AUV 是一个典型的多变量、强耦合的非线性系统，其参数和模型具有不确定性。这些不确定性给水下机器人的运动控制带来了巨大挑战。针对这种复杂环境下 AUV 的决策与控制问题，机器学习（machine learning，ML）提供了一种有效的解决方案。作为一种最基本的ML方法，监督学习的方法可以通过 AUV 运动数据训练神经网络，从而对模型误差和不确定性进行自适应补偿，实现AUV的高精度运动控制^[1]。

强化学习是更有效的ML方法^[2]。强化学习算法不需要系统模型信息以及人为设计控制律，而是通过设置奖励函数让机器人自己探索、学习有用的控制策略。对于一个不断与环境进行交互的机器人来说，强化学习将系统实时状态和动作映射为奖励函数，机器人依靠现有数据寻找可以产生最大回报的动作，从而提高机器人在不确定场景中的智能性。例如，在西洋双陆棋比赛中，使用强化学习算法训练的机器人击败了世界冠军^[3]，而且，强化学习算法训练的智能体在雅达利游戏公司出品的多种游戏中的表现超过了人类的水平^[4]。

2013年，DeepMind公司提出了深度Q学习网络（deep Q-learning network，DQN）算法，这种将强化学习与深度神经网络结合的算法叫作深度强化学习（deep reinforcement learning，DRL）算法^[4]。在系统模型未知的情况下，智能体通过设置的奖励函数来学习探索更好的控制策略，并利用深度神经网络估计强化学习评价指标和拟合当前的控制策略。当控制器训练好时，因为神经网络前向传播的计算速度极快，能很快地实现输入状态和控制输入之间端到端的解算，控制的实时性能得到保障。在2016年和2017年，AlphaGo使用DRL算法连续两年击败围棋世界冠军，引起了社会轰动^[5]。目前， DRL算法发展迅速，对于提高机器人的自主性和智能性具有十分重要的意义。本文旨在研究一种DRL算法来解决AUV的深度控制问题。

由于 AUV 是一个连续时间系统，其控制行为有无限种选择，而经典的强化学习（reinforcement learning，RL）算法主要针对状态或控制空间有限的离散情况，因此，无法直接控制 AUV 运动。为了解决这个问题，Silver D等人^[6]提出确定性策略梯度（deterministic policy gradient，DPG）算法，解决了在随机策略梯度下具有大动作空间的智能体采样数多的问题，使得通过RL算法控制连续时间系统成为可能。在2016年国际学习表征会议（ICLR）上，Lillicrap T P等人^[7]将深度神经网络与DPG结合，提出了深度确定性策略梯度（deep deterministic policy gradient，DDPG），并将其应用于简单的连续系统控制。而苏黎世 ETH 机器人实验室成功地将DRL算法应用于腿部机器人的运动控制^[8]。

AUV在执行任务时，一般要求在固定的深度保持稳定的运动，因此深度控制是 AUV 的基本控制目标。本文的目的是探索一种更加先进的 AUV 深度控制方法，解决 AUV 模型的不确定性和非线性给控制带来的难题，并提高 AUV 的控制性能；仅依靠训练得到的与周围环境的交互数据，设计DRL算法，从而实现AUV的深度控制。

2 AUV的运动模型

由于AUV的深度控制主要是在垂直面实现的，因此本文仅考虑其在铅垂平面内的运动方程。地面坐标系与体坐标系下的 AUV 如图1 所示，oxy与 $o_{b} x^{'} y^{'}$ 为地面坐标系， $o_{b} x_{b} y_{b}$ 为体坐标系；水平舵角δ_e为控制输入； $[x, y, θ]^{⊤}$ 为控制输出，其中 $[x, y]^{⊤}$ 与θ分别为AUV在垂直面的位置与俯仰角。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 地面坐标系与体坐标系下的AUV

AUV在垂直面的二维运动模型如下^[9]：

\dot{x} = v_{x} \cos θ - v_{y} \sin θ

\dot{y} = v_{x} \sin θ - v_{y} \cos θ

\dot{θ} = w_{z}

{\dot{v}}_{x} = (T - C_{x S} \frac{1}{2} ρ v^{2} S - Δ G \sin θ) / m_{11}

{\dot{v}}_{y} = (η (J_{z z} + λ_{66}) - μ m_{26}) / (m_{22} (J_{z z} + λ_{66}) - m_{26}^{2})

{\dot{w}}_{z} = (μ m_{26} - μ (J_{z z} + λ_{66})) / (m_{26}^{2} - m_{22} (J_{z z} + λ_{66})) (1)

其中 $η = - m v_{x} ω_{z} + \frac{1}{2} ρ v^{2} S C_{y} - Δ G \cos θ$ ， $C_{y} = C_{y}^{α} α + C_{y}^{δ_{e}} δ_{e} + C_{y}^{ϖ_{z}} ϖ_{z}$ ， $v = \sqrt{v_{x}^{2} + v_{y}^{2}}$ ， $μ = (- m x_{c} v_{x} ω_{z} + G (y_{c} \sin θ - x_{c} \cos θ) + \frac{1}{2} ρ v^{2} S L m_{z})$ ， $m_{11} = m + λ_{11}$ ， $m_{22} = m + λ_{22}$ ， $m_{26} = m x_{c} + λ_{26}$ ， $m_{z} = m_{y}^{α} α + m_{y}^{δ_{e}} δ_{e} + m_{y}^{ϖ_{z}} ϖ_{z}$ 。m是AUV的质量；G是AUV的重力；λ₁₁、λ₂₂、λ₂₆、λ₆₆是与流体动力学有关的附加质量；x_c、y_c是AUV重心到浮力中心的距离在x轴和y轴上的分量；T是由螺旋桨提供的推力；C_xS是AUV的阻力系数，该数值与 AUV 的最大横截面积S、速度v和水的密度ρ有关；ΔG是AUV的负浮力，即重力与浮力之差；J _zz是AUV绕z轴旋转的转动惯量；v_x与v_y分别是AUV在x轴与y轴上的速度分量，w_z 是 AUV 的俯仰角速度。此外，攻角 $α = - \arctan (v_{y} / v_{x})$ ；无量纲角速度 $ϖ_{z} = w_{z} L / v$ ， L是AUV的长度。 $C_{y}^{α}$ 与 $C_{y}^{δ_{e}}$ 分别是AUV的升力因数对攻角α、水平舵角δ_e的位置导数； $C_{y}^{ϖ_{z}}$ 是升力因数对角速度 $ϖ_{z}$ 的旋转导数。相应地， $m_{y}^{α}$ 、 $m_{y}^{δ_{e}}$ 与 $m_{y}^{ϖ_{z}}$ 是偏航力矩因数对α、δ_e以及 $ϖ_{z}$ 的导数。

对于给定的控制输入δ_e，通过式（1）中的运动模型即可求得AUV的状态 $s = [x, y, z, v_{x}, v_{y}, w_{z}]^{⊤}$ 。

3 基础知识

3.1 强化学习

强化学习是一种机器学习方法，主要解决序列决策的问题。强化学习的基本框架如图2所示，当智能体给出一个具体动作a_t时，环境更新智能体的状态 $s_{t}$ ，同时给智能体返回奖励r_t。这里，当t→∞时，定义智能体的累积奖励为：

G = \sum_{t = 0}^{\infty} γ^{t} r_{t} (2)

其中，γ∈(0,1)为折扣因子，保证G是收敛的。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 强化学习的基本框架

强化学习理论推导是在马尔可夫决策模型下进行的，如果一个系统满足马尔可夫性，则系统将来时刻状态只与当前时刻状态有关，与过去时刻状态无关。

p (s_{t + 1} | s_{t}) = p (s_{t + 1} | s_{1}, s_{2}, \dots, s_{t}) (3)

马尔可夫决策过程是在马尔可夫过程中加入了决策部分，假设有智能体与环境从1到T时刻的交互序列：

τ = s_{1}, a_{1}, s_{2}, a_{2}, \dots, s_{T}, a_{T} (4)

定义随机策略函数 $π_{θ} (a_{t} | s_{t}) = P [a_{t} | s_{t}]$ ，表示在状态 $s_{t}$ 下智能体采用动作a_t的概率。设系统模型为 $p (s_{t + 1} | s_{t}, a_{t})$ ，表示在当前状态下采用动作a_t到下一个状态的概率。其整个马尔可夫决策过程链为：

p_{θ} (τ) = p (s_{1}) \prod_{t = 1}^{T} π_{θ} (a_{t} | s_{t}) p (s_{t + 1} | s_{t}, a_{t}) (5)

在该交互序列下，强化学习的目标是找到使回报最大的策略参数：

θ^{*} = \underset{θ}{\arg \max} E_{τ ~ p_{θ} (τ)} [\sum_{t = 1}^{T} γ^{t} r (s_{t}, a_{t})] (6)

其优化目标为 $J (θ) = E_{τ ~ p_{θ} (τ)} [\sum_{t = 1}^{T} γ^{t} r (s_{t}, a_{t})]$ 。

采用梯度下降法求最优参数：

θ_{i + 1} = θ_{i} - α \nabla_{θ} J (θ_{i}) (7)

其中，α为优化步长。

对优化目标求梯度：

\nabla_{θ} J (θ) = E_{τ ~ p_{θ} (τ)} [\nabla_{θ} \log p_{θ} (τ) (\sum_{t = 1}^{T} γ^{t} r (s_{t}, a_{t}))] d τ (8)

将其化简为：

\nabla_{θ} J (θ) = E_{τ ~ π_{θ} (τ)} [(\sum_{t = 1}^{T} \nabla_{θ} \log π_{θ} (a_{t} | s_{t})) (\sum_{t = 1}^{T} γ^{t} r (s_{t}, a_{t}))] (9)

从式（9）可知，对策略进行优化是对策略进行梯度求解。其中，将式（9）后的半部分定义为强化学习状态值函数：

Q_{π} (s_{t}, a_{t}) = E_{τ ~ π_{θ} (τ)} [\sum_{t = 1}^{T} γ^{t} r (s_{t}, a_{t})] (10)

3.2 深度前馈神经网络

深度前馈神经网络是典型的深度学习模型。前馈神经网络定义了一个映射y=g(x;ς)，通过学习的方法选择最佳参数ς，使得函数g(⋅)可以拟合函数y= f(x)。

深度前馈神经网络的结构如图3所示。第一部分是神经网络的输入层，中间的隐藏层通常有多层结构，最后一部分是输出层，用于输出函数值。 $ς_{i j}^{(1)}$ 与 $ς_{i j}^{(2)}$ 是神经网络的参数，通过训练这些参数获得函数的近似值。这个典型的神经网络是一个线性模型，需要对其进行去线性化处理，以便更好地近似非线性函数。常见的去线性化方法是在每个神经元的输出端添加非线性函数，使神经网络变为非线性的，添加的函数被称为激活函数。深度学习中常用的激活函数包括ReLU函数、sigmoid函数和tanh函数。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 深度前馈神经网络的结构

深度前馈神经网络得到的近似函数g(⋅)的精确度可用损失函数L(g(x;ς),y)表示，其中，g(x;ς)为神经网络的估计值，y为真实值。损失函数表示估计值和真实值之间的差异。深度学习中损失函数通常为交叉熵或其他特定函数。选定损失函数后，需要通过最小化损失函数来优化参数ς^[10]：

ς * = \underset{ς}{\arg \max} L (g (x; ς), y) (11)

求解优化问题时常用的一种深度学习算法是ADAM（adaptive moment estimation）算法^[11]，如下所示。

算法1 ADAM算法

步骤1：初始化步长参数ε；

步骤2：设定指数衰减速率β₁、β₂∈[0,1)；

步骤3：初始化常数l=10^-8；

步骤4：设定参数ς、s=0以及r=0、t=0；

步骤5：计算梯度 $g = \nabla_{ς} L (g (x; ς), y)$ ；

步骤6：t=t+1；

步骤7： $s = β_{1} s + (1 - β_{1}) g$ ；

步骤8： $r = β_{2} s + (1 - β_{2}) g ⊙ g$ ；

步骤9： $\hat{s} = s / (1 - β_{1}^{t})$ ；

步骤10： $\hat{r} = r / (1 - β_{2}^{t})$ ；

步骤11： $ς = ς - ε \hat{s} / (\sqrt{\hat{r}} + l)$ ；

步骤12：If $‖ ε \hat{s} / (\sqrt{\hat{r}} + l) ‖ \leq 10^{- 8}$

步骤13：输出ς；

步骤14：else

步骤15：返回步骤5；

步骤16：end

3.3 深度强化学习算法

在本文中，笔者利用actor-critic深度神经网络来实现强化学习算法^[2]，其中状态值函数 $Q_{π} (s_{t}, a_{t})$ 与策略函数 $π (a_{t} | s_{t})$ 分别用critic和actor神经网络进行估计。通过 critic 神经网络估计状态值函数 $Q_{π} (s_{t}, a_{t})$ ，可以得到：

Q_{π} (s_{t}, a_{t}) \approx Q (s_{t}, a_{t}; ω) (12)

其中，ω为 critic 神经网络参数。通过式（12）可以得到：

Q_{π} (s_{t}, a_{t}) = r_{t} + γ Q_{π} (s_{t + 1}, a_{t + 1}) (13)

为了求得状态值函数 $Q_{π} (s_{t}, a_{t})$ 在t时刻的最优估计，设计损失函数^[7]：

L = (Q_{q} - Q (s_{t}, a_{t}; ω))^{2} (14)

根据式（11），将Q_q定义为：

Q_{q} = r_{t} + γ Q^{'} (s_{t + 1}, π^{'} (s_{t + 1}; θ^{'}); ω^{'}) (15)

其中，Q′和π′为目标神经网络，其作用为稳定学习过程。目标神经网络参数θ′与ω′更新方式如下^[12]：

θ^{'} \leftarrow τ θ + (1 - τ) θ^{'}

ω^{'} \leftarrow τ ω + (1 - τ) ω^{'} (16)

其中，τ的取值远小于 1，以保证目标神经网络的稳定性。

利用一组N个数据对 critic 神经网络进行训练，求得其平均损失函数为：

\bar{L} = \frac{1}{N} \sum_{t = 1}^{N} (Q_{q} - Q (s_{t}, a_{t}; ω))^{2} (17)

对其求梯度为：

\nabla {}_{ω}{\bar{L}} = \nabla_{ω} (\frac{1}{N} \sum_{t = 1}^{N} (Q_{q} - Q (s_{t}, a_{t}; ω))^{2}) (18)

通过ADAM算法对式（18）的梯度进行计算，利用学习到的参数ω^*对状态值函数 $Q_{π} (s_{t}, a_{t})$ 进行估计。基于估计的状态值函数 $Q (s_{t}, a_{t}; ω^{*})$ 对策略进行评估。

与随机策略梯度不同，在确定性策略梯度中，动作a_t在状态 $s_{t}$ 确定时就确定了。利用 actor 神经网络 $π_{θ} (s_{t})$ 对确定性策略 $π (s_{t})$ 进行估计^[13]，将最优策略求解转化为对actor神经网络参数θ的优化，以达到奖励函数最大化的目的，即

θ^{*} = \underset{θ}{\arg \min} E_{τ ~ p_{θ} (τ)} [\sum_{t = 1}^{T} γ^{t} r (s_{t}, a_{t})] (19)

其中：

p_{θ} (τ) = p (s_{1}) \prod_{t = 1}^{T} π_{θ} (s_{t}) p (s_{t +1} | s_{t}, a_{t}) (20)

根据式（19）和式（20），可以得到优化目标：

J (θ) = E_{τ ~ ρ (τ)} [Q (s_{t}, a_{t}) |_{a_{t} = π_{θ} (s_{t})}] (21)

其中，ρ(τ)为系统状态分布，计算式如下：

ρ (τ) = p (s_{1}) \prod_{t = 1}^{T} p (s_{t +1} | s_{t}, a_{t}) (22)

对优化目标求梯度：

\nabla_{θ} J (θ) = E_{τ ~ ρ (τ)} [\nabla {}_{a}Q (s_{t}, a_{t}) |_{a_{t} = π_{θ} (s_{t})} \cdot \nabla_{θ} π_{θ} (s_{t})] (23)

该算法为离线迭代算法，通过 AUV 运动数据对其进行训练。利用一组N个数据对actor神经网络进行训练，利用蒙特卡洛方法对期望进行估计可以得到梯度：

\nabla_{θ} J (θ) = \frac{1}{N} \sum_{t = 1}^{N} [\nabla {}_{a}Q (s_{t}, a_{t}) |_{a_{t} = π_{θ} (s_{t})} \cdot \nabla_{θ} π_{θ} (s_{t})] (24)

最后，利用 ADAM 算法对梯度进行计算，得到最优参数θ^*。

当对critic和actor神经网络进行训练时，一般假设训练数据是独立不相关的。但是机器人探索得到的数据是有相关性的，这会导致神经网络的训练效果不佳。可以通过建立一个回放记忆单元解决这一问题，将机器人探索得到的数据存入回放记忆单元中，在训练时随机从回放记忆单元中提取一组数据，以打破数据的相关性^[12]。DDPG算法如下^[7]。

算法2 DDPG算法

步骤 1：初始化 critic 神经网络 $Q (s_{t}, a_{t}; ω)$ 与actor神经网络 $π_{θ} (s_{t})$ ；

步骤2：初始化目标神经网络参数θ′与ω′，令t=0，i=0；

步骤3：初始化回放记忆单元；

步骤4：for i≤ 2 000

步骤5：初始化状态 $s_{0}$ ；

步骤6：for t≤ 1 000

步骤7：t=t+1；

步骤8： $Q_{q} = r_{t} + γ Q^{'} (s_{t + 1}, π^{'} (s_{t + 1}; θ^{'}); ω^{'})$ ；

步骤9： $L = (Q_{q} - Q (s_{t}, a_{t}; ω))^{2}$ ；

步骤10：计算平均损失函数 $\bar{L}$ 及其梯度 $\nabla {}_{ω}{\bar{L}}$ ；

步骤11：用ADAM算法更新ω；

步骤12： $J (θ) = E_{τ ~ ρ (τ)} [Q (s_{t}, a_{t}; ω) |_{a_{t} = π_{θ} (s_{t})}]$ ；

步骤13：对其求梯度∇_θJ(θ)；

步骤14：用ADAM算法更新θ；

步骤15：更新目标神经网络；

步骤16： $θ^{'} \leftarrow τ θ + (1 - τ) θ^{'}$ ；

步骤17： $ω^{'} \leftarrow τ ω + (1 - τ) ω^{'}$ ；

步骤18：end

步骤19：i=i+1；

步骤20：end

4 基于DRL算法的AUV定深控制

利用 DRL 算法对 AUV 进行定深控制需要AUV 对环境进行探索学习。考虑到在真实环境中AUV获取大量数据的费用是昂贵的，因此利用式（1）中的AUV模型来获取训练数据。

定义 $s_{t} = [x (t), y (t), z (t), v_{x} (t), v_{y} (t), w_{z} (t)]^{⊤}$ 为AUV在时刻t的状态； $δ_{e} (t) = K (s_{t})$ 为控制输入。对于RL算法来说，上述控制输入为当前时刻AUV的动作，即 $a_{t} = δ_{e} (t)$ 。

定深控制的定义是通过控制输入将 AUV 保持在预定深度y_d运动。为了解决强化学习中的稀疏奖励和奖励延迟问题，根据 AUV 定深控制的运动特性设计了一个分段式的奖励函数。

在第一个阶段，设计了如下奖励函数：

R (s_{t}) = - c_{y} ‖ y (t) - y_{d} ‖ - c_{θ} ‖ θ (t) ‖ - c_{ω} ‖ ω_{z} (t) ‖ (25)

其中，c_y＞0、c_θ＞0、c_ω＞0，均为常数。其目的是鼓励 AUV 下潜到预定深度，并防止其俯仰角过大。

当AUV到达预定深度y_d的一定范围内时，将奖励函数切换为：

R (s_{t}) = c_{r} (26)

其中，c_r是一个常数。其目的是鼓励 AUV 保持在该深度运行。综合上述分析，奖励函数为：

R (s_{t}) = {\begin{cases} - c_{y} ‖ y (t) - y_{d} ‖ - c_{θ} ‖ θ (t) ‖ - c_{ω} ‖ ω_{z} (t) ‖ \\ (y (t) - y_{d} ＞ 0.1) \\ c_{r} \\ (y (t) - y_{d} \leq 0.1) \end{cases} (27)

将设计的奖励函数代入算法 2 中，利用 critic神经网络估计状态值函数：

Q_{π} (s_{t}, a_{t}) \approx Q (s_{t}, a_{t}; ω) (28)

通过训练actor神经网络得到最优策略 $π_{θ}^{*} (s_{t})$ 。此外，为了让AUV在训练过程中更好地探索环境，在动作中加入了随机噪声，即：

{a^{'}}_{t} = π_{θ} (s_{t}) + υ (29)

其中，υ是Ornstein-Uhlenbeck随机噪声^[14]。

为了训练神经网络，将下一时刻系统状态 $s_{t + 1}$ 、当前时刻状态 $s_{t}$ 、动作a_t和奖励r_t组成一个元组 $〈 s_{t + 1}, s_{t}, a_{t}, r_{t} 〉$ ，将其按时序存入状态缓冲区，并用于训练神经网络。

基于深度强化学习的 AUV 定深控制系统如图4所示。其中，用于估计状态值函数的critic神经网络的输入为 $〈 s_{t}, a_{t}, r_{t} 〉$ ，其输出为近似的状态值函数 $Q (s_{t}, a_{t}; ω)$ ，用于求解actor神经网络的损失函数。而训练好的actor神经网络的输入为AUV当前时刻的状态s_t，输出为定深控制动作。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 基于深度强化学习的AUV定深控制系统

5 仿真实验

在本节中，笔者用仿真实验验证算法的有效性。仿真平台为OpenAI Gym平台，利用第2节的AUV运动模型建立仿真模型，如图5所示。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 OpenAI Gym仿真平台中的AUV深度控制模型

初始化奖励函数参数c_y=1、c_θ=4、c_ω=2、c_r=5。通过 TensorFlow 搭建深度神经网络^[15]，其中critic神经网络由5个全连接层组成，隐藏层每层节点数为 32 个，除输出层外，在其他 4 层加入ReLU激活函数^[16]。actor神经网络由4个全连接层组成，隐藏层每层节点数为16个，除了输出层外，在其他3层加入ReLU激活函数，输出层使用tanh激活函数对输出进行[-1,1]的归一化。

在训练初期，AUV先进行自由探索，将数据存入回放记忆单元中。当回放记忆单元存满后，通过随机采样的方式抽取一组 64 个数据对神经网络进行训练。critic神经网络训练的学习率为0.001，actor神经网络的学习率为0.000 1。在对两个神经网络进行更新后，通过式（16）对目标神经网络进行更新，其中更新参数 t=0.001。最后，利用训练后的 actor神经网络与环境进行交互，将得到的数据用于更新数据集。在整个学习过程中重复上述步骤，直到奖励函数收敛。平均奖励值随训练幕数的变化如图6所示，由图6可知，在经过1 000幕的训练后，每一幕的平均奖励函数得到了收敛。AUV定深运动的轨迹如图7所示。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 平均奖励值随训练幕数的变化

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 AUV定深运动的轨迹

假设AUV的预定深度y_d= -5 m，图6和图7显示，经过2 000幕的训练后，由actor神经网络控制AUV定深运动的轨迹。这表示经过训练的actor神经网络可以控制 AUV 高精度下潜到预定深度，并保持在预定深度运动。如图8所示，与另一种不需要模型信息的PID控制算法相比，DDPG算法有更高的控制精度。

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 AUV定深控制效果比较

6 结束语

本文将DRL算法应用于AUV的定深控制，不依赖于 AUV 的系统建模和控制律设计。通过设计合理的奖励函数引导 AUV 探索学习定深控制律。仿真实验证明了该方法的可行性，比起传统无模型PID控制算法，其具有更高的精度。在未来的研究中可以着重研究提高算法学习速率和学习效率的方法和向实际系统迁移的可能性。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

ZHANG

L J

, QI

, PANG

Y J

Adaptive output feedback control based on DRFNN for AUV

[J]. Ocean Engineering, 2009,36(9-10): 716-722.

[本文引用: 1]

[2]

SUTTON

, BARTO

Reinforcement learning:an introduction

[M]. Cambridge: MIT Press, 1998.

[本文引用: 2]

[3]

TESAURO

TD-Gammon,a self-teaching backgammon program,achieves master-level play

[J]. Neural Computation, 1944,6(2): 215-219.

[本文引用: 1]

[4]

MNIH

, KAVUKCUOGLU

, SILVER

,et al.

Playing atari with deep reinforcement learning

[J]. Computer Science, 2013.

[本文引用: 2]

[5]

SILVER

, HUANG

, MADDISON

C J

,et al.

Mastering the game of go with deep neural networks and tree search

[J]. Nature, 2016,529(7587): 484-489.

[本文引用: 1]

[6]

SILVER

, TECHNOLOGIES

, LEVER

,et al.

Deterministic policy gradient algorithms

[C]// International Conference on Machine Learning. New York:ACM Press, 2014.

[本文引用: 1]

[7]

LILLICRAP

T P

, HUNT

J J

, PRITZEL

,et al.

Continuous control with deep reinforcement learning

[J]. Computer Science, 2015,6(6): A187.

[本文引用: 3]

[8]

HWANGBO

, LEE

, DOSOVITSKIY

,et al.

Learning agile and dynamic motor skills for legged robots

[J]. Science Robotics, 2019,4(26).

[本文引用: 1]

[9]

严卫生

鱼雷航行力学

[M]. 西安: 西北工业大学出版社, 2005.

[本文引用: 1]

YAN

W S

Torpedo navigation mechanics

[M]. Xi’an: Northwestern Polytechnical University Press, 2005.

[本文引用: 1]

[10]

GOODFELLOW

, BENGIO

, COURVILLE

Deep learning

[M]. Cambridge: MIT Press, 2016.

[本文引用: 1]

[11]

KINGMA

, BA

ADAM:a method for stochastic optimization

[J]. Computer Science, 2014.

[本文引用: 1]

[12]

MNIH

, KAVUKCUOGLU

, SILVER

,et al.

Human-level control through deep reinforcement learning

[J]. Nature, 2015, 518-529.

[本文引用: 2]

[13]

KONDA

, TSITSIKLIS

Actor-critic algorithms

[J]. In Advances in Neural Information Processing Systems, 2003: 1008-1014.

[本文引用: 1]

[14]

UHLENBECK

G E

, ORNSTEIN

L S

On the theory of the Brownian motion

[J]. Revista Latinoamericana De Microbiología, 1973,15(1): 29.

[本文引用: 1]

[15]

ABADI

, BARHAM

, CHEN

,et al.

TensorFlow:a system for large-scale machine learning

[J]. Google Brain, 2016.

[本文引用: 1]

[16]

NAIR

, HINTON

Rectified linear units improve restricted Boltzmann machines

[C]// International Conference on Machine Learning.[S.l.:s.n.], 2010.

[本文引用: 1]

Adaptive output feedback control based on DRFNN for AUV

2009

... 随着机器人技术和传感器、控制、导航等相关技术的迅速发展，自主式水下航行器（autonomous underwater vehicle，AUV）在水下探测、搜救、检测等领域得到了广泛的应用.传统的 AUV 运动控制需要建立一个精确的 AUV 模型，控制质量与模型精度密切相关.而 AUV 是一个典型的多变量、强耦合的非线性系统，其参数和模型具有不确定性.这些不确定性给水下机器人的运动控制带来了巨大挑战.针对这种复杂环境下 AUV 的决策与控制问题，机器学习（machine learning，ML）提供了一种有效的解决方案.作为一种最基本的ML方法，监督学习的方法可以通过 AUV 运动数据训练神经网络，从而对模型误差和不确定性进行自适应补偿，实现AUV的高精度运动控制^[1]. ...

Reinforcement learning:an introduction

1998

... 强化学习是更有效的ML方法^[2].强化学习算法不需要系统模型信息以及人为设计控制律，而是通过设置奖励函数让机器人自己探索、学习有用的控制策略.对于一个不断与环境进行交互的机器人来说，强化学习将系统实时状态和动作映射为奖励函数，机器人依靠现有数据寻找可以产生最大回报的动作，从而提高机器人在不确定场景中的智能性.例如，在西洋双陆棋比赛中，使用强化学习算法训练的机器人击败了世界冠军^[3]，而且，强化学习算法训练的智能体在雅达利游戏公司出品的多种游戏中的表现超过了人类的水平^[4]. ...

... 在本文中，笔者利用actor-critic深度神经网络来实现强化学习算法^[2]，其中状态值函数

Q_{π} (s_{t}, a_{t})

与策略函数

π (a_{t} | s_{t})

分别用critic和actor神经网络进行估计.通过 critic 神经网络估计状态值函数

Q_{π} (s_{t}, a_{t})

，可以得到： ...

TD-Gammon,a self-teaching backgammon program,achieves master-level play

1944

Playing atari with deep reinforcement learning

2013

... 2013年，DeepMind公司提出了深度Q学习网络（deep Q-learning network，DQN）算法，这种将强化学习与深度神经网络结合的算法叫作深度强化学习（deep reinforcement learning，DRL）算法^[4].在系统模型未知的情况下，智能体通过设置的奖励函数来学习探索更好的控制策略，并利用深度神经网络估计强化学习评价指标和拟合当前的控制策略.当控制器训练好时，因为神经网络前向传播的计算速度极快，能很快地实现输入状态和控制输入之间端到端的解算，控制的实时性能得到保障.在2016年和2017年，AlphaGo使用DRL算法连续两年击败围棋世界冠军，引起了社会轰动^[5].目前， DRL算法发展迅速，对于提高机器人的自主性和智能性具有十分重要的意义.本文旨在研究一种DRL算法来解决AUV的深度控制问题. ...

Mastering the game of go with deep neural networks and tree search

2016

Deterministic policy gradient algorithms

2014

... 由于 AUV 是一个连续时间系统，其控制行为有无限种选择，而经典的强化学习（reinforcement learning，RL）算法主要针对状态或控制空间有限的离散情况，因此，无法直接控制 AUV 运动.为了解决这个问题，Silver D等人^[6]提出确定性策略梯度（deterministic policy gradient，DPG）算法，解决了在随机策略梯度下具有大动作空间的智能体采样数多的问题，使得通过RL算法控制连续时间系统成为可能.在2016年国际学习表征会议（ICLR）上，Lillicrap T P等人^[7]将深度神经网络与DPG结合，提出了深度确定性策略梯度（deep deterministic policy gradient，DDPG），并将其应用于简单的连续系统控制.而苏黎世 ETH 机器人实验室成功地将DRL算法应用于腿部机器人的运动控制^[8]. ...

Continuous control with deep reinforcement learning

2015

... 为了求得状态值函数

Q_{π} (s_{t}, a_{t})

在t时刻的最优估计，设计损失函数^[7]： ...

... 当对critic和actor神经网络进行训练时，一般假设训练数据是独立不相关的.但是机器人探索得到的数据是有相关性的，这会导致神经网络的训练效果不佳.可以通过建立一个回放记忆单元解决这一问题，将机器人探索得到的数据存入回放记忆单元中，在训练时随机从回放记忆单元中提取一组数据，以打破数据的相关性^[12].DDPG算法如下^[7]. ...

Learning agile and dynamic motor skills for legged robots

2019

鱼雷航行力学

2005

... AUV在垂直面的二维运动模型如下^[9]： ...

鱼雷航行力学

2005

... AUV在垂直面的二维运动模型如下^[9]： ...

Deep learning

2016

... 深度前馈神经网络得到的近似函数g(⋅)的精确度可用损失函数L(g(x;ς),y)表示，其中，g(x;ς)为神经网络的估计值，y为真实值.损失函数表示估计值和真实值之间的差异.深度学习中损失函数通常为交叉熵或其他特定函数.选定损失函数后，需要通过最小化损失函数来优化参数ς^[10]： ...

ADAM:a method for stochastic optimization

2014

... 求解优化问题时常用的一种深度学习算法是ADAM（adaptive moment estimation）算法^[11]，如下所示. ...

Human-level control through deep reinforcement learning

2015

... 其中，Q′和π′为目标神经网络，其作用为稳定学习过程.目标神经网络参数θ′与ω′更新方式如下^[12]： ...

Actor-critic algorithms

2003

... 与随机策略梯度不同，在确定性策略梯度中，动作a_t在状态

s_{t}

确定时就确定了.利用 actor 神经网络

π_{θ} (s_{t})

对确定性策略

π (s_{t})

进行估计^[13]，将最优策略求解转化为对actor神经网络参数θ的优化，以达到奖励函数最大化的目的，即 ...

On the theory of the Brownian motion

1973

... 其中，υ是Ornstein-Uhlenbeck随机噪声^[14]. ...

TensorFlow:a system for large-scale machine learning

2016

... 初始化奖励函数参数c_y=1、c_θ=4、c_ω=2、c_r=5.通过 TensorFlow 搭建深度神经网络^[15]，其中critic神经网络由5个全连接层组成，隐藏层每层节点数为 32 个，除输出层外，在其他 4 层加入ReLU激活函数^[16].actor神经网络由4个全连接层组成，隐藏层每层节点数为16个，除了输出层外，在其他3层加入ReLU激活函数，输出层使用tanh激活函数对输出进行[-1,1]的归一化. ...

Rectified linear units improve restricted Boltzmann machines

2010

〈

〉