智能科学与技术学报 ›› 2020, Vol. 2 ›› Issue (4): 361-371.doi: 10.11959/j.issn.2096-6652.202039

• 专刊:深度强化学习 • 上一篇    下一篇

基于深度强化学习的六足机器人运动规划

傅汇乔1, 唐开强1, 邓归洲2, 王鑫鹏2, 陈春林1   

  1. 1 南京大学工程管理学院,江苏 南京 210046
    2 西南科技大学制造科学与工程学院,四川 绵阳 621010
  • 修回日期:2020-12-04 出版日期:2020-12-15 发布日期:2020-12-01
  • 作者简介:傅汇乔(1996- ),男,南京大学工程管理学院硕士生,主要研究方向为机器人学、强化学习。
    唐开强(1992- ),男,南京大学工程管理学院博士生,主要研究方向为机器学习及随机优化等。
    邓归洲(1998-),男,西南科技大学制造科学与工程学院硕士生,主要研究方向为机器视觉、机器人运动控制。
    王鑫鹏(1995-),男,西南科技大学制造科学与工程学院硕士生,主要研究方向为深度学习、机器人运动控制。
    陈春林(1979- ),男,博士,南京大学工程管理学院教授,主要研究方向为机器学习、智能机器人与量子控制等。
  • 基金资助:
    国家自然科学基金资助项目(71732003);国家自然科学基金资助项目(62073160);国家重点研发计划资助项目(2018AAA0101100);载人航天第四批预研项目(030602)

Motion planning for hexapod robot using deep reinforcement learning

Huiqiao FU1, Kaiqiang TANG1, Guizhou DENG2, Xinpeng WANG2, Chunlin CHEN1   

  1. 1 School of Management and Engineering, Nanjing University, Nanjing 210046, China
    2 School of Manufacturing Science and Engineering, Southwest University of Science and Technology, Mianyang 621010, China
  • Revised:2020-12-04 Online:2020-12-15 Published:2020-12-01
  • Supported by:
    The National Natural Science Foundation of China(71732003);The National Natural Science Foundation of China(62073160);The National Key Research and Development Program of China(2018AAA0101100);The 4th Pre-Research Project of Manned Space(030602)

摘要:

六足机器人拥有多个冗余自由度,适用于复杂的非结构环境。离散环境作为非结构环境的一个苛刻特例,需要六足机器人具备更加高效可靠的运动策略。以平面随机梅花桩为例,设定随机起始点与目标区域,利用深度强化学习算法进行训练,并得到六足机器人在平面梅花桩环境中的运动策略。为了加快训练进程,采用具有优先经验重放机制的深度确定性策略梯度算法。最后在真实环境中进行验证,实验结果表明,所规划的运动策略能让六足机器人在平面梅花桩环境中高效平稳地从起始点运动到目标区域。为六足机器人在真实离散环境中的精确运动规划奠定了基础。

关键词: 六足机器人, 运动规划, 深度强化学习

Abstract:

Hexapod robot have multiple redundant degrees of freedom and are suitable for complex unstructured environments.Discrete environments, as a harsh special case of unstructured environments, require hexapod robots to have more efficient and reliable motion strategies.A plane random plum-blossom pile environment was taken as an example.A random starting point and a target area were set, and the deep reinforcement learning algorithm was applied to plan a motion strategy for a hexapod robot in theplane plum-blossompile environment.To speed up the training process, a deep deterministic policy gradient algorithm with a prioritized experience replay mechanism was used.Finally the policy was verified in a real environment.The results show that the planned motion strategy can make the hexapod robot move efficiently and smoothly from a starting point to a target area in aplane plum-blossom pile environment.This work lays the foundation for the precise motion planning of hexapod robots in the real discrete environment.

Key words: hexapod robot, motion planning, deep reinforcement learning

中图分类号: 

No Suggested Reading articles found!