通信学报

• 学术论文 • 上一篇    下一篇

基于拓扑序列更新的值迭代算法

黄 蔚,刘 全,孙洪坤,傅启明,周小科   

  1. 1. 苏州大学 计算机科学与技术学院,江苏 苏州 215006;2. 吉林大学 符号计算与知识工程教育部重点实验室,吉林 长春 130012
  • 出版日期:2014-08-25 发布日期:2014-08-15
  • 基金资助:
    国家自然科学基金资助项目(61070223, 61103045, 61272005, 61170020);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究基金资助项目(09KJA520002, 09KJB520012);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(93K172012K04)

Optimized algorithm for value iteration based on topological sequence backups

  • Online:2014-08-25 Published:2014-08-15

摘要: 提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。

Abstract: In order to improve the convergence performance, an optimized value iteration based on topological sequence backups, VI-TS, is proposed. The key idea of VI-TS is to circumvent the problem of unnecessary backups by dividing an MDP into strongly-connected components and solving these components in topological sequences after detecting the structure of MDP. The experiment results show that VI-TS has a better convergence performance and robustness for state space growth when applied to classical planning experiment scenarios.

No Suggested Reading articles found!