通信学报 ›› 2018, Vol. 39 ›› Issue (8): 37-47.doi: 10.11959/j.issn.1000-436x.2018133

• 论文Ⅰ:人工智能与网络安全 • 上一篇    下一篇

基于值函数迁移的启发式Sarsa算法

陈建平1,2,3,杨正霞1,2,3,刘全4,吴宏杰1,2,3,徐杨5,傅启明1,2,3()   

  1. 1 苏州科技大学电子与信息工程学院,江苏 苏州 215009
    2 苏州科技大学江苏省建筑智慧节能重点实验室,江苏 苏州 215009
    3 苏州科技大学苏州市移动网络技术与应用重点实验室,江苏 苏州 215009
    4 苏州大学计算机科学与技术学院,江苏 苏州 215000
    5 浙江纺织服装职业技术学院信息工程学院,浙江 宁波 315000
  • 修回日期:2018-07-13 出版日期:2018-08-01 发布日期:2018-09-13
  • 作者简介:陈建平(1963-),男,江苏南京人,博士,苏州科技大学教授,主要研究方向为大数据分析与应用、建筑节能、智能信息处理。|杨正霞(1992-),女,江苏扬州人,苏州科技大学硕士生,主要研究方向为强化学习、迁移学习、建筑节能。|刘全(1969-),男,内蒙古牙克石人,博士,苏州大学教授、博士生导师,主要研究方向为智能信息处理、自动推理与机器学习。|吴宏杰(1977-),男,江苏苏州人,博士,苏州科技大学副教授,主要研究方向为深度学习、模式识别、生物信息。|徐杨(1980-),女,河北深州人,浙江纺织服装职业技术学院讲师,主要研究方向为数据分析与应用、智能化与个性化教学。|傅启明(1985-),男,江苏淮安人,博士,苏州科技大学讲师,主要研究方向为强化学习、深度学习及建筑节能。
  • 基金资助:
    国家自然科学基金资助项目(61502329);国家自然科学基金资助项目(61772357);国家自然科学基金资助项目(61750110519);国家自然科学基金资助项目(61772355);国家自然科学基金资助项目(61702055);国家自然科学基金资助项目(61672371);国家自然科学基金资助项目(61602334);江苏省自然科学基金资助项目(BK20140283);江苏省重点研发计划基金资助项目(BE2017663);江苏省高校自然科学基金资助项目(13KJB520020);苏州市应用基础研究计划工业部分基金资助项目(SYG201422)

Heuristic Sarsa algorithm based on value function transfer

Jianping CHEN1,2,3,Zhengxia YANG1,2,3,Quan LIU4,Hongjie WU1,2,3,Yang XU5,Qiming FU1,2,3()   

  1. 1 Institute of Electronics and Information Engineering,Suzhou University of Science and Technology,Suzhou 215009,China
    2 Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency,Suzhou University of Science and Technology,Suzhou 215009,China
    3 Suzhou Key Laboratory of Mobile Networking and Applied Technologies,Suzhou University of Science and Technology,Suzhou 215009,China
    4 School of Computer Science and Technology,Soochow University,Suzhou 215000,China
    5 Institute of Information Engineering,Zhejiang Fashion Institute of Technology College,Ningbo 315000,China
  • Revised:2018-07-13 Online:2018-08-01 Published:2018-09-13
  • Supported by:
    The National Natural Science Foundation of China(61502329);The National Natural Science Foundation of China(61772357);The National Natural Science Foundation of China(61750110519);The National Natural Science Foundation of China(61772355);The National Natural Science Foundation of China(61702055);The National Natural Science Foundation of China(61672371);The National Natural Science Foundation of China(61602334);The Natural Science Foundation of Jiangsu Province(BK20140283);The Key Research and Development Program of Jiangsu Province(BE2017663);High School Natural Science Foundation of Jiangsu Province(13KJB520020);Suzhou Industrial Application of Basic Research Program Part(SYG201422)

摘要:

针对 Sarsa 算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式 Sarsa 算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。

关键词: 强化学习, 值函数迁移, 自模拟度量, 变分贝叶斯

Abstract:

With the problem of slow convergence for traditional Sarsa algorithm,an improved heuristic Sarsa algorithm based on value function transfer was proposed.The algorithm combined traditional Sarsa algorithm and value function transfer method,and the algorithm introduced bisimulation metric and used it to measure the similarity between new tasks and historical tasks in which those two tasks had the same state space and action space and speed up the algorithm convergence.In addition,combined with heuristic exploration method,the algorithm introduced Bayesian inference and used variational inference to measure information gain.Finally,using the obtained information gain to build intrinsic reward function model as exploring factors,to speed up the convergence of the algorithm.Applying the proposed algorithm to the traditional Grid World problem,and compared with the traditional Sarsa algorithm,the Q-Learning algorithm,and the VFT-Sarsa algorithm,the IGP-Sarsa algorithm with better convergence performance,the experiment results show that the proposed algorithm has faster convergence speed and better convergence stability.

Key words: reinforcement learning, value function transfer, bisimulation metric, variational Bayes

中图分类号: 

No Suggested Reading articles found!