通信学报

• • 上一篇    下一篇

最小状态变元平均奖赏的强化学习方法

刘 全,傅启明,龚声蓉,伏玉琛,崔志明   

  • 出版日期:2011-01-25 发布日期:2011-01-15

  • Online:2011-01-25 Published:2011-01-15

摘要: 针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的“维数灾”问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的“维数灾”问题。