最小状态变元平均奖赏的强化学习方法

通信学报

最小状态变元平均奖赏的强化学习方法

刘全,傅启明,龚声蓉,伏玉琛,崔志明

出版日期:2011-01-25 发布日期:2011-01-15

Online:2011-01-25 Published:2011-01-15

摘要/Abstract

摘要： 针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题，提出将平均奖赏和Q学习相结合的AR-Q-Learning算法，并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的“维数灾”问题，提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中，试验结果表明，该方法更具有后效性，加快算法的收敛速度，同时在一定程度上解决积木世界中的“维数灾”问题。

刘全,傅启明,龚声蓉,伏玉琛,崔志明. 最小状态变元平均奖赏的强化学习方法[J]. 通信学报.

最小状态变元平均奖赏的强化学习方法

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

Metrics

推荐阅读 0