%A 朱斐,许志鹏,刘全,伏玉琛,王辉 %T 基于可中断Option的在线分层强化学习方法 %0 Journal Article %D 2016 %J 通信学报 %R 10.11959/j.issn.1000-436x.2016117 %P 65-74 %V 37 %N 6 %U {https://www.infocomm-journal.com/txxb/CN/abstract/article_165743.shtml} %8 2016-06-25 %X

针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。