最小状态变元平均奖赏的强化学习方法
刘 全,傅启明,龚声蓉,伏玉琛,崔志明
通信学报 . 2011, (1): 9 -71 .