支持合并的自适应tile coding算法

doi:10.11959/j.issn.1000-436x.2015047

通信学报 ›› 2015, Vol. 36 ›› Issue (2): 186-192.doi: 10.11959/j.issn.1000-436x.2015047

支持合并的自适应tile coding算法

施梦宇¹,刘全^1,²,傅启明¹

¹ 苏州大学计算机科学与技术学院，江苏苏州 215006
² 吉林大学符号计算与知识工程教育部重点实验室，吉林长春 130012

出版日期:2015-02-25 发布日期:2017-06-27
基金资助:
国家自然科学基金资助项目;国家自然科学基金资助项目;江苏省自然科学基金资助项目

Mergeable adaptive tile coding method

Meng-yu SHI¹,Quan LIU^1,²,Qi-ming FU¹

¹ School of Computer Science and Technology,Soochow University,Suzhou 215006,China
² Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012,China

Online:2015-02-25 Published:2017-06-27
Supported by:
The National Natural Science Foundation of China;The National Natural Science Foundation of China;The National Science Foundation of Jiangsu Province

摘要/Abstract

摘要：

针对自适应 tile coding 算法会产生多余划分的问题，提出一种支持合并的自适应 tile coding 算法——MATC。该算法能够消除传统自适应tile coding算法中产生的多余划分，进一步解决连续状态空间离散化的问题。将MATC算法应用于离散动作连续状态的Mountain Car问题上，实验结果表明，该算法在学习过程中能消除传统tile coding算法的误划分所产生的不良影响，更准确地自动调整划分的精度，并更快地收敛到最佳策略。

关键词: 连续空间, 离散化, 强化学习, 自适应, tilecoding

Abstract:

In order to solve many unnecessary division,mergence supported adaptive tile coding algorithm was presented which would eliminate the unnecessary division.Simulation is conducted on mountain car problem with discrete actions and continuous state space Results show that the proposed method can eliminate the influence of false division in the traditional tile coding method and achieve a more accurate adaptive partition of continuous state space.A higher convergence rate is achieved at the same time.

Key words: continuous space, discretization, reinforcement learning, adaptive; tile coding

施梦宇,刘全,傅启明. 支持合并的自适应tile coding算法[J]. 通信学报, 2015, 36(2): 186-192.

Meng-yu SHI,Quan LIU,Qi-ming FU. Mergeable adaptive tile coding method[J]. Journal on Communications, 2015, 36(2): 186-192.

图/表 10

图1

图2

图3

图4

图5

图6

表1

图7

图8

图9

参考文献 14

1	SUTTON R S , BARTO A G . Reinforcement Learning:An Introduction[M]. Cambridge:MIT Press, 1998.
2	LIN C S , KIM H . Selection of learning parameters for CMAC-based adaptive critic learning[J]. IEEE Trans Neural Networks, 1999,6(3):642-647.
3	PELLEG D , MOORE A , SHROFF N B . X-means:extending K-Means with efficient estimation of the number of clusters[A]. Proc of the 17th International Conf on Machine Learning[C]. Boston:Morgan Kaufmann Press, 2000.727-734.
4	PELLEG D , MOORE A . Accelerating exact k-means algorithms with geometric reasoning[A]. Proc of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. 1999.277-281.
5	陈宗海, 文锋, 聂建斌等. 基于节点生长 k-均值聚类算法的强化学习方法[J]. 计算机研究与发展, 2006,43(4):661-666. CHEN Z H , WEN F , NIE J B , et al. A reinforcement learning method based on node-growing k-means cluster algorithm[J]. Journal of Computer Research and Development, 2006,43(4):661-666.
6	文锋, 陈宗海, 卓睿等. 连续状态自适应离散化基于K-均值聚类的强化学习方法[J]. 控制与决策, 2006,21(2):143-147. WEN F , CHEN Z H , ZHUO R , et al. Reinforcement learning method of continuous state adaptively discretized based on K-means clustering[J]. Control and Decision, 2006,21(2):143-147.
7	顾冬雷, 陈卫东, 席裕庚 . 一种基于增强学习的自适应控制方法[J]. 控制与决策, 2002,17(4):473-479. GU D L , CHEN W D , XI Y G . A novel adaptive control algorithm based on reinforcement learning[J]. Control and Decision, 2002,17(4):473-479.
8	MOORE A W , ATKESON C G . The parti-game algorithm for variable resolution reinforcement learning in multidimensional state spaces[J]. Machine Learning, 1995,21(3):199-233.
9	UTHER W T B , VELOSO M M . Tree based discretization for continuous state space reinforcement learning[A]. AAAI’98[C]. Madison,Wisconsin,United States, 1998
10	SHERSTOV A A , STONE P . Function Approximation Via Tile Coding:Automating Parameter Choice Abstraction,Reformulation and Approximation[M]. Springer Berlin Heidelberg, 2005:194-205.
11	WHITESON S , TAYLOR M E , STONE P . Adaptive tile Coding for Value Function Approximation[M]. Computer Science Department,University of Texas at Austin, 2007.
12	WHITESON S , STONE P . Evolutionary function approximation for reinforcement learning[J]. The Journal of Machine Learning Research, 2006,7:877-917.
13	NOKHBEH-ZAEEM M , KHASHABI D , TALEBI H A , et al. Adaptive tiled neural networks[A]. 2011 IEEE International Conference on Systems,Man,and Cybernetics (SMC)[C]. New Orleans,LA,USA, 2011.2543-2548.
14	LIN S , WRIGHT R . Evolutionary tile coding:an automated state abstraction algorithm for reinforcement learning[A]. AAAI Workshops[C]. 2010.

tile	ATC情节数	MATC情节数
60	593	168
100	735	247
200	2 200	892
300	6 492	1 217

[1]	马玲, 樊漆亮, 许婷, 郭冠琛, 张圣林, 孙永谦, 张玉志. 基于强化学习的在线离线混部云环境下的调度框架[J]. 通信学报, 2023, 44(6): 90-102.
[2]	金彪, 李逸康, 姚志强, 陈瑜霖, 熊金波. GenFedRL：面向深度强化学习智能体的通用联邦强化学习框架[J]. 通信学报, 2023, 44(6): 183-197.
[3]	李元诚, 秦永泰. 基于深度强化学习的软件定义安全中台QoS实时优化算法[J]. 通信学报, 2023, 44(5): 181-192.
[4]	周大成, 陈鸿昶, 何威振, 程国振, 扈红超. 基于深度强化学习的微服务多维动态防御策略研究[J]. 通信学报, 2023, 44(4): 50-63.
[5]	许国良, 谭峰, 冉泳屹, 陈丰. 面向多波束卫星系统的波束跳变与覆盖控制联合优化算法[J]. 通信学报, 2023, 44(4): 78-86.
[6]	崔伟, 于颖, 于海霞, 陈超, 李云鹏. 基于IOC-CSMP的OFDM系统稀疏信道快速重构算法[J]. 通信学报, 2023, 44(2): 52-58.
[7]	王晓云, 张小舟, 马良, 王亚娟, 楼梦婷, 姜涛, 金婧, 王启星, 刘光毅. 6G通信感知一体化网络的感知算法研究与优化[J]. 通信学报, 2023, 44(2): 219-230.
[8]	杨正, 郑云, 余月好, 吴怡, 董志诚, 邢松. 基于自适应功率分裂的协作非正交多址接入无线携能通信网络性能分析[J]. 通信学报, 2023, 44(1): 177-188.
[9]	许文俊, 吴思雷, 王凤玉, 林兰, 李国军, 张治. 基于多智能体强化学习的大规模灾后用户分布式覆盖优化[J]. 通信学报, 2022, 43(8): 1-16.
[10]	沙宗轩, 霍如, 孙闯, 汪硕, 黄韬. 基于深度强化学习的转发效能感知流量调度算法[J]. 通信学报, 2022, 43(8): 30-40.
[11]	王瀚仪, 李效光, 毕文卿, 陈亚虹, 李凤华, 牛犇. 多级本地化差分隐私算法推荐框架[J]. 通信学报, 2022, 43(8): 52-64.
[12]	蒋锐, 李俊, 徐友云, 王小明, 李大鹏. 基于联邦卡尔曼滤波器的容错GPS-AOA-SINS组合导航算法[J]. 通信学报, 2022, 43(8): 78-89.
[13]	谢良波, 李宇洋, 王勇, 周牧, 聂伟. 基于自适应蝙蝠算法的室内RFID定位算法[J]. 通信学报, 2022, 43(8): 90-99.
[14]	马帅, 李兵, 盛海鸿, 谷荣妍, 周辉, 王洪梅, 王悦, 李世银. 基于深度强化学习的可见光定位通信一体化功率分配研究[J]. 通信学报, 2022, 43(8): 121-130.
[15]	张宇, 程旻. NDN中边缘计算与缓存的联合优化[J]. 通信学报, 2022, 43(8): 164-175.

支持合并的自适应tile coding算法

Mergeable adaptive tile coding method

在线阅读

PDF下载

可视化

摘要/Abstract

引用本文

使用本文

图/表 10

参考文献 14

相关文章 15

Metrics

推荐阅读 0