|
广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (3): 99-103.
程显毅1,2, 朱倩2
CHENG Xian-yi1,2, ZHU Qian2
摘要: 基于CMAC(cerebella model articulation controller)提出一种动态强化学习方法(dynamic cerebella model articulation controller-advantage learning,DCMAC-AL)。该方法利用advantage(λ) learning计算状态-动作函数,强化不同动作的值函数差异,以避免动作抖动;然后在CMAC函数拟合基础上,利用Bellman误差动态添加特征值,提高CMAC函数拟合的自适应性。同时,在RoboCup 仿真平台上对多智能体防守任务(takeaway)进行建模,利用新提出的算法进行学习实验。实验结果表明,DCMAC-AL比采用CMAC的advantage(λ) learning方法有更好的学习效果。
中图分类号:
[1] SUTTON S R,BARTO A G.Reinforcement learning[M].Cambridge,MA:MIT Press,1998:24-26. [2] BAKKER B.Reinforcement learning with long short-term memory[C]//Advances in Neural Information Processing System 14.Cambridge,MA:MIT Press,2002:987-990. [3] PHILIPP W K,SHIE M,DOINA P.Automatic basis function construction for approximate dynamic programming and reinforcement learning[C]//Proceedings of the 23rd International Conference on Machine learning.Cambridge:MIT Press,2006:1103-1115. [4] 高阳,胡景凯,王本年,等.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):262-265. [5] 李明爱,焦利芳,郝冬梅,等.基于多个并行CMAC神经网络的强化学习方法[J].系统仿真学报,2008,20(24):6683-6687. [6] STONE P,SUTTON R S,KUHLMANN G.Reinforcement learning for RoboCup-soccer keepaway[J].Adaptive Behavior,2005,13(3):165-188. [7] ATIL S,TOLEDO C B.A new perspective to the keepaway soccer:the takers (ShortPaper)[C]//ISCEN A,EROG-UL U.Proc of 7th Int Conf on Autonomous Agents and Multiagent Systems (AAMAS 2008).Estoril,Portugal:Springer Press,2008:566-569. |
[1] | 李志欣, 苏强. 基于知识辅助的图像描述生成[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 418-432. |
[2] | 陈高建, 王菁, 栗倩文, 袁云静, 曹嘉琛. 数据驱动的自动化机器学习流程生成方法[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 185-193. |
[3] | 唐峯竹, 唐欣, 李春海, 李晓欢. 基于深度强化学习的多无人机任务动态分配[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 63-71. |
[4] | 张林兰, 刘青. 基于模糊准则的不完全信息双边协商研究[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 38-42. |
[5] | 周建, 王莉莉, Ahmed Rahmani, 刘昕. 分布式多agent系统在飞行冲突解脱中的应用[J]. 广西师范大学学报(自然科学版), 2015, 33(3): 16-22. |
[6] | 苏诚, 陈文娜, 周玲, 黄冬梅. 面向海洋空间数据集成的多Agent任务分配机制[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 205-209. |
[7] | 吴礻韦娴, 苏诚, 陈明, 冯国富, 池涛. 基于Agent的温室无线传感网络分簇管理模型[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 210-214. |
[8] | 柳相楠, 陈明, 冯国富, 池涛. 基于移动Agent的无线传感网络拓扑控制策略[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 215-218. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |