当前位置: 首页 -> 科学研究 -> 科研成果 -> 正文

科学研究

刘暾东教授团队研究成果发表于Engineering Applications of Artificial Intelligence

信息来源: 发布日期:2022-10-03

A novel policy gradient algorithm with PSO-based parameter exploration for continuous control

刘暾东教授的硕士生李丽端同学2020年在JCR2区期刊Engineering Applications of Artificial Intelligence 上发表论文一篇。论文针对强化学习中的无模型策略梯度方法在连续控制应用中存在因梯度估计方差大及复杂的反向传播而引起的收敛速度慢与计算复杂等问题,提出一种基于粒子群参数估计的无模型策略梯度算法。该方法引入粒子群算法训练强化学习中的策略网络以减少方差并提高收敛速度。

https://linkinghub.elsevier.com/retrieve/pii/S0952197620300324