首页    |     本刊简介    |     征稿简则    |     征订启事    |     联系我们    |
天津科技大学学报欢迎您投稿!
 
   采编平台 /// 
 
    • 作者投稿  
    • 专家审稿  
    • 编辑办公  
 
   
 
   期刊论文 /// 
 
    • 全文浏览  
    • 论文检索  
    • 浏览排行  
 
   
 
   下载中心 /// 
 
    • 论文模板
    • 在研证明模板
    • 平台使用说明
 
   
 
 您现在的位置: 首页» 学报论文» 2023-4»  

基于最优向量基线的参数探索策略梯度算法

赵婷婷,李 坤,刘展硕,陈亚瑞,王 嫄,杨巨成

摘 要:策略梯度算法是深度强化学习领域中广泛使用的一类无模型强化学习方法,在实际应用中取得了突破性进展。策略梯度算法一直受到梯度估计方差大的困扰,基于参数探索的策略梯度算法(policy gradients with parameterbasedexploration,PGPE)从根本上缓解了该问题。通过最优基线技术的引入,策略梯度估计的方差进一步减小。然而,现有最优基线技术只使用标量值作为基线,忽略了策略梯度各维度之间的差异。针对此问题,本文提出一种向量基线概念并推导PGPE 算法的最优向量基线表示,在理论上证明了引入最优向量基线的PGPE 算法可以得到更小的梯度估计方差,并且实验验证了此算法的有效性。



论文下载:
  • 11.pdf
  •   浏览次数:
     
     

    版权所有:《天津科技大学学报》编辑部

    网站设计与维护:天津科技大学信息化建设与管理办公室

    津科备27-1号