首页    |     本刊简介    |     征稿简则    |     征订启事    |     联系我们    |
天津科技大学学报欢迎您投稿!
 
   采编平台 /// 
 
    • 作者投稿  
    • 专家审稿  
    • 编辑办公  
 
   
 
   期刊论文 /// 
 
    • 全文浏览  
    • 论文检索  
    • 浏览排行  
 
   
 
   下载中心 /// 
 
    • 论文模板
    • 在研证明模板
    • 平台使用说明
 
   
 
 您现在的位置: 首页» 学报论文» 网络首发»  

基于有效动作表示的策略搜索强化学习方法

王馨雪,黄佳欣,赵婷婷,陈亚瑞,王嫄

摘要:策略搜索强化学习方法是深度强化学习领域的一种高效学习范式,但存在模型结构复杂、训练周期长、泛化能力差的问题。表示学习能在一定程度上缓解上述问题,但传统的表示学习方法的动作表示包含大量冗余或不相关的信息,缺乏可解释性,影响系统的性能和泛化能力。本文提出了一种基于有效动作表示的策略搜索强化学习方法 TAR-PPO(task-relevant action representation learning based PPO)。使用β-VAE 作为学习动作表示的组件,引入回报预测模型辅助有效动作表示提取器的训练,帮助有效动作表示提取器提取到与任务相关的、更加有效的动作信息,增强了动作表示的可解释性,提高模型的性能和泛化能力。在 MountainCar_V0 环境中的对比实验结果表明,本文方法能够有效捕获与任务相关的动作信息,有利于动作空间的进一步探索,提升了策略学习性能。最后,通过消融实验验证了本文方法的显著优势。



论文下载:
  • 09 基于有效动作表示的策略搜索强化学习方法_王馨雪.pdf
  •   浏览次数:
     
     

    版权所有:《天津科技大学学报》编辑部

    网站设计与维护:天津科技大学信息化建设与管理办公室

    津科备27-1号