基于有效动作表示的策略搜索强化学习方法
摘要:策略搜索强化学习方法是深度强化学习领域的一种高效学习范式,但存在模型结构复杂、训练周期长、泛化能力差的问题。表示学习能在一定程度上缓解上述问题,但传统的表示学习方法的动作表示包含大量冗余或不相关的信息,缺乏可解释性,影响系统的性能和泛化能力。本文提出了一种基于有效动作表示的策略搜索强化学习方法 TAR-PPO(task-relevant action representation learning based PPO)。使用β-VAE 作为学习动作表示的组件,引入回报预测模型辅助有效动作表示提取器的训练,帮助有效动作表示提取器提取到与任务相关的、更加有效的动作信息,增强了动作表示的可解释性,提高模型的性能和泛化能力。在 MountainCar_V0 环境中的对比实验结果表明,本文方法能够有效捕获与任务相关的动作信息,有利于动作空间的进一步探索,提升了策略学习性能。最后,通过消融实验验证了本文方法的显著优势。
论文下载: