首页    |     本刊简介    |     征稿简则    |     征订启事    |     联系我们    |
天津科技大学学报欢迎您投稿!
 
   采编平台 /// 
 
    • 作者投稿  
    • 专家审稿  
    • 编辑办公  
 
   
 
   期刊论文 /// 
 
    • 全文浏览  
    • 论文检索  
    • 浏览排行  
 
   
 
   下载中心 /// 
 
    • 论文模板
    • 在研证明模板
    • 平台使用说明
 
   
 
 您现在的位置: 首页» 学报论文» 2024-3»  

基于探针稀疏注意力机制的门控Transformer 模型

赵婷婷,丁翘楚,马 冲,陈亚瑞,王 嫄

摘  要:在强化学习中,智能体对状态序列进行编码,根据历史信息指导动作的选择,通常将其建模为递归型神经网络,但其存在梯度消失和梯度爆炸的问题,难以处理长序列。以自注意力机制为核心的 Transformer 是一种能够有效整合长时间范围内信息的机制,将传统 Transformer 直接应用于强化学习中存在训练不稳定和计算复杂度高的问题。门控 Transformer-XL(GTrXL)解决了 Transformer 在强化学习中训练不稳定的问题,但仍具有很高的计算复杂度。针对此问题,本研究提出了一种具有探针稀疏注意力机制的门控 Transformer(PS-GTr),其在 GTrXL 中的恒等映射重排和门控机制的基础上引入了探针稀疏注意力机制,降低了时间复杂度和空间复杂度,进一步提高了训练效率。通过实验验证,PS-GTr 在强化学习任务中的性能与 GTrXL 相当,而且训练时间更短,内存占用更少。



论文下载:
  • 09.pdf
  •   浏览次数:
     
     

    版权所有:《天津科技大学学报》编辑部

    网站设计与维护:天津科技大学信息化建设与管理办公室

    津科备27-1号