首页    |     本刊简介    |     征稿简则    |     征订启事    |     联系我们    |
天津科技大学学报欢迎您投稿!
 
   采编平台 /// 
 
    • 作者投稿  
    • 专家审稿  
    • 编辑办公  
 
   
 
   期刊论文 /// 
 
    • 全文浏览  
    • 论文检索  
    • 浏览排行  
 
   
 
   下载中心 /// 
 
    • 论文模板
    • 在研证明模板
    • 平台使用说明
 
   
 
 您现在的位置: 首页» 学报论文» 2023-3»  

融合情感与语义的多模态对话生成方法

张翼英,马彩霞,张 楠,柳依阳,王德龙

摘 要:近年来,语音对话等一系列非可视化对话场景在生活中屡见不鲜,比如智能机器人的语音交互、各类客服通过语音对话了解客户需求等.音频中往往蕴含情感信息,而文本中则包含丰富的语义层面的信息,因此基于语音文本多模态特征更能充分挖掘语义及情感信息,生成信息更加丰富的对话响应.当前基于文本和音频的对话生成技术主要基于较传统的Seq2Seq 模型实现,生成的响应存在多样性较低、上下文不够连贯等问题.为此,本文提出AT-Transformer模型实现文本、音频多模态场景下的对话生成任务.首先使用WordEmbedding 对上下文和回复进行词嵌入矩阵的构建,然后使用VGGish 对对话音频进行特征提取,接着分别将其输入AT-Transformer 模型中,并在多模态注意力机制中实现两种模态特征的融合,最后设计目标函数旨在提高生成语句的多样性.实验分别对情感丰富度、上下文语义相关性和句子连贯性进行评估,相较最优基准模型,情感匹配度提升2%,语义相关性提升0.5%.



论文下载:
  • 08.pdf
  •   浏览次数:
     
     

    版权所有:《天津科技大学学报》编辑部

    网站设计与维护:天津科技大学信息化建设与管理办公室

    津科备27-1号