融合图嵌入和BERT 嵌入的文本分类模型
摘 要:文本分类作为自然语言领域中至关重要的任务之一,广泛应用于问答系统、推荐系统以及情感分析等相关任务中。为了提取文本数据中的复杂语义特征信息并捕获全局的图信息,提出一种融合图嵌入和 BERT(bidirectional encoder representation from Transformers)嵌入的文本分类模型。该模型引入双级注意力机制考虑不同类型节点的重要性以及同一类型不同邻居节点的重要性,同时采用 BERT 预训练模型获得包含上下文信息的嵌入并解决一词多义的问题。该模型把所有单词和文本均视为节点,为整个语料库构建一张异构图,将文本分类问题转化为节点分类问题。然后通过把双级注意力机制与图卷积神经网络进行融合,双级注意力机制包含类型级注意力和节点级注意力,类型级注意力机制捕获不同类型的节点对某一节点的重要性,节点级注意力机制可以捕获相同类型的邻居节点对某一节点的重要性。然后把由 BERT 模型获得文本中的局部语义信息与经图卷积神经网络得到的具有全局信息的图嵌入表示相结合,得到最后的文本嵌入表示,并完成文本分类。在 4 个广泛使用的公开数据集上与 7 个基线模型做对比实验,结果表明所提模型提高了文本分类的准确性。
论文下载: