基于RBAC 模型的中文医疗命名实体识别
摘 要:中文医疗命名实体识别旨在从非结构化数据中抽取结构化实体,目前的主流研究都使用了大量的训练数据。针对中文医疗命名实体识别训练数据匮乏的问题,提出了基于联合分词的 RBAC(RoBERTa-BiGRU-Attention-CRF)模型和基于语义搜索的命名实体识别数据增强方法。首先利用预训练模型和双向门控循环单元(BiGRU)提取文本的深度双向语义表示,再将该语义表示分别送入分词模块和命名实体识别模块。分词模块利用条件随机场(CRF)得到分词信息。命名实体识别模块利用 BiGRU 与多头注意力得到混合语义表示,再送入 CRF 得到命名实体识别的标签序列。在 CCKS2019 中文电子病历数据集上的实验结果表明,该方法在数据量较少的情况下 F1 达到 90.5%,证明了该方法的有效性。
论文下载: