基于自然语言处理的枯草芽孢杆菌启动子强度预测
摘 要:作为在转录水平上调节基因表达的关键元件,启动子的强度直接调控基因的表达水平。现有启动子强度预测模型多集中于大肠杆菌,针对其他物种启动子强度预测的模型则相对较少。本研究主要以枯草芽孢杆菌启动子为研究对象,收集多组枯草芽孢杆菌启动子序列强度数据,通过绿色荧光蛋白表达强度作为统一表征指标,对多组启动子强度进行标准化计算,构建枯草芽孢杆菌启动子强度数据集。分别使用 7 种自然语言处理方法,包括 FastText、 TextCNN、TextRNN、TextRCNN、TextRNN_Att、DPCNN 和 Transformer,构建启动子强度预测模型。结果表明, Transformer 模型在启动子强度预测任务中取得最好的预测效果,准确率可达 79.49%。本研究自主构建了枯草芽孢杆菌启动子强度数据集,并使用自然语言处理的方法训练得到效果较好的启动子强度预测模型,研究结果可以为枯草芽孢杆菌特定强度启动子的筛选提供依据。
论文下载: