天津科技大学学报

基于生成模型和基因表达数据的关键基因筛选

余钱，李雨蒙，罗军伟，董浩帆，李玉，吴信

摘要：基因表达数据可以在特定条件和时间下揭示疾病的病理机制，然而“维数灾难”，即也就是小样本、高维度，限制了传统机器学习分类方法效果，导致预测精度低、无法识别小样本和稳定性差等问题。本文结合数据增强和基因选择两个方面提出了一种新的方法，命名为 CVAE-CWGNA-DAE，尝试解决由“维数灾难”带来的问题。针对基因表达数据中存在的小样本问题，提出基于条件变分自编码器结合基于梯度惩罚的条件 Wasserstein 生成对抗网络的数据增强方法，通过与现有方法的比较，证明该方法在分类效果和稳定性上的优越性。为了解决基因表达中存在的高维度问题，同时为了验证生成数据的有效性，采用基于降噪自编码器和 SVM-RFE 的基因选择方法。结果表明：利用数据增强后的数据集进行基因选择，所选出的基因在分类任务上的准确率在 5 种不同分类上均得到了提升。这些结果证明本文方法在缓解“维数灾难”方面的有效性，并在基因选择方面取得了显著的改进。

论文下载：

基于生成模型和基因表达数据的关键基因筛选_余钱.pdf

浏览次数：