基于生成模型和基因表达数据的关键基因筛选
摘 要:基因表达数据可以在特定条件和时间下揭示疾病的病理机制,然而“维数灾难”,即也就是小样本、高维度,限制了传统机器学习分类方法效果,导致预测精度低、无法识别小样本和稳定性差等问题。本文结合数据增强和基因选择两个方面提出了一种新的方法,命名为 CVAE-CWGNA-DAE,尝试解决由“维数灾难”带来的问题。针对基因表达数据中存在的小样本问题,提出基于条件变分自编码器结合基于梯度惩罚的条件 Wasserstein 生成对抗网络的数据增强方法,通过与现有方法的比较,证明该方法在分类效果和稳定性上的优越性。为了解决基因表达中存在的高维度问题,同时为了验证生成数据的有效性,采用基于降噪自编码器和 SVM-RFE 的基因选择方法。结果表明:利用数据增强后的数据集进行基因选择,所选出的基因在分类任务上的准确率在 5 种不同分类上均得到了提升。这些结果证明本文方法在缓解“维数灾难”方面的有效性,并在基因选择方面取得了显著的改进。
论文下载: