基于内容的垃圾电子邮件过滤技术研究
摘 要:提出一种过滤垃圾电子邮件的方法.通过tf-idf 特征提取方法提取邮件的词汇特征,采用χ2特征选择方法选取有效的特征,并抽取几个具有明显区分能力的结构方面的特征,利用支持向量机算法对垃圾电子邮件进行自动过滤.对中科院中文垃圾邮件语料库(Cspam)的实验,识别正确率达到82%以上,另外,tf-idf 词汇特征和结构特征搭配使用可以提高分类的正确率,表明此种方法能提高垃圾电子邮件过滤的准确性.
论文下载:
|
|
版权所有:《天津科技大学学报》编辑部 网站设计与维护:天津科技大学信息化建设与管理办公室 津科备27-1号 |