基于Single-Pass 的在线话题检测改进算法
马永军,刘 洋,李亚军,汪 睿
摘 要:现有话题检测的主要方法是利用Single-Pass 及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass 的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3 年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass 聚类算法,话题检测准确度更高.
论文下载:
13.pdf
浏览次数:39