网络与信息安全学报 ›› 2016, Vol. 2 ›› Issue (5): 30-38.doi: 10.11959/j.issn.2096-109x.2016.00049

• 学术论文 • 上一篇    下一篇

基于主题模型的微博话题检测算法

黄华军,谭骏珊,秦姣华   

  1. 中南林业科技大学计算机与信息工程学院,湖南 长沙 410004
  • 修回日期:2016-05-06 出版日期:2016-05-15 发布日期:2020-03-26
  • 作者简介:黄华军(1978-),男,湖南宜章人,博士,中南林业科技大学教授、硕士生导师,主要研究方向为网络与信息安全、网络钓鱼防御。|谭骏珊(1963-),男,湖南益阳人,博士,中南林业科技大学教授、博士生导师,主要研究方向为数据库信息与管理、数据挖掘。|秦姣华(1973-),女,湖南益阳人,博士,中南林业科技大学教授、硕士生导师,主要研究方向为网络与信息安全、加密图像检索。
  • 基金资助:
    国家自然科学基金资助项目(61304208);湖南省自然科学基金资助项目(13JJ2031);中南林业科技大学青年科学研究基金资助项目(QJ2012009A)

Micro-blog topic detection algorithm based on topic model

Hua-jun HUANG,Jun-shan TAN,Jiao-hua QIN   

  1. College of Computer and Information Engineering,Central South University of Forestry &Technology,Changsha 410004,China
  • Revised:2016-05-06 Online:2016-05-15 Published:2020-03-26
  • Supported by:
    The National Natural Science Foundation of China(61304208);The Natural Science Foundation of Hunan Province(13JJ2031);Youth Scientific Research Foundation of Central South University of Forestry &Technology(QJ2012009A)

摘要:

摘 要:微博数据的实时、大规模、短文本以及富含噪声等特征为话题检测带来新的挑战,传统向量空模型(VSM)表示文本无法很好地对其进行建模。基于此,提出一种基于主题模型的微博话题检测算法。首先,对微博数据构建文档词条矩阵和词语夫联矩阵来提取主题词;然后,对主题词进行聚类,得到主题模型;最后,利用文本与主题模型相互匹配实现文本聚类,从而达到话题检测的目的。实验结果表示,该算法能有效地进行话题聚类并检测出话题,在最佳参数组合条件下,其各类别的平均F值达到95%以上。

关键词: 话题检测, 主题模型, 文档词条矩阵, 词语夫联矩阵

Abstract:

Micro-blog data has the characteristic of real-time,volume,short-text,and noise-rich.So it is a challenge for the traditional topic detection technology.A novel micro-blog topic detection algorithm based on topic model was proposed.Firstly,the micro-blog data was expressed as text word matrix and word relation matrix.The topic word was extracted from the two vectors.Secondly,the topic model was obtained with clustering.Finally,the topic detection of micro-blog was obtained by clustering text and topic model.Experimental results show that the algorithm proposed can effectively detection the text topic,and with the best parameter group of precision,recall rate,F,and the value F is about 95%.

Key words: topic detection, topic model, text word matrix, word relation matrix

中图分类号: 

No Suggested Reading articles found!