广西师范大学学报(自然科学版) ›› 2019, Vol. 37 ›› Issue (1): 23-31.doi: 10.16088/j.issn.1001-6600.2019.01.003

• 第二十四届全国信息检索学术会议专栏 • 上一篇    下一篇

基于词聚类的跨媒体突发事件检测方法

刘金龙1,2*, 郭岩1, 余智华1, 刘悦1, 俞晓明1, 程学旗1   

  1. 1.中国科学院计算技术研究所/中国科学院网络数据科学与技术重点实验室,北京100190;
    2.中国科学院大学,北京100049
  • 收稿日期:2018-10-14 发布日期:2019-01-08
  • 通讯作者: 刘金龙(1992—),男,河南漯河人,中国科学院硕士研究生。 E-mail:liujinlong16@mails.ucas.ac.cn
  • 基金资助:
    国家重点研发计划(2017YFB0803302,2016YFB1000902);国家“九七三”重点基础研究发展计划(2014CB340405,2014CB340401);国家自然科学基金重点项目(61433014)

A New Method to Detect Busty Events with Different Media Data Based on Word Clustering

LIU Jinlong1,2*,GUO Yan1, YU Zhihua1, LIU Yue1,YU Xiaoming1,CHENGXueqi1   

  1. 1.Institute of Computing Technology, Chinese Academy of Sciences, Key Laboratory of Network Date Science & Technology, Beijing 100190,China;
    2.Graduate University of Chinese Academy of Sciences, Beijing 100049,China
  • Received:2018-10-14 Published:2019-01-08

摘要: 本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具有速度快且高效的特点,但是由于微博文本长度较短,内容过于随意,使得事件发现的结果不够精确。新闻作为官方媒体,其真实性和权威性较高,内容比较规范,事件发现较为准确,但因为新闻数量较少,对于突发事件检测任务来说,时效性较低。现有的方法只针对一种媒体的数据进行挖掘,无法规避掉该媒体的数据所固有的缺点。本文提出一种方法,将微博和新闻2种媒体的数据进行融合,在满足突发事件检测的时效性的同时,提升了突发事件检测的准确率。

关键词: 突发事件, 检测, 跨媒体, 词聚类

Abstract: This paper proposes a cross-media bursty events detection method based on bursty words clustering. According to the events analysis, as Microblogs has a huge number of posts, users post or retweet Microblogs in anytime, it may spend fewer time detecting busty events than other platforms. However, many microblogs are advertisements and worthless, which leads to a lower precision. On the contrary, as an official media, news is highly authentic and authoritative, and contents of news are more standard. Therefore, events detection has a higher accuracy. However, due to the small number of news, the efficiency of busty events detection is low. At present, all of the existing detection methods only mine the data of one media, which face with a dilemma between efficiency and accuracy. In this paper, the proposed model fuses the data of two medias, microblog and newssin order to meet the needs of efficiency and improve the accuracy of emergency detection.

Key words: bursty events, detection, cross-media, hierarchical clustering

中图分类号: 

  • TP391.1
[1] CHEN Y,LIU L. Development and research of topic detection and tracking[C]//Software Engineering and Service Science (icsess), 2016 7th IEEE International Conference on. Piscataway, NJ: IEEE Press, 2016: 170-173.
[2] ALLAN J, PAPKA R, LAVRENKO V. On-line new event detection and tracking[C]//ACM SIGIR Forum. New York:ACM, 2017, 51(2): 185-193.
[3] PETROVIC' S,OSBORNE M,LAVRENKO V. Streaming first story detection with application to twitter[C]//Human Language Technologies: the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2010: 181-189.
[4] PHUVIPADAWAT S,MURATA T. Breaking news detection and tracking in twitter[C]//Web Intelligence and Intelligent Agent Technology (wi-iat), 2010 IEEE/WIC/ACM, International Conference on. Piscataway, NJ: IEEE Press, 2010: 120-123.
[5] KLEINBERG J. Bursty and hierarchical structure in streams[J]. Data Mining and Knowledge Discovery, 2003, 7(4): 373-397.
[6] 王勇,肖诗斌,郭跇秀,等.中文微博突发事件检测研究[J].现代图书情报技术,2013(2):57-62.
[7] 杨露菁,余华.多源信息融合理论与应用[M].北京:北京邮电大学出版社,2006.
[8] 李传阳.利用多源信息融合理论提升网络舆情预警能力和舆情引导的有效性研究[J].教育现代化,2018,5(3):292-293.
[9] 王冰玉,吴振宇,沈苏彬,等.社交媒体事件检测研究综述[J/OL].计算机技术与发展,2018(8):1-6.
[10] 徐全智,吕恕.概率论与数理统计[M].北京:高等教育出版社,2004:133.
[1] 白捷, 高海力, 王永众, 杨来邦, 项晓航, 楼雄伟. 基于多路特征融合的Faster R-CNN与迁移学习的学生课堂行为检测[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 1-11.
[2] 马玲, 罗晓曙, 蒋品群. 一种基于PNN的点阵喷码字符识别方法[J]. 广西师范大学学报(自然科学版), 2020, 38(4): 32-41.
[3] 张永生, 朱文焌, 史若琪, 杜振华, 张瑞, 王志. 基于可信度的Android恶意代码多模型协同检测方法[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 19-28.
[4] 严浩, 许洪波, 沈英汉, 程学旗. 开放式中文事件检测研究[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 64-71.
[5] 刘英璇, 伍锡如, 雪刚刚. 基于深度学习的道路交通标志多目标实时检测[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 96-106.
[6] 肖逸群, 宋树祥, 夏海英. 基于多特征的快速行人检测方法及实现[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 61-67.
[7] 朱勇建, 彭柯, 漆广文, 夏海英, 宋树祥. 基于机器视觉的太阳能网版缺陷检测[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 105-112.
[8] 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49.
[9] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20-26.
[10] 夏海英,刘伟涛,朱勇建. 一种改进的快速SUSAN棋盘格角点检测算法[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 44-52.
[11] 李子彦, 刘伟铭. 一种基于局部HOG特征的运动车辆检测方法[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 1-13.
[12] 刘祎, 叶雪梅, 肖咪云, 吕丽君, 侯澄友, 陆祖军. 快速荧光测定初筛高刺桐碱积累量菌株[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 141-148.
[13] 杨莉婷, 何丽, 何海宁, 吴琼. 流式细胞术对生乳中微生物检测的应用研究[J]. 广西师范大学学报(自然科学版), 2017, 35(2): 112-116.
[14] 唐振军. 基于PCA特征距离的图像哈希算法[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 9-18.
[15] 陈锦, 罗晓曙. 一种新的基于小波变换的QPSK信号解调方法[J]. 广西师范大学学报(自然科学版), 2016, 34(2): 35-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发