广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 147-150.

• • 上一篇    下一篇

面向事件的多文档文摘生成算法的研究

程显毅1,2, 潘燕1, 朱倩2, 孙萍2   

  1. 1.南通大学计算机科学与技术学院,江苏南通226019;
    2.江苏大学计算机通信工程学院,江苏镇江212013
  • 收稿日期:2010-11-16 发布日期:2018-11-16
  • 通讯作者: 程显毅(1956—),男,黑龙江哈尔滨人,南通大学教授,博士,博导。E-mail: xycheng@ntu.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(60702056);江苏省研究生创新项目(CX09B2042)

Automatic Generating Algorithm of Event-oriented Multi-documentSummarization

CHENG Xian-yi1,2, PAN Yan1, ZHU Qian2, SUN Ping2   

  1. 1.College of Computer Science,Nantong University,Nantong Jiangsu 226019,China;
    2.College of ComputerScience and Telecommunications Engineering,Jiangsu University,Zhenjiang Jiangsu 212013,China
  • Received:2010-11-16 Published:2018-11-16

摘要: 针对目前基于主题相似性生成多文档文摘的系统存在语义不精确、只能传达多篇具有同一主题的文档所携带的主要信息(横向文摘)的问题。本文基于HNC理论,提出的面向事件的多文档自动文摘模型,旨在用很短的文本来传达多篇具有同一事件的文档所携带的后续报道信息(纵向文摘)。实验结果表明,本方法在信息覆盖率、信息冗余度和文摘流利度方面比TF×IDF方法有很大的改进。

关键词: 多文档文摘, 事件, HNC, 自然语言处理

Abstract: Aiming at the current problems of semantic inaccuracyand horizontal summarization existing in multi-document summarization systemsaccording to the similarity of theme,the paper presents a mo-del of multi-document summarization based on HNC,thus it can convey follow-up report information of articles of same event (i.e.Vertical Summarization) with short text.The experiment shows that the method exceeds the TF×IDF method in coverage rate and redundancy rate of information and summarization fluency.

Key words: multi-document summarization, event, HNC, natural language processing

中图分类号: 

  • TP391.1
[1] 朱荷香.中文自动文摘系统的研究与实现[D].南京:南京师范大学计算机学院,2008:13-18.
[2] 姚天顺.自然语言理解:一种让机器懂得人类语言的研究[M].2版.北京:清华大学出版社,2002.
[3] WANG Ding-ding,ZHU Sheng-huo,LI Tao,et al.Multi-document summarization using sentence-based topic models[C]//Proceedings of the ACL-IJCNLP.Suntec,Singapore:Morgan Kaufmann Publishers,2009:297-300.
[4] HENDRICKX I,DAELEMANS W,MARSI E,et al.Reducing redundancy in multi-document summarization using lexical semantic similarity[C]//Proceedings ofthe ACL-IJCNLP.Suntec,Singapore:Morgan Kaufmann Publishers,2009:63-66.
[5] 王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):1-8.
[6] 晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:科学出版社,2006.
[7] 云晓燕.多文档自动文摘的研究与应用[D].鞍山:辽宁科技大学信息学院,2008.
[1] 严浩, 许洪波, 沈英汉, 程学旗. 开放式中文事件检测研究[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 64-71.
[2] 谢小辉, 孙立宁, 张峰峰. 基于事件的机器人主-被动混合力-位控制方法[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 121-127.
[3] 许凯, 田晟, 朱泽坤. 短时事件下的地铁乘客路径选择行为研究[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 9-14.
[4] 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31.
[5] 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41.
[6] 袁乐平, 孙瑞山. 飞行冲突调配概率安全评估方法研究[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 27-31.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发