广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 135-138.

• • 上一篇    下一篇

文献检索与基于影响的摘要系统设计与实现

陈羽中1, 李峰2, 毛先领2, 何靖2, 闫宏飞2   

  1. 1.北京师范大学管理学院,北京 100875;
    2.北京大学信息科学技术学院,北京 100871
  • 收稿日期:2009-12-15 出版日期:2010-03-20 发布日期:2023-02-07
  • 通讯作者: 陈羽中(1975—),女(满族),辽宁沈阳人,北京师范大学讲师,博士。E-mail:chenchong@bnu.edu.cn
  • 基金资助:
    国家自然科学基金重点资助项目(60933004);国家自然科学基金资助项目(70903008,60672171);教育部科技发展中心“网络时代的科技论文快速共享研究”资助项目(2008107)

Literature Retrieval System Implementation and Impact-based Summarization

CHEN Chong1, LI Feng2, MAO Xian-ling2, HE Jing2, YAN Hong-fei2   

  1. 1. School of Management,Beijing Normal University,Beijing 100875,China;
    2. School of EECS,Peking University,Beijing 100871,China
  • Received:2009-12-15 Online:2010-03-20 Published:2023-02-07

摘要: 构建了一种新型文献检索系统,能够摘要一篇文献中引起读者研究工作关注的那些内容,并返回读者对这些内容的评论,从而帮助用户快速了解该文献的学术价值及不足之处等重要信息。利用文献间的引用关系从其他文献中找到指向一篇文献的评论上下文,借鉴查询-检索模式,将评论转化为一元语言模型所生成的查询,并将原文献划分为句子所构成的文档集,基于KL-divergence检索模型找到原文献中与评论对应的句子。选取得分最高的若干句子构成体现原文献对外影响的摘要。系统基于北京大学研制的智能搜索引擎平台Platform for Applying,Researching And Developing Intelligent Search Engine (PARADISE),具有快速构建可扩展好的优点。

关键词: 文献检索, 评论上下文, 基于影响的摘要, PARADISE, KL-divergence算法

Abstract: A new literature retrieval system is built to returnthe summary of a paper based on its literature impact.It can also returnthe comments given by other papers.The summary and the comments help readers quickly understand both the value of the paper and its inadequacy,whichmay not be found in the paper's abstract.The comments found in citing papers are virtualized as “query” generated by uni-gram language model,and thesentences of original paper are treated as a set of “document”.Using KL-divergence scoring approach to find the similarity between the query and the documents,the top-scored impact sentences of the original paper are selected and returned as summary.The corresponding comments in the citing papers are also returned.The System isbased on the Platform for Applying,Researching And Developing Intelligent Search Engine (PARADISE) developed by Peking University.It has the advantage of quick-to-start and good scalability.

Key words: literature retrieval, comment context, impact-based summarization, PARADISE, KL-divergence scoring

中图分类号: 

  • TP391.1
[1] MOHAMMAD S,DORR B,EGAN M,et al.Using citations to generate surveysof scientific paradigms[C]//Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the ACL.Morristown,NJ:Association for Computational Linguistics,2009:584-592.
[2] CHUANG W T,YANG J.Extracting sentence segments for text summarization:a machine learning approach[C]//Proceedings of 23rd ACM SIGIR Conference.New York,NY:ACM,2000:152-159.
[3] NAKEV P I,SCHWARTZ A S,HEARST M A.Citances:citation sentences forsemantic analysis of bioscience text[C]//Proceedings of ACM SIGIR'04 Workshopon Search and Discovery in Bioinformatics,New York,NY:ACM,2004.
[4] NANBA H,OKUMURA M.Towards multi-paper summarization using reference information[C]//Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence.San Francisco,CA:Morgan Kaufmann Publishers Inc,1999:926-931.
[5] MEI Q,ZHAI C.Generating impact-based summaries for scientific literature[C]//Proceedings of ACL-08:HLT.Morristom,NJ,USA:Association for Computational Linguistics,2008:816-824.
[6] CROFT B,METZLER D,STROHMAN T.Search engines:information retrievalin practice[M].Boston,MA:Addison Wesley,2009:261-266.
[1] 郝雅茹, 董力, 许可, 李先贤. 预训练语言模型的可解释性研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 59-71.
[2] 晁睿, 张坤丽, 王佳佳, 胡斌, 张维聪, 韩英杰, 昝红英. 中文多模态知识库构建[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 31-39.
[3] 李正光, 陈恒, 林鸿飞. 基于双向语言模型的社交媒体药物不良反应识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 40-48.
[4] 周圣凯, 富丽贞, 宋文爱. 基于深度学习的短文本语义相似度计算模型[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 49-56.
[5] 孙岩松, 杨亮, 林鸿飞. 基于多粒度的分词消歧和语义增强的情景剧幽默识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 57-65.
[6] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[7] 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41.
[8] 张芬, 曲维光, 赵红艳, 周俊生. 基于CRF和转换错误驱动学习的浅层句法分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 147-150.
[9] 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156.
[10] 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150.
[11] 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156.
[12] 程显毅, 朱倩, 韩飞. 基于HNC和描述逻辑的问句语义块分析[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 131-134.
[13] 夏佞, 林鸿飞, 杨志豪, 李彦鹏. 基于扩展语义特征机器学习消歧的基因提及标准化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 144-147.
[14] 魏莉, 谭红叶, 郑家恒, 孙健. 汉语句法树库一致性检验方法研究[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 139-142.
[15] 那日萨, 刘影, 李媛. 消费者网络评论的情感模糊计算与产品推荐研究[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 143-146.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发