广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 153-156.

• • 上一篇    下一篇

一种基于改进似然比的术语自动抽取方法

林磊, 孙承杰, 张二艳, 刘秉权   

  1. 哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001
  • 收稿日期:2009-11-20 出版日期:2010-03-20 发布日期:2023-02-07
  • 通讯作者: 林磊(1970—),男,黑龙江哈尔滨人,哈尔滨工业大学副教授。E-mail:linl@insun.hit.edu.cn
  • 基金资助:
    国家863计划资助项目(2007AA01Z172);国家自然科学基金面上资助项目(60673019,60673037)

A Term Extraction Approach Based on Modified Log-likelihood Ratio

LIN Lei, SUN Cheng-jie, ZHANG Er-yan, LIU Bing-quan   

  1. School of Computer Science and Technology,Harbin Institute ofTechnology,Harbin Heilongjiang 150001,China
  • Received:2009-11-20 Online:2010-03-20 Published:2023-02-07

摘要: 术语自动抽取是信息处理领域的基础性课题,日益受到研究者的关注。似然比方法能有效抽取低频词汇,但抽取准确率偏低。为了解决这个问题,将似然比的抽取结果用C-value进行改进。实验证明,两者相结合,在保证似然比方法高召回率的前提下,比单纯依靠似然比方法抽取准确率提高了约8%。

关键词: 低频词, 对数似然比, C-value, 术语抽取

Abstract: Term extraction is a basic subject in information processing and is attracting more and more attention nowadays.In order to extractlow frequency words effectively,Log-likelihood ratio method is used but with alow precision rate.To solve this problem,C-value method is used to deal withthe results of Log-likelihood ratio.Experiment results show that by combining the two methods,the precision is improved in the premise of ensuing high recall rate of Log-likelihood ratio method.The proposed method can improve the precision by about8% compared with the Log-likelihood ratio method.

Key words: low-frequency word, Log-likelihood ratio, C-value, term extraction

中图分类号: 

  • TP391.1
[1] 张勇,何婷婷.中文术语自动抽取相关方法研究[D].武汉:华中师范大学计算机系,2006.
[2] 谌贻荣,俞士汶,穗志方.中文术语自动提取技术研究[D].北京:北京大学计算机系,2005.
[3] 索红光,杨涛.基于互信息的Web文档聚类方法[J].广西师范大学学报:自然科学版,2007,25(2):131-134.
[4] DIAS G,GUILLOR S,BASSANO J C,et al.Combining linguistics with statistics for multiword term extraction:a fruitful association[C]//Proceedings ofRecherched Informations Assiste par Ordinateur.Paris:College de France,2000:157-173.
[5] DUNNING T.Accurate methods for the statistics of surprise and coincidence[J].Association for Computational Linguistics,1993,19(1):61-76.
[6] SILVA J,LOPES G.A local maxima method and a fair dispersion normalization for extracting multiword units[C]//Proceedings of the 6th Meeting on the Mathematics of Language.Florida:University of Central Florida,1999:369-381.
[7] FRANTZI K T,ANANIADOU S.The C-value/NC-value domain independent method for multi-word term extraction[J].Journal of Natural Language Processing,1999,6(3):145-179.
[1] 郝雅茹, 董力, 许可, 李先贤. 预训练语言模型的可解释性研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 59-71.
[2] 晁睿, 张坤丽, 王佳佳, 胡斌, 张维聪, 韩英杰, 昝红英. 中文多模态知识库构建[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 31-39.
[3] 李正光, 陈恒, 林鸿飞. 基于双向语言模型的社交媒体药物不良反应识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 40-48.
[4] 周圣凯, 富丽贞, 宋文爱. 基于深度学习的短文本语义相似度计算模型[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 49-56.
[5] 孙岩松, 杨亮, 林鸿飞. 基于多粒度的分词消歧和语义增强的情景剧幽默识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 57-65.
[6] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[7] 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41.
[8] 张芬, 曲维光, 赵红艳, 周俊生. 基于CRF和转换错误驱动学习的浅层句法分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 147-150.
[9] 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156.
[10] 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150.
[11] 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156.
[12] 程显毅, 朱倩, 韩飞. 基于HNC和描述逻辑的问句语义块分析[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 131-134.
[13] 夏佞, 林鸿飞, 杨志豪, 李彦鹏. 基于扩展语义特征机器学习消歧的基因提及标准化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 144-147.
[14] 陈羽中, 李峰, 毛先领, 何靖, 闫宏飞. 文献检索与基于影响的摘要系统设计与实现[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 135-138.
[15] 魏莉, 谭红叶, 郑家恒, 孙健. 汉语句法树库一致性检验方法研究[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 139-142.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发