广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (3): 144-147.

• • 上一篇    下一篇

基于扩展语义特征机器学习消歧的基因提及标准化

夏佞, 林鸿飞, 杨志豪, 李彦鹏   

  1. 大连理工大学信息检索研究室,辽宁大连116024
  • 收稿日期:2010-05-13 出版日期:2010-09-20 发布日期:2023-02-06
  • 通讯作者: 林鸿飞(1962—),男,内蒙古通辽人,大连理工大学教授,博士,博导。E-mail:hflin@dlut.edu.cn
  • 基金资助:
    国家863高科技计划资助项目(2006AA01Z151);国家自然科学基金资助项目(60973068,60673039);国家社科基金资助项目(08BTQ025);教育部留学回国人员科研启动基金资助项目;高等学校博士学科点专项科研基金资助课题(20090041110002)

Gene Mention Normalization Based on Semantic Featured Machine Learning Disambiguation

XIA Ning, LIN Hong-fei, YANG Zhi-hao, LI Yan-peng   

  1. Information Retrieval Laboratory,Dalian University of Technology,Dalian Liaoning 116024,China
  • Received:2010-05-13 Online:2010-09-20 Published:2023-02-06

摘要: 提出了一种基于扩展语义向量的特征表示方法,利用机器学习的方法来解决基因提及标准化中的消歧问题。首先应用高性能的命名实体识别系统识别文献中的基因提及;其次采用不同的搜索策略生成候选结果;再次以扩展语义信息作为特征用机器学习的方法进行消歧;最后利用Wikipedia构建后过滤器对候选结果进行过滤处理。在BioCreative II GN任务测试集上的试验表明,该方法的F值达到了83.2%。

关键词: 基因提及标准化, 基因提及消歧, 扩展语义特征, 机器学习

Abstract: An extended semantic feature representation method isintroduced,anda machine learning based disambiguation is performed using this feature.First,a named entity recognition system is used to detect gene mentions in the literature.Second,different searching strategies are adopted to construct mapping pairs.Thirdly,extended semantic feature is used for supervised machine learning based disambiguation.Then,retrieved Wikipedia results are used to build post-filter.This method achieves an F-measure of 83.2% on the BioCreative Ⅱ GN test dataset.

Key words: gene mention normalization, gene mention disambiguation, extended semantic feature, machine learning

中图分类号: 

  • TP391.1
[1] LI Yan-peng,LIN Hong-fei,YANG Zhi-hao.Incorporating rich background knowledge for gene named entity classification and recognition[J].BMC Bioinformatics,2009,10(1):223.
[2] SAHAMI M,HEILMAN T D.A web-based kernel function for measuring the similarity of short text snippets[C]//Proceedings of the 15th internationalconference on World Wide Web.New York:ACM,2006:377-386.
[3] LIU Hong-fang,TORII M,HU Zhang-zhi,et al.Gene mention and genenormalization based on machine learning and online resources[C]//Proc of the Second BioCreative Challenge Workshop Madrid.Spain:CNIO,2007:135-140.
[4] SCHUEMIE M J,JELIER R,KORS J A.Peregrine:lightweight gene namenormalization by dictionary lookup[C]//Proc of the Second BioCreative Challenge Evaluation Workshop Madrid.Spain:CNIO,2007:131-133.
[5] KUO Cheng-ju,CHANG Yu-ming,HUANG Han-sen,et al.Exploring matchscores toboost precision of gene normalization[C]//Proc of the Second BioCreative Challenge Evaluation Workshop Madrid.Spain:CNIO,2007:161-163.
[6] SUN Cheng-jie,WANG Xiao-long,LIN Lei.A multi-level disambiguation framework for gene name normalization[J].Acta Automatica Sinica,2009,35(2):193-197.
[1] 杨迪, 方扬鑫, 周彦. 基于MEB和SVM方法的新类别分类研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 57-67.
[2] 路凯峰, 杨溢龙, 李智. 一种基于BERT和DPCNN的Web服务分类方法[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 87-98.
[3] 张永生, 朱文焌, 史若琪, 杜振华, 张瑞, 王志. 基于可信度的Android恶意代码多模型协同检测方法[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 19-28.
[4] 林越, 刘廷章, 王哲河. 具有两类上限条件的虚拟样本生成数量优化[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 142-148.
[5] 张仁津, 唐翠芳, 刘彬. 基于人工神经网络游戏程序的研究和设计[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 119-124.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发