广西师范大学学报(自然科学版) ›› 2018, Vol. 36 ›› Issue (2): 18-23.doi: 10.16088/j.issn.1001-6600.2018.02.003

• • 上一篇    下一篇

融合事件特征及语义角色标注的藏文信息抽取技术

万福成*,马宁,何向真   

  1. 西北民族大学甘肃省民族语言智能处理重点实验室,甘肃兰州 730030
  • 收稿日期:2017-03-07 出版日期:2018-05-10 发布日期:2018-07-18
  • 通讯作者: 万福成(1985—),男,辽宁台安人,西北民族大学副教授,博士。E-mail:wanfucheng@126.com
  • 基金资助:
    国家自然科学基金(61602387);西北民族大学中央高校基本科研业务费资金项目(31920170155)

Tibetan Information Extraction Technology Integrated with Event Feature and Semantic Role Labeling

WAN Fucheng*,MA Ning,HE Xiangzhen   

  1. Key Laboratory of National Language Intelligent Processing,Gansu Province, Northwest Minzu University, Lanzhou Gansu 730030,China
  • Received:2017-03-07 Online:2018-05-10 Published:2018-07-18

摘要: 本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。

关键词: 功能语义, 语义角色标注, 藏文信息抽取

Abstract: Semantic information integrated with syntactic analysis was used for extracting the Tibetan language information.Using the method of semantic role tagging on the basis of the Tibetan phrase syntactic treebank and the information of event triggering words, the information of Tibetan language is extracted. Through comparative analysis of experiments, It is shown that the fusion of event feature and tagged information help Tibetan language information extraction, and the given model can be well applied to Tibetan information extraction.

Key words: semantic parsing, semantic role labeling, Tibetan information extraction

中图分类号: 

  • TP391
[1] 梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46.DOI:10.3969/j.issn. 1003-0077.2006.02.006.
[2] DANIEL N,RADEV D,ALLISON T.Sub-event based multi-document Summarization[C]//Proceedings of the HLT-NAACL 03 on Text Summarization Workshop:Volume 5.Stroudsburg,PA:Association for Computational Linguistics,2003:9-16.DOI:10.3115/1119467.1119469.
[3] 姜吉发.开放领域汉语知识问答方法[J].计算机工程,2005,31(11):1-3.DOI: 10.3969/j.issn.1000-3428. 2005.11.001.
[4] COHEN W W,McCALLUM A.Information extraction from the World Wide Web[R]//KDD 2003 Tutorial.Washington DC:ACM Press,2003.
[5] SODERLAND S G.Building a machine learning based text understanding system[C]//Proceedings of IJCAI-2001 workshop on Adaptive Text Extraction and Mining. San Francisco,CA:Morgan Kaufmann Publishers,2001:133-154.
[6] 谭红叶.中文事件抽取关键技术研究[D].哈尔滨:哈尔滨工业大学,2008.
[7] 袁毓林.信息抽取的语义知识资源研究[J].中文信息学报,2002,16(5):8-14.DOI:10.3969/j.issn.1003-0077. 2002.05.002.
[8] 赵妍妍,秦兵,车万翔,等.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8.DOI:10.3969/j.issn. 1003-0077.2008.01.001.
[9] 许荣华,吴刚,李培峰,等.基于事件框架的主题事件融合研究[J].计算机应用研究,2009,26(12):4542-4545.DOI: 10.3969/j.issn.1001-3695.2009.12.040.
[10] YU Hongzhi,JIANG Tao,ZHANG Bing,et al.Relation discovery by named entity recognition from Tibetan websites[C]//2009 1st IEEE Symposium on Web Society.Piscataway,NJ:IEEE Press,2009:177-179.DOI: 10.1109/SWS.2009.5271789.
[11] JI Heng,GRISHMAN R,CHEN Zheng,et al.Cross-document event extraction and tracking: task, evaluation, techniques and challenges[C]//Proceedings of the International Conference Recent Advances in Natural Language Processing 2009.Stroudsburg,PA:Association for Computational Linguistics,2009:162-172.
[12] 丁效,宋凡,秦兵,等,音乐领域典型事件抽取方法研究[J].中文信息学报,2011,25(2):15-20.DOI: 10.3969/j. issn.1003-0077.2011.02.003.
[13] 金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报(自然科学版),2010,31(3):49-52.DOI: 10.14084/j.cnki.cn62-1188/n.2010.03.018.
[14] RITTER A,MAUSAM,ETZIONI O,et al.Open domain event extraction from Twitter[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge discovery and data mining.New York:ACM Press,2012: 1104-1112.DOI:10.1145/2339530.2339704.
[15] 徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报(自然科学版),2012,34(6): 653-657,663.
[16] 李响,才藏太,姜文斌,等.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. DOI: 10.3969/j.issn.1003-0077.2011.04.008.
[17] 邹博伟,钱忠,陈站成,等.面向自然语言文本的否定性与不确定性信息抽取[J].软件学报,2016,27(2):309-328. DOI: 10.13328/j.cnki.jos.004860.
[18] 高庆宁,吴鹏,张晶晶.基于文档对象模型与行块分布算法的网页信息抽取[J].情报理论与实践,2016, 39(4):133-137.DOI: 10.16353/j.cnki.1000-7490.2016.04.025.
[19] 刘春梅,郭岩,俞晓明,等.针对开源论坛网页的信息抽取研究[J].计算机科学与探索,2017,11(1):114-123.DOI: 10.3778/j.issn.1673-9418.1510016.
[1] 张灿龙, 李燕茹, 李志欣, 王智文. 基于核相关滤波与特征融合的分块跟踪算法[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 12-23.
[2] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[3] 肖逸群, 宋树祥, 夏海英. 基于多特征的快速行人检测方法及实现[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 61-67.
[4] 王勋, 李廷会, 潘骁, 田宇. 基于改进模糊C均值聚类与Otsu的图像分割方法[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 68-73.
[5] 陈凤,蒙祖强. 基于BTM和加权K-Means的微博话题发现[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 71-78.
[6] 张随远, 薛源海, 俞晓明, 刘悦, 程学旗. 多文档短摘要生成技术研究[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 60-74.
[7] 孙容海, 施林甫, 黄丽艳, 唐振军, 俞春强. 基于图像插值和参考矩阵的可逆信息隐藏算法[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 90-104.
[8] 朱勇建, 彭柯, 漆广文, 夏海英, 宋树祥. 基于机器视觉的太阳能网版缺陷检测[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 105-112.
[9] 王祺, 邱家辉, 阮彤, 高大启, 高炬. 基于循环胶囊网络的临床语义关系识别研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 80-88.
[10] 武文雅, 陈钰枫, 徐金安, 张玉洁. 基于高层语义注意力机制的中文实体关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 32-41.
[11] 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49.
[12] 余传明, 李浩男, 安璐. 基于多任务深度学习的文本情感原因分析[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 50-61.
[13] 林原, 刘海峰, 林鸿飞, 许侃. 基于损失函数融合的组排序学习方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 62-70.
[14] 夏海英,刘伟涛,朱勇建. 一种改进的快速SUSAN棋盘格角点检测算法[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 44-52.
[15] 梁晓萍,罗晓曙. 基于遗传自适应的维纳滤波图像去模糊算法[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 17-23.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发