广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (3): 147-150.

• • 上一篇    下一篇

基于CRF和转换错误驱动学习的浅层句法分析

张芬1,2, 曲维光1,2,3, 赵红艳1,2, 周俊生1,2   

  1. 1.南京师范大学计算机科学与技术学院,江苏南京210046;
    2.江苏省信息安全保密技术研究中心,江苏南京201197;
    3.南京师范大学语言信息科技研究中心,江苏南京201197
  • 收稿日期:2011-05-25 出版日期:2011-08-20 发布日期:2018-12-03
  • 通讯作者: 曲维光(1964—),男,山东烟台人,南京师范大学教授,博士。E-mail:wgqu@njnu.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(60773173,61073119);国家哲学社科基金资助项目(10CYY021);江苏省自然科学基金资助项目(BK2010547);江苏省教育厅自然科学基金资助项目(10KJB520009);江苏省高校社科基金资助项目(06SJB71007)

Shallow Parsing Based on CRF and Transformation-basedError-driven Learning

ZHANG Fen1,2, QU Wei-guang1,2, ZHAO Hong-yan1,2, ZHOU Jun-sheng1,2   

  1. 1.School of Computer Science and Technology,Nanjing Normal University,Nanjing Jiangsu 210046,China;
    2.The Research Center of Information Security and Confidentiality Technology of Jiangsu Province,Nanjing Jiangsu 210097,China
  • Received:2011-05-25 Online:2011-08-20 Published:2018-12-03

摘要: 本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正。实验结果表明,与单独使用CRF结果相比,组块识别的精确率、召回率以及F值均得到了提高。

关键词: 浅层句法分析, CRF, 转换错误驱动学习, 转换规则集

Abstract: This paper proposes a method for shallow parsing on the basis of CRF and transformation-based error-driven learning.The method is applied to Penn Chinese Treebank and gets a good performance of chunking identification.First,CRF model is used to identify chunks to acquire candidate transformation rules by error-driven learning.Then,an evaluationfunction is used to filter candidate transformation rules.And last,transformation rules are used to revise the chunking results of CRF.The experimental results show that this approach is effective,and outperforms the single CRF-based approachin shallow parsing.Precision,recall and F-values are improved respectively.

Key words: shallow parsing, CRF, transformation-based error-driven learning, transformation rules

中图分类号: 

  • TP391.1
[1] KUDOH T,MATSUMOTO Y.Chunking with support vector machines[C]//Proceedings of the Second Meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2001:1-8.
[2] 孙广路,王晓龙,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报,2008,36(12):2450-2453.
[3] 黄德根,于静.分布式策略与CRFs相结合识别汉语组块[J].中文信息学报,2009,23(1):16-22.
[4] LAFFERTY J D,McCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco,CA:Morgan Kaufmann Publishers Inc,2001:282-289.
[5] STEVEN A.Partial parsing via finite-state cascades[J].Natural LanguageEngineering,1996,2(4):337-344.
[6] SANG E F T K,BUCHHOLZ S.Introduction to the CoNLL-2000 shared task:chunking[C]//Proceedings of the 2nd Workshop on Learning Language in Logicand the 4th Conference on Computational Natural Language Learning:vol 7.Stroudsburg,PA:Association for Computational Linguistics,2000:127-132.
[7] BRILL E.Transformation-based error-driven learning and naturallanguage processing:a case study in part-of-speech tagging[J].ComputationalLinguistics,1995,21(4):543-565.
[8] SANG E F T K,VEENSTRA J.Representing text chunks[C]//Proceedingsof the Ninth Conference on European Chapter of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,1999:173-179.
[9] RULAND T.A context-sensitive model for probabilistic LR parsingof spoken language with transformation-based post processing[C]//Proceedingsof the 18th International Conference on Computational Linguistics:vol 2.Stroudsburg,PA:Association for Computational Linguistics,2000:677-683.
[1] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[2] 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41.
[3] 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156.
[4] 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31.
[5] 郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益. 汉语-印尼语平行语料自动对齐方法研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 89-97.
[6] 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150.
[7] 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156.
[8] 周鑫, 郝志峰, 蔡瑞初, 温雯. 带噪声的文本聚类及其在反垃圾邮件中的应用[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 156-160.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发