|
广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (3): 147-150.
张芬1,2, 曲维光1,2,3, 赵红艳1,2, 周俊生1,2
ZHANG Fen1,2, QU Wei-guang1,2, ZHAO Hong-yan1,2, ZHOU Jun-sheng1,2
摘要: 本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正。实验结果表明,与单独使用CRF结果相比,组块识别的精确率、召回率以及F值均得到了提高。
中图分类号:
[1] KUDOH T,MATSUMOTO Y.Chunking with support vector machines[C]//Proceedings of the Second Meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2001:1-8. [2] 孙广路,王晓龙,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报,2008,36(12):2450-2453. [3] 黄德根,于静.分布式策略与CRFs相结合识别汉语组块[J].中文信息学报,2009,23(1):16-22. [4] LAFFERTY J D,McCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco,CA:Morgan Kaufmann Publishers Inc,2001:282-289. [5] STEVEN A.Partial parsing via finite-state cascades[J].Natural LanguageEngineering,1996,2(4):337-344. [6] SANG E F T K,BUCHHOLZ S.Introduction to the CoNLL-2000 shared task:chunking[C]//Proceedings of the 2nd Workshop on Learning Language in Logicand the 4th Conference on Computational Natural Language Learning:vol 7.Stroudsburg,PA:Association for Computational Linguistics,2000:127-132. [7] BRILL E.Transformation-based error-driven learning and naturallanguage processing:a case study in part-of-speech tagging[J].ComputationalLinguistics,1995,21(4):543-565. [8] SANG E F T K,VEENSTRA J.Representing text chunks[C]//Proceedingsof the Ninth Conference on European Chapter of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,1999:173-179. [9] RULAND T.A context-sensitive model for probabilistic LR parsingof spoken language with transformation-based post processing[C]//Proceedingsof the 18th International Conference on Computational Linguistics:vol 2.Stroudsburg,PA:Association for Computational Linguistics,2000:677-683. |
[1] | 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60. |
[2] | 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41. |
[3] | 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156. |
[4] | 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31. |
[5] | 郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益. 汉语-印尼语平行语料自动对齐方法研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 89-97. |
[6] | 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150. |
[7] | 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156. |
[8] | 周鑫, 郝志峰, 蔡瑞初, 温雯. 带噪声的文本聚类及其在反垃圾邮件中的应用[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 156-160. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |