广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 139-142.

• • 上一篇    下一篇

汉语句法树库一致性检验方法研究

魏莉1, 谭红叶1, 郑家恒1, 孙健2   

  1. 1.山西大学计算机与信息技术学院,山西太原 030006;
    2.阿里巴巴集团研发院,北京 130000
  • 收稿日期:2009-12-25 出版日期:2010-03-20 发布日期:2023-02-07
  • 通讯作者: 谭红叶(1971—),女,广西灵山人,山西大学副教授,博士,硕导。E-mail:hytan2006@126.com
  • 基金资助:
    国家自然科学基金资助项目(60775041)

Study of Keeping Consistency of Chinese Corpus of Complete Parsing

WEI Li1, TAN Hong-ye1, ZHENG Jia-heng1, SUN Jian2   

  1. 1. School of Computer and Information Technology,Shanxi University,Taiyuan Shanxi 030006,China;
    2. Ali Group R & D Center,Beijing 130000,China
  • Received:2009-12-25 Online:2010-03-20 Published:2023-02-07

摘要: 为了进一步提高完全句法分析标注的准确率,对人工修正的完全句法分析语料进行剖析,从分词、词性和句法结构三个层面检验一致性,总结标注结果不一致的类型,并提出基于分层的自动发现不一致现象的方法及相应的消解策略。实验表明,利用该方法可使语料库标注的准确率提高2.5%。

关键词: 中文信息处理, 语料库, 完全句法分析, 一致性

Abstract: In order to improve theaccuracy of the corpus of complete parsing,this paper analyzes the corpus which was amended by people and summarizes the reason leading to the annotation inconsistency.Moreover,some strategies to eliminate inconsistencies and explored disambiguation type are proposed from various hierarchies such as the word segmentation,Pos tagging,and parsing structure.Experiments show that the method described in this article can improve the accuracy of corpus annotation by 2.5%.

Key words: chinese information processing, corpus, complete parsing, consistency

中图分类号: 

  • TP391.1
[1] 刘博,郑家恒,张虎.规则与统计相结合的分词一致性检验[J].计算机工程与设计,2008,29(7):1814-1816.
[2] 张虎,郑家恒.基于分类的汉语语料库词性标注一致性检查[J].计算机工程,2008,34(8):90-92.
[3] 杨思春,陈家骏.汉语自动句法分析中结构歧义分析与研究[J].昆明理工大学学报:理工版,2005,30(2):45-49.
[4] 冯志伟.论歧义结构的潜在性[J].中文信息学报,1995,9(4):14-32.
[5] ZHANG Min,SU Jian,WANG Dan-mei,et al.Discovering relations between named entities from a large raw corpus using tree similarity-based clustering[C]//DALER.Proceedings of the 2nd International Joint Conference on Natural Language Processing.Berlin:Springer-Verlag,2005:378-389.
[6] 王慧.机器翻译中基于语法、语义知识库的汉语词义消歧研究[J].广西师范大学学报:自然科学版,2003,21(1):86-93.
[7] TANG Min,LUO Xiao-qiang,ROUKOS S.Active learning for statisticalnatural language parsing[C]//Proceeding of the 40th Annual Meeting of the Association for Computational Linguistics (ACL).Morristown,NJ:Association for Computational Linguistics,2002:120-127.
[1] 付美子, 林炳清. 临床测量中定量数据Bland-Altman一致性评价[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 125-138.
[2] 赵金想, 陈燕雁, 覃章荣, 张超英. 一种基于化学势LBM多相流模型的改进方法[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 87-95.
[3] 郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益. 汉语-印尼语平行语料自动对齐方法研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 89-97.
[4] 呼文军,马忠军,马梅. 领导—跟随多智能体系统在分布式自适应控制下的滞后一致性[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 70-75.
[5] 刘佳丽,王冬翠,莫少锋,李宏周,陈真诚. 慢性吸烟者的脑静息态fMRI局部一致性研究[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 151-155.
[6] 谢光强, 章云, 李杨, 曾启杰. 基于Krause多智能体一致性模型的研究[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 106-113.
[7] 蒙祖强, 许珂, 周石泉. 不完备不一致决策系统的最大分布约简及计算方法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 89-93.
[8] 宋晓欣, 李德权. 复杂多个体系统领导者—跟随一致性研究[J]. 广西师范大学学报(自然科学版), 2010, 28(4): 9-14.
[9] 房璐, 葛运东, 洪宇, 姚建民. 可比较语料库构建及在跨语言信息检索中的应用[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 126-130.
[10] 熊超, 王明文, 吴福英, 吴世勇, 沈阳. 基于潜在语义对偶空间的跨语言文本分类研究[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 157-160.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发