|
广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 157-160.
熊超1, 王明文1, 吴福英2, 吴世勇1, 沈阳3
XIONG Chao1, WANG Ming-wen1, WU Fu-ying2, WU Shi-yong1, SHEN Yang2
摘要: 当今互联网上语言呈现多样性趋势,如何组织这些多语言的资源成为研究的热点。通过对双语平行语料库提取语义对应关系,构建潜在语义对偶空间,把双语文档映射到此概念空间后,实现跨语言分类。并通过改变训练集样本大小及语言构成来验证模型的分类性能。实验结果表明基于潜在语义对偶空间的跨语言文本分类具有良好的稳定性和准确度。
中图分类号:
[1] 王灏,黄厚宽,田盛丰.文本分类实现技术[J].广西师范大学学报:自然科学版,2003,21(1):173-179. [2] 王昊鹏,王卫东,李森.基于元数据的科技论文分类方法[J].山东师范大学学报:自然科学版,2008,23(3):41-43. [3] 倪茂树,时达明,林鸿飞.基于粗糙集属性约简的文本分类[J].郑州大学学报:理学版,2007,39(2):100-103. [4] 张启蕊,董守斌,张凌.文本分类的性能评估指标[J].广西师范大学学报:自然科学版,2007,25(2):119-122. [5] KAZUAKI K.Technical issues of cross-language information retrieval:a review[J].Information Processing and Management,2005,41:433-455. [6] LI Kar-wing.A Corpus-based approach for cross-lingual information retrieval[D].Hong Kong:Department of Systems Engineering and Engineering Mangement,The Chinese University of Hong Kong,2004. [7] 杨丽.国外跨语言信息检索的技术研究综述[J].情报杂志,2008,27(7):37-40. [8] 金千里,赵军,徐波.弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[C]//语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集.哈尔滨:中国中文信息学会,2003:527-533. [9] BI Wen-xia,WANG Ming-wen,LUO Yuan-sheng,el at.A new cross language text categorization based on interlingua semantic[J].Journal of Computational Information Systems,2008,4(1):105-110. [10] WANG Ming-wen,YE Hao,HUANG Guo-bin,et al.A cross language retrieval model based on interlingua semantics[J].Journal of Computational Information Systems,2007,3(4):1555-1560. |
[1] | 郝雅茹, 董力, 许可, 李先贤. 预训练语言模型的可解释性研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 59-71. |
[2] | 晁睿, 张坤丽, 王佳佳, 胡斌, 张维聪, 韩英杰, 昝红英. 中文多模态知识库构建[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 31-39. |
[3] | 李正光, 陈恒, 林鸿飞. 基于双向语言模型的社交媒体药物不良反应识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 40-48. |
[4] | 周圣凯, 富丽贞, 宋文爱. 基于深度学习的短文本语义相似度计算模型[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 49-56. |
[5] | 孙岩松, 杨亮, 林鸿飞. 基于多粒度的分词消歧和语义增强的情景剧幽默识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 57-65. |
[6] | 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60. |
[7] | 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41. |
[8] | 张芬, 曲维光, 赵红艳, 周俊生. 基于CRF和转换错误驱动学习的浅层句法分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 147-150. |
[9] | 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156. |
[10] | 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150. |
[11] | 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156. |
[12] | 程显毅, 朱倩, 韩飞. 基于HNC和描述逻辑的问句语义块分析[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 131-134. |
[13] | 夏佞, 林鸿飞, 杨志豪, 李彦鹏. 基于扩展语义特征机器学习消歧的基因提及标准化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 144-147. |
[14] | 陈羽中, 李峰, 毛先领, 何靖, 闫宏飞. 文献检索与基于影响的摘要系统设计与实现[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 135-138. |
[15] | 魏莉, 谭红叶, 郑家恒, 孙健. 汉语句法树库一致性检验方法研究[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 139-142. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |