广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 157-160.

• • 上一篇    下一篇

基于潜在语义对偶空间的跨语言文本分类研究

熊超1, 王明文1, 吴福英2, 吴世勇1, 沈阳3   

  1. 1.江西师范大学计算机信息工程学院,江西南昌 330022;
    2.江西师范大学软件学院,江西南昌 330022;
    3.江西微软技术中心,江西南昌 330096
  • 收稿日期:2009-12-20 出版日期:2010-03-20 发布日期:2023-02-07
  • 通讯作者: 王明文(1964—),男,江西南康人,江西师范大学教授,博士生导师。E-mail:mwwang@jxnu.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(60963014);江西师范大学青年成长基金资助项目(2701)

Cross-language Text Classification Based on Latent Semantic DualSpace

XIONG Chao1, WANG Ming-wen1, WU Fu-ying2, WU Shi-yong1, SHEN Yang2   

  1. 1. School of Computer Information Engineering,Jiangxi Normal University,Nanchang Jiangxi 330022,China;
    2. School of Software,Jiangxi Normal University,Nanchang Jiangxi 330022,China;
    3. Jiangxi Microsoft Technology Center,Nanchang Jiangxi 330096,China
  • Received:2009-12-20 Online:2010-03-20 Published:2023-02-07

摘要: 当今互联网上语言呈现多样性趋势,如何组织这些多语言的资源成为研究的热点。通过对双语平行语料库提取语义对应关系,构建潜在语义对偶空间,把双语文档映射到此概念空间后,实现跨语言分类。并通过改变训练集样本大小及语言构成来验证模型的分类性能。实验结果表明基于潜在语义对偶空间的跨语言文本分类具有良好的稳定性和准确度。

关键词: 跨语言分类, 潜在语义对偶空间, 潜在语义对, 平行语料库

Abstract: Nowadays,with the trend of language diversity inthe internet,how to organize multi-language resources becomes a hotspot.This paper focuses on cross language text categorization (CLTC) which can organize heterogeneous document collections.Using the semantics pairs extracted from parallel.The latent semantic dual space can be built by using the semantics pairs extracted from parallel corpus.In the experiment,through changing the trainingsize and language composition the performance of CLTC can be verified.Results show that cross-language text classification based on latent semantic dual space makes a good performance in stability and accuracy.

Key words: CLTC, latent semantic dual space, semantic pairs, parallel corpus

中图分类号: 

  • TP391.1
[1] 王灏,黄厚宽,田盛丰.文本分类实现技术[J].广西师范大学学报:自然科学版,2003,21(1):173-179.
[2] 王昊鹏,王卫东,李森.基于元数据的科技论文分类方法[J].山东师范大学学报:自然科学版,2008,23(3):41-43.
[3] 倪茂树,时达明,林鸿飞.基于粗糙集属性约简的文本分类[J].郑州大学学报:理学版,2007,39(2):100-103.
[4] 张启蕊,董守斌,张凌.文本分类的性能评估指标[J].广西师范大学学报:自然科学版,2007,25(2):119-122.
[5] KAZUAKI K.Technical issues of cross-language information retrieval:a review[J].Information Processing and Management,2005,41:433-455.
[6] LI Kar-wing.A Corpus-based approach for cross-lingual information retrieval[D].Hong Kong:Department of Systems Engineering and Engineering Mangement,The Chinese University of Hong Kong,2004.
[7] 杨丽.国外跨语言信息检索的技术研究综述[J].情报杂志,2008,27(7):37-40.
[8] 金千里,赵军,徐波.弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[C]//语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集.哈尔滨:中国中文信息学会,2003:527-533.
[9] BI Wen-xia,WANG Ming-wen,LUO Yuan-sheng,el at.A new cross language text categorization based on interlingua semantic[J].Journal of Computational Information Systems,2008,4(1):105-110.
[10] WANG Ming-wen,YE Hao,HUANG Guo-bin,et al.A cross language retrieval model based on interlingua semantics[J].Journal of Computational Information Systems,2007,3(4):1555-1560.
[1] 郝雅茹, 董力, 许可, 李先贤. 预训练语言模型的可解释性研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 59-71.
[2] 晁睿, 张坤丽, 王佳佳, 胡斌, 张维聪, 韩英杰, 昝红英. 中文多模态知识库构建[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 31-39.
[3] 李正光, 陈恒, 林鸿飞. 基于双向语言模型的社交媒体药物不良反应识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 40-48.
[4] 周圣凯, 富丽贞, 宋文爱. 基于深度学习的短文本语义相似度计算模型[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 49-56.
[5] 孙岩松, 杨亮, 林鸿飞. 基于多粒度的分词消歧和语义增强的情景剧幽默识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 57-65.
[6] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[7] 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41.
[8] 张芬, 曲维光, 赵红艳, 周俊生. 基于CRF和转换错误驱动学习的浅层句法分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 147-150.
[9] 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156.
[10] 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150.
[11] 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156.
[12] 程显毅, 朱倩, 韩飞. 基于HNC和描述逻辑的问句语义块分析[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 131-134.
[13] 夏佞, 林鸿飞, 杨志豪, 李彦鹏. 基于扩展语义特征机器学习消歧的基因提及标准化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 144-147.
[14] 陈羽中, 李峰, 毛先领, 何靖, 闫宏飞. 文献检索与基于影响的摘要系统设计与实现[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 135-138.
[15] 魏莉, 谭红叶, 郑家恒, 孙健. 汉语句法树库一致性检验方法研究[J]. 广西师范大学学报(自然科学版), 2010, 28(1): 139-142.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发