|
广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 123-128.
廖海波1, 万中英2, 王明文2
LIAO Hai-bo1, WAN Zhong-ying2, WANG Ming-wen2
摘要: 投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维。投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能有效地寻找最佳的投影方向。将该方法应用于Reuters-21578文档集和复旦文档集,实验结果表明此方法不仅能有效解决文本分类中难数灾难问题,而且得到了很好的分类性能。
中图分类号:
[1] 谢科,张辉,陈鹏,等.文本分类系统关键技术[J].广西师范大学学报:自然科学版,2007,25(2):123-126. [2] SEBASTIANI F.Machine learning in automated text categorization[J].ACMComputing Surveys,2002,34(1):1-47. [3] 成平,李国英,陈忠琏,等.投影寻踪讲义[M].北京:中国科学院系统科学所,1986:21-38. [4] EUN-KYUNG L,DIANNE C,SIGBERT K,et al.Projection pursuit for exploratory supervised classification[J].Journal of Computational and Graphical Statistics,2005,14(4):831-846. [5] WAN Zhong-ying,WANG Ming-wen,LIAO Hai-bo.Orthogonal projectionfeature extraction and its application to text classification[J].Journal of Computational Information Systems,2008,4(3):1289-1297. [6] 万中英,王明文,廖海波,等.维数约简在文本分类中的应用[C]//第一届全国信息检索与内容安全学术会议论文集.上海:[出版者不详],2004:212-220. [7] 万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. [8] 郑立平,郝忠孝.遗传算法理论综述[J].计算机工程与应用,2003,39(21):50-53. [9] 倪长健,丁晶,李祚泳.免疫进化算法[J].西南交通大学学报,2003,38(1):87-91. [10] 舒栋才,樊明兰,林三益.免疫进化算法在水位流量关系拟合中的作用[J].东北水利水电,2004,22(4):1-8. [11] 倪长健.免疫进化算法研究及其在水问题中的应用[D].成都:四川大学水电学院,2003:74-76. |
[1] | 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49. |
[2] | 何泉昊, 樊兴华, 周鹏. 基于两步策略的文本分类方法实验研究[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 35-38. |
[3] | 袁鼎荣, 谢扬才, 陆广泉, 刘星. 一种新的基于软集合理论的文本分类方法[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 129-132. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |