广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 123-128.

• • 上一篇    下一篇

免疫进化的投影寻踪模型在文本分类中的应用

廖海波1, 万中英2, 王明文2   

  1. 1.江西师范大学科学技术学院,江西南昌330027;
    2.江西师范大学计算机信息工程学院,江西南昌330022
  • 收稿日期:2010-12-14 发布日期:2018-11-16
  • 通讯作者: 廖海波(1977—),男,江西南昌人,江西师范大学讲师。E-mail: haiboy@jxnu.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(60963014);江西省自然科学基金资助项目(2008GZS0052);江西省教育厅青年科学基金资助项目(GJJ11067,GJJ10089)

Projection Pursuit Model of Immune Evolution and Its ApplicationtoText Classification

LIAO Hai-bo1, WAN Zhong-ying2, WANG Ming-wen2   

  1. 1.College of Science and Technology,Jiangxi Normal University,Nanchang Jiangxi 330027,China;
    2.College of Computer Information Engineering,Jiangxi Normal University,Nanchang Jiangxi 330022,China
  • Received:2010-12-14 Published:2018-11-16

摘要: 投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维。投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能有效地寻找最佳的投影方向。将该方法应用于Reuters-21578文档集和复旦文档集,实验结果表明此方法不仅能有效解决文本分类中难数灾难问题,而且得到了很好的分类性能。

关键词: 免疫进化算法, 投影寻踪, 投影方向, 文本分类

Abstract: Projection pursuit is used to find the projection direction which reflect the intrinsic structure and features of the originaldata.So the high dimensional data can be studied and analyzed through lower dimensional space.For the curse of dimensionality in text classification,the multi-dimensional data is turned into low-dimensional space by using projection pursuitmodel.The nature of the problem is that it is difficult to determine thedirection of projection pursuit and the calculation is not easy,especially whenthe projection direction has more indicators.This paper proposed the projection pursuit model using immune evolution algorithm,which can effectively solve theoptimization problem of the projection direction.In the experiment,it's appliedto text classification including the Reuters-21578 document sets and FuDan documentsets.The experimental results show that this method can not only solve the curseof dimensionality in text classification,but also obtain a satisfactory classification results.

Key words: immune evolution algorithm, projection pursuit, projection direction, text classification

中图分类号: 

  • TP391
[1] 谢科,张辉,陈鹏,等.文本分类系统关键技术[J].广西师范大学学报:自然科学版,2007,25(2):123-126.
[2] SEBASTIANI F.Machine learning in automated text categorization[J].ACMComputing Surveys,2002,34(1):1-47.
[3] 成平,李国英,陈忠琏,等.投影寻踪讲义[M].北京:中国科学院系统科学所,1986:21-38.
[4] EUN-KYUNG L,DIANNE C,SIGBERT K,et al.Projection pursuit for exploratory supervised classification[J].Journal of Computational and Graphical Statistics,2005,14(4):831-846.
[5] WAN Zhong-ying,WANG Ming-wen,LIAO Hai-bo.Orthogonal projectionfeature extraction and its application to text classification[J].Journal of Computational Information Systems,2008,4(3):1289-1297.
[6] 万中英,王明文,廖海波,等.维数约简在文本分类中的应用[C]//第一届全国信息检索与内容安全学术会议论文集.上海:[出版者不详],2004:212-220.
[7] 万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67.
[8] 郑立平,郝忠孝.遗传算法理论综述[J].计算机工程与应用,2003,39(21):50-53.
[9] 倪长健,丁晶,李祚泳.免疫进化算法[J].西南交通大学学报,2003,38(1):87-91.
[10] 舒栋才,樊明兰,林三益.免疫进化算法在水位流量关系拟合中的作用[J].东北水利水电,2004,22(4):1-8.
[11] 倪长健.免疫进化算法研究及其在水问题中的应用[D].成都:四川大学水电学院,2003:74-76.
[1] 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49.
[2] 何泉昊, 樊兴华, 周鹏. 基于两步策略的文本分类方法实验研究[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 35-38.
[3] 袁鼎荣, 谢扬才, 陆广泉, 刘星. 一种新的基于软集合理论的文本分类方法[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 129-132.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发