广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 129-132.

• • 上一篇    下一篇

一种新的基于软集合理论的文本分类方法

袁鼎荣1,2, 谢扬才2, 陆广泉2, 刘星2   

  1. 1.北京工业大学计算机学院,北京100124;
    2.广西师范大学计算机科学与信息工程学院,广西桂林541004
  • 收稿日期:2010-12-20 发布日期:2018-11-16
  • 通讯作者: 袁鼎荣(1967—),男,广西全州人,广西师范大学副教授,硕士。E-mail: dryuan@mailbox.gxnu.edu.cn
  • 基金资助:
    国家自然科学基金重大研究计划培育项目(90718020);澳大利亚ARC项目(DP0667060)

A New Text Classification Approach Based on Fuzzy Soft Set Theory

YUAN Ding-rong1,2, XIE Yang-cai2, LU Guang-quan2, LIU Xing2   

  1. 1.College of Computer Science and Technology,Beijing University of Technology,Beijing 100124,China;
    2.College of Computer Science and Information Technology,Guangxi Normal University,Guilin Guangxi 541004,China
  • Received:2010-12-20 Published:2018-11-16

摘要: 文本分类技术是文本信息处理的核心技术之一,主要包括文本的向量模型表示、文本特征选择和分类器训练三大过程。本文提出了一种混合(EIBA+DHChi2)特征选择算法,并将所获取的特征作为软集合理论中的参数集进行文本分类,从而建立了一种新的基于软集合理论的文本分类技术。实验表明查准率与查全率比原有算法都有所提高,说明新的基于软集合理论的文本分类算法是有效的。

关键词: 文本分类, 特征选择, Chi2假设检验, 独立度, 模糊软集合

Abstract: Text classification is one of the key techniques in text information process,which includes how to establish vector model,select feature and train classifier.EIBA and DHCHi2 are integrated to select the features of text and the features are used as parameters in a fuzzy soft set theory.Then a new technique of text classification is established based on a fuzzy softset.Experiments show that the technique is effective,and the ratios of accuracy andrecall are improved comparing with other methods.

Key words: text classification, feature select, Chi2 hapothesis testing, independent degree, fuzzy soft set

中图分类号: 

  • TP391
[1] 冯霞,刘志辉,田继存.基于独立性理论的文本分类特征选择方法[J].计算机工程,2010,36(12):22-27.
[2] 朱颢东,钟勇.基于贝叶斯粗糙集的文本特征选择方法[J].河南师范大学学报:自然科学版,2009,37(4):31-35.
[3] 袁野,封化民.基于Vague集的Web内容安全文本分类[J].广西师范大学学报:自然科学版,2010,28(1):147-152.
[4] 吕小勇,石洪波.基于粗糙集的多标签文本分类算法[J].广西师范大学学报:自然科学版,2009,27(3):150-153.
[5] 黄玉龙,王翰虎,陈梅.基于粗糙集理论的KNN分类[J].广西师范大学学报:自然科学版,2007,25(4):75-79.
[6] 朱颢东,钟勇.结合优化的文档频和PA的特征选择方法[J].计算机应用研究,2010,27(1):36-38.
[7] 洪智勇,秦克云.基于模糊软集合理论的文本分类方法[J].计算机工程,2010,36(13):90-92.
[8] 柴玉梅,朱国重,咎红英.基于质心的文本分类算法[J].计算机工程,2009,35(20):83-85.
[9] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(5):1848-1859.
[1] 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49.
[2] 何泉昊, 樊兴华, 周鹏. 基于两步策略的文本分类方法实验研究[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 35-38.
[3] 廖海波, 万中英, 王明文. 免疫进化的投影寻踪模型在文本分类中的应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 123-128.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发