广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (4): 35-38.

• • 上一篇    下一篇

基于两步策略的文本分类方法实验研究

何泉昊, 樊兴华, 周鹏   

  1. 重庆邮电大学计算机科学与技术研究所,重庆400065
  • 收稿日期:2011-09-25 发布日期:2018-11-16
  • 通讯作者: 樊兴华(1972—),男,重庆人,重庆邮电大学教授,博士。E-mail:fanxinghua@tsinghua.org.cn
  • 基金资助:
    国家自然科学基金资助项目(60703010);重庆市自然科学基金资助项目(2009BB2079)

Text ClassificationBased on Experimental Study of Two-step Strategy

HE Quan-hao, FAN Xing-hua, ZHOU Peng   

  1. Institute of Computer Science and Technology,Chongqing University of Posts and Telecommunications,Chongqing 400065,China
  • Received:2011-09-25 Published:2018-11-16

摘要: 已知朴素贝叶斯分类器使用两步策略的分类方法提高了两类中文文本分类的效率,本文在此基础上,研究3个问题:①可以使用两步策略分类方法的分类器须满足的条件;②3种理论上可用两步策略进行文本分类的分类器;③实验比较Rocchio、朴素贝叶斯、KNN3种分类器两两组合后应用于多类英语文本分类的效果。实验结果表明:Rocchio、朴素贝叶斯、KNN3种分类器满足两步策略分类的条件,且当KNN作第一步分类器,朴素贝叶斯作第二步分类器时分类效果最好。

关键词: 文本分类, 两步策略, Rocchio, 朴素贝叶斯, K近邻

Abstract: Naive Bayesian classifier is known to use two-step classification strategy to improve the efficiency of two types of Chinese text categorization.This paper tries to solve the following three questions:(1) the condition of a classifier to be fulfilled by using two-step strategy text classification,(2) the theoretical analysis of the three classifiers which can be used for two-step strategy text classification,(3) experimental results comparison ofRocchio,Naive Bayes,KNN combination used in many types of English text classification.Experimental results show that the Rocchio,NB and KNN satisfy the conditions of two-step strategy.Best performance is achieved by using KNN as the firststep classifier and NB as the second.

Key words: text categorization, two-step strategy, Rocchio, naiveBayes, KNN

中图分类号: 

  • TP18
[1] SEBASTIANI F.Machine Learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[2] 张玉芳,杨柯,熊忠阳.基于关联规则的中文文本分类算法的改进[J].郑州大学学报:理学版,2007,39(2):114-117.
[3] 樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131.
[4] 樊兴华.因果推理和文本分类[R].北京:清华大学计算机科学与技术系,2004.
[5] RCCHIO J J.Relevance feedback in information retrieval[C]//The SMART Retrieval System Experiments in Automatic Document Processing.Englewood Cliffs,NJ:Prentice Hall,1971:31323.
[6] LEWIS D D.Naive bayes at forty:the independence as-sumption in information retrieval[C]//Proceedings of the 10th European Conference on Maching Learning:LNCS vol 1398.Berlin:Springer,1998:4-15.
[7] 孙丽华,张积东,李静梅.一种改进的KNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27.
[8] 陈建林,樊兴华,王国胤.基于两步策略的英文文本分类[J].广西师范大学学报:自然科学版,2007,25(4):200-203.
[1] 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49.
[2] 廖海波, 万中英, 王明文. 免疫进化的投影寻踪模型在文本分类中的应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 123-128.
[3] 袁鼎荣, 谢扬才, 陆广泉, 刘星. 一种新的基于软集合理论的文本分类方法[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 129-132.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发