广西师范大学学报(自然科学版) ›› 2019, Vol. 37 ›› Issue (2): 75-81.doi: 10.16088/j.issn.1001-6600.2019.02.009

• • 上一篇    下一篇

基于提升度的KNN分类子的分类原则改良模型

吴昊1*, 秦立春2, 罗柳容2   

  1. 1.广西师范大学计算机科学与信息工程学院,广西桂林541004;
    2.柳州铁道职业技术学院,广西柳州545616
  • 收稿日期:2018-11-02 出版日期:2019-04-25 发布日期:2019-04-28
  • 通讯作者: 吴昊(1963—),女,江苏扬州人,广西师范大学访问学者,柳州铁道职业技术学院教授。E-mail: lywh88@126.com
  • 基金资助:
    国家自然科学基金(61672177)

Improving Classification Rule with Lift Measure for KNN Classifier

WU Hao1*, QIN Lichun2, LUO Liurong2   

  1. 1.College of Computer Science and Information Technology, Guangxi Normal University, Guilin Guangxi 541004, China;
    2.Liuzhou Railway Vocational Technology College, Liuzhou Guangxi 545616, China
  • Received:2018-11-02 Online:2019-04-25 Published:2019-04-28

摘要: 针对非均匀类数据,本文提出K最近邻分类子的一个分类原则改良方法,能够度量待分类数据的K个近邻点中的类比率提升量,增大了最小类数据的竞争力,明显地提高了小类数据的分类正确率。实验结果表明,本文提出的改良分类原则对非均匀数据分类的准确率明显高于传统的KNN分类算法。

关键词: 分类, KNN分类算法, 非均匀数据, 提升度

Abstract: A KNN classifier is presented for classifying imbalanced data. A gain model is constructed for measuring the lift of probability of a class label. The competition of minority class is well enhanced in imbalanced-class dataset. And the accurate rate of classifying minor-class data is significantly improved. The experimental results show that in the setting of imbalanced-class datasets, the proposed approach has significantly improved the classification accuracy, compared with the existing KNN classifiers.

Key words: classification, KNN algorithm, imbalanced data, lift

中图分类号: 

  • TP181
[1] ZHU Xiaofeng,XIE Qing,ZHU Yonghua,et al.Multi-view multi-sparsity kernel reconstruction for multi-class image classification[J].Neurocomputing,2015,169:43-49.DOI:10.1016/ j.neucom.2014.08.106.
[2] WU Xindong,KUMAR V,QUINLAN J R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008,14(1):1-37.DOI:10.1007/s10115-007-0114-2.
[3] DENG Zhenyun,ZHU Xiaoshu,CHENG Debo,et al.Efficient kNN classification algorithm for big data[J].Neurocomputing,2016,195:143-148.DOI:10.1016/j.neucom.2015.08.112.
[4] ZHANG Shichao.KNN-CF approach: incorporating certainty factor to kNN classification[J]. IEEE Intelligent Informatics Bulletin,2010,11(1):24-33.
[5] 张师超.KDD全过程利用缺失数据的模型与方法[R/OL].北京:中国科学院数学与系统科学研究院数学研究所,2017[2018-11-02].http://www.math.ac.cn/xshd/xsbg/201712/t20171220_391373. html.
[6] ZHANG Shichao,LI Xuelong,ZONG Ming,et al.Learning k for kNN classification[J].ACM Transactions on Intelligent Systems and Technology,2017,8(3):43.DOI:10.1145/2990508.
[7] ZHU Xiaofeng,ZHANG Shichao,JIN Zhi,et al.Missing value estimation for mixed-attribute datasets[J].IEEE Transactions on Knowledge and Data Engineering,2011,23(1):110-121.DOI: 10.1109/TKDE.2010.99.
[8] ZHU Xiaofeng,LI Xuelong,ZHANG Shichao.Block-row sparse multiview multilabel learning for image classification[J].IEEE Transactions on Cybernetics,2016,46(2):450-461.DOI: 10.1109/TCYB.2015.2403356.
[9] ZHU Xiaofeng,LI Xuelong,ZHANG Shichao,et al.Graph PCA hashing for similarity search[J]. IEEE Transactions on Multimedia,2017,19(9):2033-2044.DOI:10.1109/TMM.2017.2703636.
[10] ZHU Xiaofeng,LI Xuelong,ZHANG Shichao,et al.Robust joint graph sparse coding for unsupervised spectral feature selection[J].IEEE Transactions on Neural Networks and Learning Systems,2017,28(6):1263-1275.DOI:10.1109/TNNLS.2016.2521602.
[11] ZHU Xiaofeng,ZHANG Shichao,HU Rongyao,et al.One-step multi-view spectral clustering[J]. IEEE Transactions on Knowledge and Data Engineering,2018.DOI:10.1109/TKDE.2018.2873378.
[12] COVER T,HART P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.DOI:10.1109/TIT.1967.1053964.
[13] ZHANG Shichao.Nearest neighbor selection for iteratively kNN imputation[J].Journal of Systems and Software,2012,85(11):2541-2552.DOI:10.1016/j.jss.2012.05.073.
[14] 吴昊.最近邻分类的改良模型[J].广西大学学报(自然科学版),2012,37(6):1261-1266.DOI: 10.13624/j.cnki.issn.1001-7445.2012.06.022.
[15] 吴昊,唐振军.加权壳近邻填充数学模型[J].华南师范大学学报(自然科学版),2013,45(3):45-48.
[16] DUA D,EFI K T.UCI machine learning repository[DS/OL].Irvine,CA:University of California, School of Information and Computer Science,2017[2018-11-02].http://archive.ics.uci.edu /ml.
[1] 王俊杰, 温雪岩, 徐克生, 于鸣. 基于局部敏感哈希的改进堆叠算法[J]. 广西师范大学学报(自然科学版), 2020, 38(4): 21-31.
[2] 陈会明, 蒋玄空, 杨自忠. 中国大疣蛛属Macrothele两新种记述(蜘蛛目:大疣蛛科)[J]. 广西师范大学学报(自然科学版), 2020, 38(1): 114-119.
[3] 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49.
[4] 聂煜, 廖祥文, 魏晶晶, 杨定达, 陈国龙. 基于深度自动编码器的多标签分类研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 71-79.
[5] 张灿龙, 苏建才, 李志欣, 王智文. 基于AdaBoost置信图的红外与可见光目标跟踪[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 42-50.
[6] 俞春强, 邓方舟, 张显全, 唐振军, 陈艳, 何南. 一种基于多预测值分类的可逆信息隐藏算法[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 24-32.
[7] 胡郁葱, 陈杰, 邹小健, 陈枝伟. 基于两阶段聚类的电动自行车出行者选择研究[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 22-29.
[8] 周伟, 孙超, 周海涛. 中国澜沧江2种墨头鱼分类地位考证[J]. 广西师范大学学报(自然科学版), 2017, 35(2): 117-125.
[9] 张芳. 艾比湖地区生态景观格局空间演变分析[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 156-164.
[10] 刘艳红, 罗晓曙, 陈锦, 郭磊. 宫颈细胞图像的特征提取与识别研究[J]. 广西师范大学学报(自然科学版), 2016, 34(2): 61-66.
[11] 李明会, 周伟, 袁静, 其米, 李奇生. 红河水系2种盆唇鱼的分类地位研究[J]. 广西师范大学学报(自然科学版), 2016, 34(2): 128-134.
[12] 梁士楚, 田华丽, 田丰, 夏艺, 覃盈盈. 漓江湿地植被类型及其分布特点[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 115-119.
[13] 杨文, 李文敬, 李双, 李书举, 林中明. 基于GEP的流数据分类压缩并行算法研究[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 87-93.
[14] 王峰, 靳小波, 于俊伟, 王贵财. V-最优直方图及其在车牌分类中的应用研究[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 138-143.
[15] 秦林婵, 钟宁, 吕胜富, 栗觅. Web信息诉求与用户任务交互的眼动模式发现[J]. 广西师范大学学报(自然科学版), 2012, 30(4): 30-35.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发