|
广西师范大学学报(自然科学版) ›› 2020, Vol. 38 ›› Issue (4): 21-31.doi: 10.16088/j.issn.1001-6600.2020.04.003
王俊杰1, 温雪岩1*, 徐克生2, 于鸣1
WANG Junjie1, WEN Xueyan1*, XU Kesheng2, YU Ming1
摘要: 堆叠泛化有着与生俱来的高复杂性、“数据泄露”的问题,同时针对不同的数据样本也存在稳定性方面的问题。为此,本文提出的基于敏感哈希的堆叠算法LBDS,利用局部敏感哈希(local sensitive hashing,LSH)算法,首先将训练集和测试集映射到哈希桶,当其中某个桶满时作为开始训练条件,训练出的模型对下一次桶满时的训练数据和测试数据及其邻域进行预测。接着,利用稳定性和信息熵条件对基分类器筛选,生成高层数据。最后,将高层训练预测得到的结果通过混合投票和平均的方法求得最终分类结果。在若干数据集上的验证结果显示,LBDS在Acc和AUC上有平均2%的改进,训练时间复杂度有10%的降低,同时表现出更好的稳定性和更强的泛化能力。
中图分类号:
[1] 徐继伟,杨云.集成学习方法:研究综述[J].云南大学学报(自然科学版),2018,40(6):1082-1092. [2] ANIFOWOSE F,LABADIN J,ABDULRAHEEM A.Improving the prediction of petroleum reservoir characterization with a stacked generalization ensemble model of support vector machines[J].Applied Soft Computing,2015,26:483-496.DOI:10.1016/j.asoc.2014.10.017. [3] 袁策书.基于stacking组合的文本情感分类研究[D].武汉:华中师范大学,2017. [4] XING W L,CHEN X,STEIN J,et al.Temporal predication of dropouts in MOOCs:reaching the low hanging fruit through stacking generalization[J].Computers in Human Behavior,2016,58:119-129.DOI:10.1016/j.chb.2015.12.007. [5] BHATT S,CAMERON E,FLAXMAN S R,et al.Improved prediction accuracy for disease risk mapping using Gaussian process stacked generalization[J].Journal of the Royal Society Interface,2017,14(134):20170520.DOI:10.1098/rsif.2017.0520. [6] WOLPERT D H.Stacked generalization[J].Neural Networks,1992,5(2):241-259.DOI:10.1016/S0893-6080(05)80023-1. [7] TING K M,WITTEN I H.Stacking bagged and dagged models[C]//Proceedings of the Fourteenth International Conference on Machine Learning.San Francisco,CA:Morgan Kaufmann Publishers Inc,1997:367-375. [8] SILL J,TAKACS G,MACKEY L,et al.Feature-weighted linear stacking[EB/OL].(2009-11-04)[2019-11-07].https://arxiv.org/pdf/0911.0460.pdf. [9] 吴挡平,张忠林,曹婷婷.基于Stacking策略的稳定性分类器组合模型研究[J].小型微型计算机系统,2019,40(5): 1045-1049.DOI:10.3969/j.issn.1000-1220.2019.05.026. [10]ARSOV N,PAVLOVSKI M,KOCAREV L.Stacking and stability[EB/OL].(2019-01-26)[2019-11-07].https://arxiv.org/pdf/1901.09134v1.pdf. [11]WANG S,MINKU L L,YAO X.Resampling-based ensemble methods for online class imbalance learning[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(5):1356-1368.DOI:10.1109/TKDE.2014.2345380. [12]ANDONI A,INDYK P,LAARHOVEN T,et al.Practical and optimal LSH for angular distance[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems:Vol. 1.Cambridge,MA:MIT Press,2015: 1225-1233. [13]熊霖,唐万梅.基于异构分类器集成的增量学习算法[J].计算机工程与应用,2020,56(7):155-161.DOI: 10.3778/j.issn.1002-8331.1812-0188. [14]FLEISS J L.Statistical methods for rates and proportions[M].Hoboken,NJ:John Wiley & Sons Inc,1981. [15]严佳.稳定的最近邻分类器及其统计性质[D].合肥:中国科学技术大学,2019. [16]李润华.随机分化结构学习:一种大幅提升贝叶斯分类器的通用方法[D].长春:吉林大学,2018. [17]ELISSEEFF A,EVGENIOU T,PONTIL M.Stability of randomized learning algorithms[J].Journal of Machine Learning Research,2005,6:55-79. [18]HANSEN L K,SALAMON P.Neural network ensembles[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1990,12(10):993-1001.DOI:10.1109/34.58871. [19]PARTRIDGE D,KRZANOWSKI W.Software diversity:practical statistics for its measurement and exploitation[J]. Information and Software Technology,1997,39(10):707-717.DOI:10.1016/S0950-5849(97)00023-2. [20]BANFIELD R E,HALL L O,BOWYER K W,et al.A new ensemble diversity measure applied to thinning ensembles[C]//Multiple Classifier Systems:Lecture Notes in Computer Science Volume 2709.Berlin:Springer-Verlag,2003:306-316. DOI:10.1007/3-540-44938-8_31. [21]SHIPP C, AKUNCHEVA L I.Relationships between combination methods and measures of diversity in combining classifiers[J].Information Fusion,2002,3(2):135-148.DOI:10.1016/S1566-2535(02)00051-9. |
[1] | 郑涛, 周欣然, 张龙. 三种群捕食-竞争-合作混杂模型的全局渐近稳定性[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 64-70. |
[2] | 罗兰, 周楠, 司杰. 不确定细胞神经网络鲁棒稳定新的时滞划分法[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 45-52. |
[3] | 洪玲玲,杨启贵. 新四维超混沌系统的复杂动力学研究[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 96-105. |
[4] | 吴娟,朱宏阳,梅平,陈武,李中宝. 聚甲基丙烯酸甲酯改性纳米SiO2及其Pickering乳液稳定性[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 120-131. |
[5] | 陈思谕, 邹艳丽, 周建, 谭华珍. 电网发电机功率分配及电网负载不均衡发展研究[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 52-59. |
[6] | 韩会庆, 蔡广鹏, 尹昌应, 马庚, 张英佳, 陆艺. 2000年和2015年乌江中上游景观稳定性变化研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 197-204. |
[7] | 苗新艳, 张龙, 罗颜涛, 潘丽君. 一类交替变化的竞争—合作混杂种群模型研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 25-31. |
[8] | 黄开娇, 肖飞雁. 具有Beddington-DeAngelis型功能性反应的随机捕食—被捕食系统[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 32-40. |
[9] | 梅春草,韦笃取*,罗晓曙. 分布式发电系统中感性负载的稳定性研究[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 50-55. |
[10] | 冯金明,李遵先. 一类具扩散的传染病模型的稳定性分析[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 63-68. |
[11] | 陈春燕, 许志鹏, 邝华. 连续记忆效应的交通流跟驰建模与稳定性分析[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 14-21. |
[12] | 邢伟, 高晋芳, 颜七笙, 周其华. 具有非线性传染率及脉冲免疫接种的SIQR传染病模型[J]. 广西师范大学学报(自然科学版), 2017, 35(2): 58-65. |
[13] | 傅杰,邹艳丽,谢蓉. 簇网络的同步及稳定性研究[J]. 广西师范大学学报(自然科学版), 2017, 35(1): 7-15. |
[14] | 张成刚, 方志刚, 赵振宁, 王茂鑫, 刘继鹏, 徐诗浩, 韩建铭. 团簇CoFe2B2稳定性的密度泛涵理论研究[J]. 广西师范大学学报(自然科学版), 2016, 34(3): 86-94. |
[15] | 杨光惠, 向淑文. 广义极大元的通有稳定性[J]. 广西师范大学学报(自然科学版), 2013, 31(1): 54-56. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |