广西师范大学学报(自然科学版) ›› 2020, Vol. 38 ›› Issue (4): 21-31.doi: 10.16088/j.issn.1001-6600.2020.04.003

• • 上一篇    下一篇

基于局部敏感哈希的改进堆叠算法

王俊杰1, 温雪岩1*, 徐克生2, 于鸣1   

  1. 1.东北林业大学信息与计算机工程学院, 黑龙江哈尔滨150040;
    2.国家林业局哈尔滨林业机械研究所, 黑龙江哈尔滨150086
  • 收稿日期:2019-11-07 发布日期:2020-07-13
  • 通讯作者: 温雪岩(1971—), 男, 黑龙江七台河人, 东北林业大学副教授。E-mail: wenxy2005@nefu.edu.cn
  • 基金资助:
    国家重点研发计划(2016YFD0702105); 中央高校基本科研业务费专项(2572017PZ10)

An Improved Stack Algorithm Based on Local Sensitive Hash

WANG Junjie1, WEN Xueyan1*, XU Kesheng2, YU Ming1   

  1. 1. College of Computer and Engineering, Northeast Forestry University, Harbin Heilongjiang 150040, China;
    2. State Forestry Administration Harbin Forestry Machinery Research Institute, Harbin Heilongjiang 150086, China
  • Received:2019-11-07 Published:2020-07-13

摘要: 堆叠泛化有着与生俱来的高复杂性、“数据泄露”的问题,同时针对不同的数据样本也存在稳定性方面的问题。为此,本文提出的基于敏感哈希的堆叠算法LBDS,利用局部敏感哈希(local sensitive hashing,LSH)算法,首先将训练集和测试集映射到哈希桶,当其中某个桶满时作为开始训练条件,训练出的模型对下一次桶满时的训练数据和测试数据及其邻域进行预测。接着,利用稳定性和信息熵条件对基分类器筛选,生成高层数据。最后,将高层训练预测得到的结果通过混合投票和平均的方法求得最终分类结果。在若干数据集上的验证结果显示,LBDS在Acc和AUC上有平均2%的改进,训练时间复杂度有10%的降低,同时表现出更好的稳定性和更强的泛化能力。

关键词: 堆叠泛化, 局部敏感哈希, 时间复杂度, 稳定性, 元分类器

Abstract: Stack generalization is born with high complexity and data leakage. At the same time, when it faces different data samples, the result is not stable. The LBDS proposed in this paper uses LSH (local sensitive hashing) algorithm to map the training and test set to the hash bucket. When one of the two bucket is full, which will be used as the starting training condition, the trained model predicts the training and test data and their neighborhoods when the other bucket is full. Then the algorithm filters the base classifier by using the stability and information entropy conditions and generates the high-level classifier. Finally, through the mixed voting and average method, the results generated by high-level training prediction are obtained. Experimental results show that LBDS has an average improvement of 2% in ACC and AUC, and a decrease of 10% in training time complexity. Meanwhile, LBDS shows better stability and generalization ability.

Key words: stack generalization, locally sensitive hashing, time complexity, stability, meta classifier

中图分类号: 

  • TP301.6
[1] 徐继伟,杨云.集成学习方法:研究综述[J].云南大学学报(自然科学版),2018,40(6):1082-1092.
[2] ANIFOWOSE F,LABADIN J,ABDULRAHEEM A.Improving the prediction of petroleum reservoir characterization with a stacked generalization ensemble model of support vector machines[J].Applied Soft Computing,2015,26:483-496.DOI:10.1016/j.asoc.2014.10.017.
[3] 袁策书.基于stacking组合的文本情感分类研究[D].武汉:华中师范大学,2017.
[4] XING W L,CHEN X,STEIN J,et al.Temporal predication of dropouts in MOOCs:reaching the low hanging fruit through stacking generalization[J].Computers in Human Behavior,2016,58:119-129.DOI:10.1016/j.chb.2015.12.007.
[5] BHATT S,CAMERON E,FLAXMAN S R,et al.Improved prediction accuracy for disease risk mapping using Gaussian process stacked generalization[J].Journal of the Royal Society Interface,2017,14(134):20170520.DOI:10.1098/rsif.2017.0520.
[6] WOLPERT D H.Stacked generalization[J].Neural Networks,1992,5(2):241-259.DOI:10.1016/S0893-6080(05)80023-1.
[7] TING K M,WITTEN I H.Stacking bagged and dagged models[C]//Proceedings of the Fourteenth International Conference on Machine Learning.San Francisco,CA:Morgan Kaufmann Publishers Inc,1997:367-375.
[8] SILL J,TAKACS G,MACKEY L,et al.Feature-weighted linear stacking[EB/OL].(2009-11-04)[2019-11-07].https://arxiv.org/pdf/0911.0460.pdf.
[9] 吴挡平,张忠林,曹婷婷.基于Stacking策略的稳定性分类器组合模型研究[J].小型微型计算机系统,2019,40(5): 1045-1049.DOI:10.3969/j.issn.1000-1220.2019.05.026.
[10]ARSOV N,PAVLOVSKI M,KOCAREV L.Stacking and stability[EB/OL].(2019-01-26)[2019-11-07].https://arxiv.org/pdf/1901.09134v1.pdf.
[11]WANG S,MINKU L L,YAO X.Resampling-based ensemble methods for online class imbalance learning[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(5):1356-1368.DOI:10.1109/TKDE.2014.2345380.
[12]ANDONI A,INDYK P,LAARHOVEN T,et al.Practical and optimal LSH for angular distance[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems:Vol. 1.Cambridge,MA:MIT Press,2015: 1225-1233.
[13]熊霖,唐万梅.基于异构分类器集成的增量学习算法[J].计算机工程与应用,2020,56(7):155-161.DOI: 10.3778/j.issn.1002-8331.1812-0188.
[14]FLEISS J L.Statistical methods for rates and proportions[M].Hoboken,NJ:John Wiley & Sons Inc,1981.
[15]严佳.稳定的最近邻分类器及其统计性质[D].合肥:中国科学技术大学,2019.
[16]李润华.随机分化结构学习:一种大幅提升贝叶斯分类器的通用方法[D].长春:吉林大学,2018.
[17]ELISSEEFF A,EVGENIOU T,PONTIL M.Stability of randomized learning algorithms[J].Journal of Machine Learning Research,2005,6:55-79.
[18]HANSEN L K,SALAMON P.Neural network ensembles[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1990,12(10):993-1001.DOI:10.1109/34.58871.
[19]PARTRIDGE D,KRZANOWSKI W.Software diversity:practical statistics for its measurement and exploitation[J]. Information and Software Technology,1997,39(10):707-717.DOI:10.1016/S0950-5849(97)00023-2.
[20]BANFIELD R E,HALL L O,BOWYER K W,et al.A new ensemble diversity measure applied to thinning ensembles[C]//Multiple Classifier Systems:Lecture Notes in Computer Science Volume 2709.Berlin:Springer-Verlag,2003:306-316. DOI:10.1007/3-540-44938-8_31.
[21]SHIPP C, AKUNCHEVA L I.Relationships between combination methods and measures of diversity in combining classifiers[J].Information Fusion,2002,3(2):135-148.DOI:10.1016/S1566-2535(02)00051-9.
[1] 郑涛, 周欣然, 张龙. 三种群捕食-竞争-合作混杂模型的全局渐近稳定性[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 64-70.
[2] 罗兰, 周楠, 司杰. 不确定细胞神经网络鲁棒稳定新的时滞划分法[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 45-52.
[3] 洪玲玲,杨启贵. 新四维超混沌系统的复杂动力学研究[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 96-105.
[4] 吴娟,朱宏阳,梅平,陈武,李中宝. 聚甲基丙烯酸甲酯改性纳米SiO2及其Pickering乳液稳定性[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 120-131.
[5] 陈思谕, 邹艳丽, 周建, 谭华珍. 电网发电机功率分配及电网负载不均衡发展研究[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 52-59.
[6] 韩会庆, 蔡广鹏, 尹昌应, 马庚, 张英佳, 陆艺. 2000年和2015年乌江中上游景观稳定性变化研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 197-204.
[7] 苗新艳, 张龙, 罗颜涛, 潘丽君. 一类交替变化的竞争—合作混杂种群模型研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 25-31.
[8] 黄开娇, 肖飞雁. 具有Beddington-DeAngelis型功能性反应的随机捕食—被捕食系统[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 32-40.
[9] 梅春草,韦笃取*,罗晓曙. 分布式发电系统中感性负载的稳定性研究[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 50-55.
[10] 冯金明,李遵先. 一类具扩散的传染病模型的稳定性分析[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 63-68.
[11] 陈春燕, 许志鹏, 邝华. 连续记忆效应的交通流跟驰建模与稳定性分析[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 14-21.
[12] 邢伟, 高晋芳, 颜七笙, 周其华. 具有非线性传染率及脉冲免疫接种的SIQR传染病模型[J]. 广西师范大学学报(自然科学版), 2017, 35(2): 58-65.
[13] 傅杰,邹艳丽,谢蓉. 簇网络的同步及稳定性研究[J]. 广西师范大学学报(自然科学版), 2017, 35(1): 7-15.
[14] 张成刚, 方志刚, 赵振宁, 王茂鑫, 刘继鹏, 徐诗浩, 韩建铭. 团簇CoFe2B2稳定性的密度泛涵理论研究[J]. 广西师范大学学报(自然科学版), 2016, 34(3): 86-94.
[15] 杨光惠, 向淑文. 广义极大元的通有稳定性[J]. 广西师范大学学报(自然科学版), 2013, 31(1): 54-56.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 徐诗浩, 方志刚, 韩建铭, 赵振宁, 陈林, 刘琪. 团簇V3B2成键及磁学性质研究[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 89 -96 .
[2] 许伦辉, 刘景柠, 朱群强, 王晴, 谢岩, 索圣超. 自动引导车路径偏差的控制研究[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 1 -6 .
[3] 邝先验, 吴赟, 曹韦华, 吴银凤. 城市混合非机动车流的元胞自动机仿真模型[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 7 -14 .
[4] 肖瑞杰, 刘野, 修晓明, 孔令江. 耦合腔光机械系统中两个机械振子的态交换[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 15 -19 .
[5] 黄慧琼, 覃运梅. 考虑驾驶员性格特性的超车模型研究[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 20 -26 .
[6] 袁乐平, 孙瑞山. 飞行冲突调配概率安全评估方法研究[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 27 -31 .
[7] 杨盼盼, 祝龙记, 操孟杰. 基于STM32的TSC型无功补偿控制系统的研究[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 32 -37 .
[8] 章美月. 关于电子束聚焦系统模型的一些新结果[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 38 -44 .
[9] 侯晓东, 蔡斌斌, 金炜东, 段旺旺. 基于证据距离和模糊熵的加权证据融合新方法[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 45 -51 .
[10] 岳才杰, 陈元琰, 朱新华. 一种有效的传感器网络区域查询算法[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 52 -58 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发