广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 82-86.

• • 上一篇    下一篇

基于MR的并行决策树分类算法的设计与实现

朱敏, 万剑怡, 王明文   

  1. 江西师范大学计算机信息工程学院,江西南昌330022
  • 收稿日期:2010-12-14 发布日期:2018-11-16
  • 通讯作者: 万剑怡(1974—),女,江西进贡人,江西师范大学教授,硕导。E-mail: wanjianyi@yahoo.com.cn
  • 基金资助:
    国家自然科学基金资助项目(60963014);江西省自然科学基金项目(2008GZS0052)

Design and Implementation of Parallel Decision Tree ClassificationBased on MapReduce

ZHU Min, WAN Jian-yi, WANG Ming-wen   

  1. College of Computer Information and Engineering,Jiangxi NormalUniversity,Nanchang Jiangxi 330022,China
  • Received:2010-12-14 Published:2018-11-16

摘要: 决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响。本文设计和实现一种基于MapReduce架构的并行决策树分类算法。实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能。

关键词: MapReduce, 决策树分类, SPRINT

Abstract: Decision tree classification is an effective classification method in data mining,but its performance is severely affected by large dataset.This paper addresses the design and implementation of a parallel decisiontree classification algorithm based on MapReduce programming model.Experiment results show that this implementation works better than implementation based on other parallel programming models while running on more nodes.

Key words: MapReduce, decision tree classification, SPRINT

中图分类号: 

  • TP181
[1] SHAFER J,AGRAWAL R,MEHTA M.SPRINT:a scalable parallel classifier for data mining[C]//Processing of the 22th International Conference on VLDB,Bombay,India.San Frasisco:Morgan Kaufmann Publishers,1996:544-555.
[2] 魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39-41.
[3] 郭玉滨.一种基于离散度的决策树改进算法[J].山东师范大学学报:自然科学版,2006,21(3):129-131.
[4] 王鄂,李铭.云计算环境下的海量数据挖掘研究[J].现代计算机,2009(319):22-26.
[5] WAN Jian-yi,LI Xiao-ying.Approach of generating parallel programs from parallelized algorithm design strategies[J].The Journal of China Universities of Posts and Telecommunications,2008,15(3):128-132.
[6] DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[7] AGRAWAL R,IMIELINSKI T,SWAI A.Database mining:a performance perspective[J].IEEE Transaction on Kn-owledge and Data Engineering,1993,5(6):914-925.
[1] 白捷, 高海力, 王永众, 杨来邦, 项晓航, 楼雄伟. 基于多路特征融合的Faster R-CNN与迁移学习的学生课堂行为检测[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 1-11.
[2] 吴昊, 秦立春, 罗柳容. 基于提升度的KNN分类子的分类原则改良模型[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 75-81.
[3] 林越, 刘廷章, 王哲河. 具有两类上限条件的虚拟样本生成数量优化[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 142-148.
[4] 郑威,文国秋,何威,胡荣耀,赵树之. 属性自表达的低秩无监督属性选择算法[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 61-69.
[5] 宗鸣, 龚永红, 文国秋, 程德波, 朱永华. 基于稀疏学习的kNN分类[J]. 广西师范大学学报(自然科学版), 2016, 34(3): 39-45.
[6] 苏毅娟, 孙可, 邓振云, 尹科军. 基于LPP和l2,1的KNN填充算法[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 55-62.
[7] 雷霖, 罗小勇. 一种新的量子进化算法实数编码方式及应用[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 23-27.
[8] 刘海峰, 续欣莹, 申雪芬, 谢王君. 基于限制邻域关系的不完备混合决策系统属性约简[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 30-36.
[9] 申雪芬, 谢王君, 刘海峰, 续欣莹. 一种改进的基于相对正域的增量式属性约简算法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 45-50.
[10] 胡卉颖, 钟智, 元昌安, 陆建波, 袁晖. 基于基因表达式编程的粗糙集属性约简研究[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 23-28.
[11] 陆广泉, 谢扬才, 刘星, 张师超. 一种基于KNN的半监督分类改进算法[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 45-49.
[12] 高俊芬, 胡维平. 基于非线性动力学和GMM的病态嗓音识别与研究[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 5-8.
[13] 徐丽, 丁世飞, 郭锋锋. 基于改进属性约简的粗核聚类算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 105-109.
[14] 黄霜明, 谢丽聪. 协同训练半监督学习二次伪迭代算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 110-114.
[15] 丁磊, 王浩, 方宝富, 张权益. 基于Fast Marching方法的多机器人追捕算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 115-119.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发