广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (3): 113-117.

• • 上一篇    下一篇

基于信息增益和GEP的决策树属性约简算法

王艳1, 元昌安2, 刘富田3   

  1. 1.广西师范学院师园学院,广西南宁530226;
    2.广西师范学院计算机与信息工程学院,广西南宁530023;
    3.南宁市城市应急联动中心,广西南宁530022
  • 收稿日期:2010-04-20 出版日期:2010-09-20 发布日期:2023-02-06
  • 通讯作者: 元昌安(1964—),男,安徽肥东人,广西师范学院教授,博士。E-mai:yca@gxtc.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(60763012);广西自然科学基金资助项目(桂科自0731028);广西高等学校优秀人才资助计划项目(RC2007022);广西研究生教育创新计划项目(2008106030774M04)

Constructing Decision Tree Attribution Reduction Algorithms withGene Expression Programming Based on Information Gain

WANG Yan1, YUAN Chang-an2, LIU Fu-tian3   

  1. 1. College of Shiyuan,Guangxi Teachers Education University,Nanning Guangxi,530023,China;
    2. College of Computer and Information Engineering,Guangxi Teachers Education University, Nanning Guangxi 530023,China;
    3. Nanning City's Emergency Response Centre,Nanning Guangxi 530023,China
  • Received:2010-04-20 Online:2010-09-20 Published:2023-02-06

摘要: 分类是数据挖掘的一个重要研究方向,使用决策树进行分类是一种常用而且高效的分类方法。目前传统的算法有ID3、C4.5、CART等,这些算法都有如下的局限性:必须人工输入归类集合,划分属性,确定最优的分类集合。为了解决这些问题,本文做了如下工作:①提出信息增益排列GEP染色体头部的思想;②给出基于信息增益的GEP构造决策树属性约简算法(IG-GEPDTAR)并用实验进行验证;③实验表明该算法构造的决策树在具有100%准确性的同时,比使用GEP算法构造的决策树减少了冗余分支,其节点数比传统的ID3算法和PID算法构造的决策树的节点数分别减少了82.9%和31.2%。

关键词: GEP, 信息增益, 决策树归纳,

Abstract: Classification is an important sector of Data Mining,and decision tree is one of the efficient classification methods used constantly.Nowadays,thereare several classification algorithms which use decision tree,for instance ID3,C4.5 and CART.But there are some disadvantages to use them,for example,classset must be input manually,attribute must be separated and the best class setis needed.This paper makes the following contributions to avoid these disadvantages:on the one hand,proposing a new concept of using information gain to lineGEP chromosome's head;on the other hand,proposing the algorithms of IG-GEPDTAR (constructing decision tree attribution reduction algorithms with gene expression programming based on information gain) and validate it by using experiment data.The result shows that decision tree constructed by IG-GEPDTAR is absolutely correct and better,it has less redundancies than Candida Ferreira's,has 82.9%less nodes than that of ID3 algorithms,and has 31.2% less nodes than that of Wang Chunnian's.

Key words: GEP (gene expression programming), information gain, decision tree induction, entropy

中图分类号: 

  • TP301.6
[1] HAN Jia-wei,KAMBER M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007:188-199.
[2] 常志玲,周庆敏,杨清莲,等.基于粗糙集理论的决策树构造算法[J].南京工业大学学报:自然科学版,2005,7(4):80-83.
[3] 洪家荣,丁明峰,李星原,等.一种新的决策树归纳学习算法[J].计算机学报,1995,18(6):470-474.
[4] 刘华富,王仲.基于决策树的排序学习算法[J].郑州大学学报:理学版,2007,39(2):153-156.
[5] 郭玉滨.一种基于离散度的决策树改进算法[J].山东师范大学学报:自然科学版,2006,21(3):106-108.
[6] FERREIRA C.Gene expression programming:mathematical modeling byan artificial intelligence[M].Berlin:Springer-Verlag,2006:337-474.
[7] PENG Yu-zong,YUAN Chang-an,WANG yan,et al.SGDE-GEP:a novel algorithm of GEP[C]//International Conference on Computer Science and Software Engineering(CSSE 2008).Wuhan:[s.n.],2008:419-422.
[8] 王晓东.计算机算法设计与分析[M].北京:电子工业出版社,2001:26-28.
[9] 王春年,梁吉业.基于粗糙集与属性值聚类的决策树改进算法[J].计算机工程与应用,2007,43(31):178-181.
[1] 刘东, 周莉, 郑晓亮. 基于SA-DBN的超短期电力负荷预测[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 21-33.
[2] 徐建闽, 韦佳, 首艳芳. 基于博弈论-云模型的城市道路交通运行状态综合评价[J]. 广西师范大学学报(自然科学版), 2020, 38(4): 1-10.
[3] 邹艳丽, 姚飞, 汪洋, 王瑞瑞, 吴凌杰. 基于网络结构和潮流追踪的电网关键节点识别[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 133-141.
[4] 林越, 刘廷章, 王哲河. 具有两类上限条件的虚拟样本生成数量优化[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 142-148.
[5] 韦妙鸾, 林佳吟, 刘汝娥, 罗洁. 虚拟旋转鼓引发的自运动感知与视觉信息量的关系[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 134-140.
[6] 孟媛媛,韦 波,邹 瑶. 基于新Vague软集模糊熵-Topsis的地标决策[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 39-48.
[7] 肖发远,李好威. 基于模糊理论的无线传感器网络路由优化算法[J]. 广西师范大学学报(自然科学版), 2017, 35(1): 37-43.
[8] 王凯明, 周海燕, 郭家梁, 杨孝敬, 王刚, 钟宁. 基于统计分布熵的抑郁症脑电信号分析[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 29-35.
[9] 侯晓东, 蔡斌斌, 金炜东, 段旺旺. 基于证据距离和模糊熵的加权证据融合新方法[J]. 广西师范大学学报(自然科学版), 2015, 33(1): 45-51.
[10] 刘海峰, 续欣莹, 申雪芬, 谢王君. 基于限制邻域关系的不完备混合决策系统属性约简[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 30-36.
[11] 杨文, 李文敬, 李双, 李书举, 林中明. 基于GEP的流数据分类压缩并行算法研究[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 87-93.
[12] 胡卉颖, 钟智, 元昌安, 陆建波, 袁晖. 基于基因表达式编程的粗糙集属性约简研究[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 23-28.
[13] 徐丽, 丁世飞, 郭锋锋. 基于改进属性约简的粗核聚类算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 105-109.
[14] 徐久成, 李晓艳, 李双群, 张灵均. 基于相容粒的多层次纹理特征图像检索方法[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 186-187.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发