广西师范大学学报(自然科学版) ›› 2013, Vol. 31 ›› Issue (3): 87-93.

• • 上一篇    下一篇

基于GEP的流数据分类压缩并行算法研究

杨文1, 李文敬1, 李双1, 李书举2, 林中明1   

  1. 1.广西师范学院计算机与信息工程学院,广西南宁530023;
    2.河南省长垣县人民防空办,河南长垣453400
  • 收稿日期:2013-05-30 出版日期:2013-09-20 发布日期:2018-11-26
  • 通讯作者: 李文敬(1964—),男(壮族),广西邕宁人,广西师范学院教授。E-mail:liwj@gxtc.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(61163012);广西自然科学基金资助项目(2012GXNSFAA053218);广西高校科学技术研究资助项目(2013YB147);广西研究生教育创新计划资助项目(YCSZ2012099)

Parallel Classification Compression Algorithm for Stream-Data Based on Granular Analysis and Storage of GEP

YANG Wen1, LI Wen-jing1, LI Shuang1, LI Shu-ju2, LIN Zhong-ming1   

  1. 1.School of Computer and Information Engineering,Guangxi Teachers Education University,Nanning Guangxi 530023,China;
    2.Changyuan County Air Defense Office of Henan,Changyuan Henan 453400,China
  • Received:2013-05-30 Online:2013-09-20 Published:2018-11-26

摘要: 针对数据挖掘中流数据分类精度不高,数据压缩率低的问题,提出一种基于粒度分析与转存式GEP的流数据分类压缩并行算法,实现流数据的快速并行分类压缩。首先使用粒度分析技术对流数据的属性求得极小粒度集,根据划分规则得到近似粒度空间,然后根据不同类型流数据建立不同的GEP分类器模型,最后采用动态转存记录集形式,将数据送至GEP压缩模型实施压缩。再将串行算法扩展到MPI+OpenMP混合编程模型后得到其并行算法,采用UCI数据、通讯账单验证算法的性能。实验结果表明,分类压缩效果耗时较理想,压缩比效果明显,其中在校学生通讯账单耗时在96 s左右,压缩比达到1/3。

关键词: 分类压缩, 粒度分析, GEP, 并行算法

Abstract: Considering the low accuracy of the stream-data classification hasn't high accuracy and compression rate for data mining,the stream-data parallel classification compression algorithm was proposed based on granular analysis and storage of GEP in order to achieve faster parallel classification compression algorithm of streaming data.Firstly,get the least set of stream-data with the granular analysis method,and the approximate granular space according to division rules.Secondly,establish corresponding GEP classification model for different stream-data;Finally,send the data to compression model of GEP and compression data with dynamic storage record set form,extend serial algorithm to the parallel algorithm in MPI+OpenMP hybrid programming model,and verify the algorithm performance with the UCI data and communications bill.The experimental result shows that the effect of the classification compressions time-consuming and the compression ratio are satisfactory,the student's communication bill time-consuming is about 96 s,and the compression ratio can be achieved to 1/3.

Key words: classification compression, granular analysis, GEP, parallel algorithm

中图分类号: 

  • TP393
[1] 孙玉芬,卢炎生.流数据挖掘综述[J].计算机科学,2007,34(1):1-5.
[2] GUHA S,GUNOPULOS D,KOUDAS N.Correlating synchronous and asynchronous data streams[C]//Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington DC:ACM Press,2003:529-534.
[3] 姜王月,唐常杰,吴江,等.基于基因表达式编程抽取特征的分类算法[J].计算机工程与应用,2007,43(26):28-33.
[4] 彭锦国,蔡之华,康立山.一种基于GEP的分类规则挖掘算法[J].计算机工程,2007,33(9):90-91.
[5] 丁超,元昌安,李桂来,等.基于GEP的多数据流的压缩算法[J].计算机研究与发展,2008,45(S):191-195.
[6] 杨文,李文敬,罗锦坤.基于基因表达式编程的多数据流压缩并行算法[J].微电子学与计算机,2011,28(8):94-101.
[7] 杨文,李文敬,李双,等.基于基因表达式编程的多数据流分类并行算法[J].华中科技大学学报:自然科学版,2012,40(12):116-119.
[8] 张燕平,张铃,吴涛.不同粒度世界的描述法:商空间法[J].计算机学报,2004,27(3):328-333.
[9] YAO Yi-yu.On modeling data mining with granular computing[C]//25th Annual International Computer Software and Applications Conference (COMPSAC 2001).Los Alamitos,CA:IEEE Computer Society,2001:638-643.
[10] 刘建伟,傅游.基于B/S模式的MPI并行程序提交系统的设计[J].信息技术与信息化,2012(1):64-67.
[11] 朱敏,万剑怡,王明文.基于MR的并行决策树分类算法的设计与实现[J].广西师范大学学报:自然科学版,2011,29(1):82-86.
[1] 张超英, 黎槟华, 覃章荣. 基于CUDA的晶格Boltzmann并行算法的综合优化设计[J]. 广西师范大学学报(自然科学版), 2012, 30(3): 142-148.
[2] 胡卉颖, 钟智, 元昌安, 陆建波, 袁晖. 基于基因表达式编程的粗糙集属性约简研究[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 23-28.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发