|
广西师范大学学报(自然科学版) ›› 2013, Vol. 31 ›› Issue (3): 87-93.
杨文1, 李文敬1, 李双1, 李书举2, 林中明1
YANG Wen1, LI Wen-jing1, LI Shuang1, LI Shu-ju2, LIN Zhong-ming1
摘要: 针对数据挖掘中流数据分类精度不高,数据压缩率低的问题,提出一种基于粒度分析与转存式GEP的流数据分类压缩并行算法,实现流数据的快速并行分类压缩。首先使用粒度分析技术对流数据的属性求得极小粒度集,根据划分规则得到近似粒度空间,然后根据不同类型流数据建立不同的GEP分类器模型,最后采用动态转存记录集形式,将数据送至GEP压缩模型实施压缩。再将串行算法扩展到MPI+OpenMP混合编程模型后得到其并行算法,采用UCI数据、通讯账单验证算法的性能。实验结果表明,分类压缩效果耗时较理想,压缩比效果明显,其中在校学生通讯账单耗时在96 s左右,压缩比达到1/3。
中图分类号:
[1] 孙玉芬,卢炎生.流数据挖掘综述[J].计算机科学,2007,34(1):1-5. [2] GUHA S,GUNOPULOS D,KOUDAS N.Correlating synchronous and asynchronous data streams[C]//Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington DC:ACM Press,2003:529-534. [3] 姜王月,唐常杰,吴江,等.基于基因表达式编程抽取特征的分类算法[J].计算机工程与应用,2007,43(26):28-33. [4] 彭锦国,蔡之华,康立山.一种基于GEP的分类规则挖掘算法[J].计算机工程,2007,33(9):90-91. [5] 丁超,元昌安,李桂来,等.基于GEP的多数据流的压缩算法[J].计算机研究与发展,2008,45(S):191-195. [6] 杨文,李文敬,罗锦坤.基于基因表达式编程的多数据流压缩并行算法[J].微电子学与计算机,2011,28(8):94-101. [7] 杨文,李文敬,李双,等.基于基因表达式编程的多数据流分类并行算法[J].华中科技大学学报:自然科学版,2012,40(12):116-119. [8] 张燕平,张铃,吴涛.不同粒度世界的描述法:商空间法[J].计算机学报,2004,27(3):328-333. [9] YAO Yi-yu.On modeling data mining with granular computing[C]//25th Annual International Computer Software and Applications Conference (COMPSAC 2001).Los Alamitos,CA:IEEE Computer Society,2001:638-643. [10] 刘建伟,傅游.基于B/S模式的MPI并行程序提交系统的设计[J].信息技术与信息化,2012(1):64-67. [11] 朱敏,万剑怡,王明文.基于MR的并行决策树分类算法的设计与实现[J].广西师范大学学报:自然科学版,2011,29(1):82-86. |
[1] | 张超英, 黎槟华, 覃章荣. 基于CUDA的晶格Boltzmann并行算法的综合优化设计[J]. 广西师范大学学报(自然科学版), 2012, 30(3): 142-148. |
[2] | 胡卉颖, 钟智, 元昌安, 陆建波, 袁晖. 基于基因表达式编程的粗糙集属性约简研究[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 23-28. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |