|
广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 122-126.
苏国荣1, 杨岳湘1, 邓劲生2
SU Guo-rong1, YANG Yue-xiang1, DENG Jing-sheng2
摘要: 通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。
中图分类号:
[1] 中国互联网络信息中心.第23次中国互联网络发展状况统计报告[R/OL].北京:中国互联网络信息中心,2009[2009-11-20].http://www.cnnic.net.cn/uploadfiles/doc/2009/1/13/92209.doc. [2] 沙芸,张国英,孟凡亮.基于关键词提取的娱乐新闻文档去重算法[J].广西师范大学学报:自然科学版,2007,25(2):30-33. [3] BLOOM B H.Space/time trade-offs in hash coding with allowable errors[J].Communications of the ACM,1970,13(7):422-426. [4] FAN L,CAO P,ALMEIDA J,et al.Summary cache:A scalable wide-area Web cache sharing protocol[J].IEEE/ACM Transom Networking,2000,8(3):281-293. [5] MITZENMACHER M.Compressed bloom filters[J].IEEE/ACM Trans on Networking,2002,10(5):604-612. [6] 肖明忠,代亚非,李小明.拆分型Bloom Filter[J].电子学报,2004,32(2):241-245. [7] SAAR C,YOSSI M.Spectral bloom filters[C]//Proc ACM SIGMOD International Conference on Management of Data.San Diego,California:ACM Press,2003:241-252. [8] 谢鲲,闵应骅,张大方,等.分档布鲁姆过滤器的查询算法[J].计算机学报,2007,30(4):597-607. [9] 肖明忠,王佳聪,闵博楠.针对动态集的矩阵型Bloom filter表示与查找[J].计算机应用研究,2008,25(7):2002-2003. [10] 丁振国,吴宝贵,辛友强.基于Bloom Filter的大规模网页去重策略研究[J].现代图书情报技术,2008,3(3):45-50. [11] GUO De-ke,WU Jie,CHEN Hong-hui,et al.Theory and network application ofdynamic bloom filters[C]//Proc of the 25th IEEE INFOCOM.Barcelona,Spain:IEEEComputer Society,2006. [12] 池静,倪健,王华,等.Bloom Filter和Weighted Blom Filter的比较与研究[J].河北师范大学学报:自然科学版,2006,30(4):398-402. |
[1] | 熊顺清, 周卫红. 一种基于非采样Contourlet变换的图像水印算法[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 195-199. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |