广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 122-126.

• • 上一篇    下一篇

一种去除重复URL的算法

苏国荣1, 杨岳湘1, 邓劲生2   

  1. 1.国防科学技术大学计算机学院,湖南长沙 410073;
    2.国防科学技术大学信息中心,湖南长沙 410073
  • 收稿日期:2009-12-28 出版日期:2010-03-20 发布日期:2023-02-07
  • 通讯作者: 杨岳湘(1965—)男,湖南长沙人,国防科学技术大学教授,博导。E-mail:yyx@nudt.edu.cn
  • 基金资助:
    国家863计划资助项目(2008AA02407);湖南省自然科学基金项目(07555084);广东省科技计划项目资助(2009B080701031)

An Algorithm of Removing Duplicate URL

SU Guo-rong1, YANG Yue-xiang1, DENG Jing-sheng2   

  1. 1. School of Computer Science,National University of Defense and Technology,Changsha Hunan 410073,China;
    2. Information Center,National University of Defense and Technology,Changsha Hunan 410073,China
  • Received:2009-12-28 Online:2010-03-20 Published:2023-02-07

摘要: 通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。

关键词: 布隆过滤器, 散列函数, URL, 网页去重

Abstract: Based on the analysis of removing duplicate strategies in collecting Web information,which are used by the Bloom Filter algorithm and its improved versions and combining with Dynamic Bloom Filter algorithm,this adopts dynamic arrayto represent the elements of aggregate,and then proposes a removing duplicate strategy,which supports frequently querying and deletes operation of repeated URL.Finally,an experiment is carried out by using the proposed strategy,and comparing it withother strategies,which shows that the strategy gets better effect in removing duplicate in the case of lower error rates.

Key words: Bloom filter, Hash function, URL, URL filter

中图分类号: 

  • TP391
[1] 中国互联网络信息中心.第23次中国互联网络发展状况统计报告[R/OL].北京:中国互联网络信息中心,2009[2009-11-20].http://www.cnnic.net.cn/uploadfiles/doc/2009/1/13/92209.doc.
[2] 沙芸,张国英,孟凡亮.基于关键词提取的娱乐新闻文档去重算法[J].广西师范大学学报:自然科学版,2007,25(2):30-33.
[3] BLOOM B H.Space/time trade-offs in hash coding with allowable errors[J].Communications of the ACM,1970,13(7):422-426.
[4] FAN L,CAO P,ALMEIDA J,et al.Summary cache:A scalable wide-area Web cache sharing protocol[J].IEEE/ACM Transom Networking,2000,8(3):281-293.
[5] MITZENMACHER M.Compressed bloom filters[J].IEEE/ACM Trans on Networking,2002,10(5):604-612.
[6] 肖明忠,代亚非,李小明.拆分型Bloom Filter[J].电子学报,2004,32(2):241-245.
[7] SAAR C,YOSSI M.Spectral bloom filters[C]//Proc ACM SIGMOD International Conference on Management of Data.San Diego,California:ACM Press,2003:241-252.
[8] 谢鲲,闵应骅,张大方,等.分档布鲁姆过滤器的查询算法[J].计算机学报,2007,30(4):597-607.
[9] 肖明忠,王佳聪,闵博楠.针对动态集的矩阵型Bloom filter表示与查找[J].计算机应用研究,2008,25(7):2002-2003.
[10] 丁振国,吴宝贵,辛友强.基于Bloom Filter的大规模网页去重策略研究[J].现代图书情报技术,2008,3(3):45-50.
[11] GUO De-ke,WU Jie,CHEN Hong-hui,et al.Theory and network application ofdynamic bloom filters[C]//Proc of the 25th IEEE INFOCOM.Barcelona,Spain:IEEEComputer Society,2006.
[12] 池静,倪健,王华,等.Bloom Filter和Weighted Blom Filter的比较与研究[J].河北师范大学学报:自然科学版,2006,30(4):398-402.
[1] 熊顺清, 周卫红. 一种基于非采样Contourlet变换的图像水印算法[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 195-199.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发