广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (2): 151-155.

• • 上一篇    下一篇

一种基于频繁项集的搜索引擎聚类浏览算法

沙贝贝, 谢丽聪   

  1. 福州大学数学与计算机科学学院,福建福州350002
  • 收稿日期:2011-05-18 发布日期:2018-11-19
  • 通讯作者: 谢丽聪(1964—),女,福建福州人,福州大学副教授。E-mail:xielc@fzu.edu.cn
  • 基金资助:
    中科院软件所开放课题基金资助项目(SYSKF0701);国家自然科学基金资助项目(61070062)

Algorithm to Cluster Search Results Based on Frequent Itemsets

SHA Bei-bei, XIE Li-cong   

  1. College of Mathematics and Computer Science,Fuzhou University,Fuzhou Fujian 350002,China
  • Received:2011-05-18 Published:2018-11-19

摘要: 搜索引擎的聚类浏览技术可以帮助用户更好地在搜索引擎返回的结果中定位自己感兴趣的信息。TS-FIC算法通过加工关联规则挖掘出来的频繁项集作为类标签,形成初始聚类,利用频繁项集之间的语义关系,把初始聚类组织成树结构。在形成最终聚类时,引入语义相似度作为计算类相似度的一个考量方面,最后利用一种新的排序方案把最终结果排序显示给用户。实验表明,该算法具有一定可行性,并在效率与聚类精度方面有不错表现。

关键词: 聚类, 关联规则, 语义相似度, 类标签

Abstract: Clustering method of search engines can help the users locate the relevant information quickly and efficiently.A method is proposed TS-FIC algorithm which takes the frequent itemsets mining from association rules as class label,and then organizes the initial cluster into the tree structure using thesemantic relations among frequent item sets.When the final cluster is formed,thesemantic similarity is introduced as an approach to compute the class similarity.Finally,by means of a novel ordering scheme,the ordered results can be displayed to the users.The simulation results demonstrate that the proposed algorithmis of certain feasibility and has excellent performance in terms of efficiency and accuracy.

Key words: clustering, association rule, semantic similarity, class labels

中图分类号: 

  • TP391
[1] JANSEN B J,SPINK A,BATEMAN J,et al.Real life information retrieval:a study of user queries on the web[J].SIGIR Forum,1998,32(1):5-17.
[2] ZAMIR O,ETZIONI O.Grouper:a dynamic clustering interface to websearch results[J].Computer Networks,1999,31(11/16):1361-1374.
[3] ZHANG Dell,DONG Yi-sheng.Semantic,hierarchical,online clustering of web search results[M].JEFFREY X X,LIN Xue-min,LU Hong-jun,et al.Advanced Web Technologies and Applications.Berlin Heidelberg:Springer-Verlag,2004:69-78.
[4] Vivisimo Inc.Vivisimo technology & innovation overview[EB/OL].[2011-05-18].http://vivisimo.com/technology/technology.html.
[5] 肖欣延,张东站,高君杰,等.一种新的Web检索结果聚类方法[J].计算机研究与发展,2007,44(S2):79-83.
[6] 宋擒豹,沈钧毅.基于关联规则的Web文档聚类算法[J].软件学报,2002,13(3):417-423.
[7] 宋春芳,石冰.一种基于关联规则的搜索引擎结果聚类算法[J].山东大学学报:理学版,2006,41(3):68-72.
[8] 钱功伟,倪林,田甜,等.带聚类处理的元搜索引擎的设计与实现[J].计算机工程与应用,2007,43(22):182-185.
[1] 王勋, 李廷会, 潘骁, 田宇. 基于改进模糊C均值聚类与Otsu的图像分割方法[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 68-73.
[2] 苏雷,李俊英. 国家重点生态功能区县域生态环境质量状况分级标准探讨[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 196-202.
[3] 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31.
[4] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20-26.
[5] 林越,刘廷章,陈一凡,金勇,梁立新. 基于AP-HMM混合模型的充电桩故障诊断[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 25-33.
[6] 闫 妍,胡宝清,侯满福,史莎娜. 广西岩溶区县域石漠化治理模式适宜性评价[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 145-153.
[7] 胡郁葱, 陈杰, 邹小健, 陈枝伟. 基于两阶段聚类的电动自行车出行者选择研究[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 22-29.
[8] 唐祺玲,陈志林,周善义. 基于属级阶元的中国蚁科昆虫地理区划研究[J]. 广西师范大学学报(自然科学版), 2017, 35(1): 82-91.
[9] 石亚冰, 黄予, 覃晓, 元昌安. 基于优化初始种子新策略的K-Means聚类算法[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 33-40.
[10] 曹永春, 邵亚斌, 田双亮, 蔡正琦. 一种基于免疫遗传算法的聚类方法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 59-64.
[11] 马静, 邹艳丽, 李福涛, 莫玉芳. 最大度受限LBA网络模型研究[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 21-24.
[12] 郑磊, 朱正礼, 侯迎坤. 基于改进的微粒群算法的WSN节点部署策略[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 56-62.
[13] 沈泽豪, 叶中行. 期货公司客户风险管理的模糊聚类分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 101-104.
[14] 徐丽, 丁世飞, 郭锋锋. 基于改进属性约简的粗核聚类算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 105-109.
[15] 周鑫, 郝志峰, 蔡瑞初, 温雯. 带噪声的文本聚类及其在反垃圾邮件中的应用[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 156-160.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发