广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (2): 156-160.

• • 上一篇    下一篇

带噪声的文本聚类及其在反垃圾邮件中的应用

周鑫, 郝志峰, 蔡瑞初, 温雯   

  1. 广东工业大学计算机学院,广东广州510006
  • 收稿日期:2011-04-22 发布日期:2018-11-19
  • 通讯作者: 郝志峰(1968—),男,广东广州人,广东工业大学教授,博士。E-mail:mazfhao@scut.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(61070033);广东省自然科学基金重点项目(9251009001000005);广东高校优秀青年创新人才培育项目(LYM09068)

Text Clustering with Noise and It's Application in Anti-spam Systems

ZHOU Xin, HAO Zhi-feng, CAI Rui-chu, WEN Wen   

  1. Faulty of Computer,Guangdong University of Technology,Guangzhou Guangdong 510006,China
  • Received:2011-04-22 Published:2018-11-19

摘要: 本文针对垃圾邮件包含较多干扰信息,导致文档相似度度量效果较差的问题,将Needleman-Wunsch算法引入到文本相似度计算中,并针对性地提出一种高效的聚类算法,为反垃圾邮件系统提供了一种有效的垃圾邮件鉴别技术。与传统的仅基于知网、基于语义等聚类算法相比,本方法在算法效率和聚类质量上都有很大的改进。

关键词: 文本相似度, 文本聚类, Needleman-Wunsch算法, 垃圾邮件

Abstract: A method based on Needleman-Wunsch algorithm is proposed to measure the similarity among the spam mails,in which thetexts usually contain a lot of noises.Based on the proposed similarity measurement,an efficient clustering algorithm is devised in the anti-spamsystems.Experimental results demonstrate the effectiveness and efficiency of the proposed algorithm.

Key words: text similarity, text clustering, Needleman-Wunsch algorithm, spam

中图分类号: 

  • TP391.1
[1] 彭京,杨冬青,唐世渭,等.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1344-1363.
[2] LIU Qun,LI Su-jian.Word similarity computing based on How-Net[J].Computational Lingustics and Chinese Language Processing,2002,7(2):59-76.
[3] 王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10.
[4] 祝庆荣,董守斌,陈彬.基于SMO和指纹技术在线邮件过滤方法与优化[J].郑州大学学报:理学版,2009,41(1):90-93.
[5] 苏绥,林鸿飞,叶正.基于字符语言模型的垃圾邮件过滤[J].中文信息学报,2009,23(2):41-47.
[6] 施展,李郝林.实验数据聚类有效性的评价及其应用[J].模式识别与人工智能,1997,10(2):184-188.
[7] NEEDLEMAN S B,WUNSCH C D.A general method applicable tothe search for similarities in the amino acid sequence of two proteins[J].J Mol Biol,1970,48(3):443-453.
[8] NAVARRO G,RAFFINOT M.Flexible pattern matching in stirngs:practical on-line search algorithms for texts and biological sequences[M].Cambridge:Cambridge University Press,2002:132-137.
[9] 潘文峰.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所,2004.
[10] 金博,金博一,史彦军,等.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297.
[11] 王学熙,王亚东,湛燕,等.学习特征值对K-均值聚类算法的优化[J].计算机研究与发展,2003,40(6):869-873.
[12] HAN Jia-wei,KAMBER M.Data mining:concept s and techniques[M].2nd ed.San Francisco:Morgan Kaufmann Publishers,2006:263-265.
[13] TAN Pang-ning,STEINBACH M,KUMAR V.数据挖掘导论[M].北京:人民邮电出版社,2006:339-344.
[1] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[2] 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41.
[3] 张芬, 曲维光, 赵红艳, 周俊生. 基于CRF和转换错误驱动学习的浅层句法分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 147-150.
[4] 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156.
[5] 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31.
[6] 郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益. 汉语-印尼语平行语料自动对齐方法研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 89-97.
[7] 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150.
[8] 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发