|
广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (2): 156-160.
周鑫, 郝志峰, 蔡瑞初, 温雯
ZHOU Xin, HAO Zhi-feng, CAI Rui-chu, WEN Wen
摘要: 本文针对垃圾邮件包含较多干扰信息,导致文档相似度度量效果较差的问题,将Needleman-Wunsch算法引入到文本相似度计算中,并针对性地提出一种高效的聚类算法,为反垃圾邮件系统提供了一种有效的垃圾邮件鉴别技术。与传统的仅基于知网、基于语义等聚类算法相比,本方法在算法效率和聚类质量上都有很大的改进。
中图分类号:
[1] 彭京,杨冬青,唐世渭,等.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1344-1363. [2] LIU Qun,LI Su-jian.Word similarity computing based on How-Net[J].Computational Lingustics and Chinese Language Processing,2002,7(2):59-76. [3] 王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. [4] 祝庆荣,董守斌,陈彬.基于SMO和指纹技术在线邮件过滤方法与优化[J].郑州大学学报:理学版,2009,41(1):90-93. [5] 苏绥,林鸿飞,叶正.基于字符语言模型的垃圾邮件过滤[J].中文信息学报,2009,23(2):41-47. [6] 施展,李郝林.实验数据聚类有效性的评价及其应用[J].模式识别与人工智能,1997,10(2):184-188. [7] NEEDLEMAN S B,WUNSCH C D.A general method applicable tothe search for similarities in the amino acid sequence of two proteins[J].J Mol Biol,1970,48(3):443-453. [8] NAVARRO G,RAFFINOT M.Flexible pattern matching in stirngs:practical on-line search algorithms for texts and biological sequences[M].Cambridge:Cambridge University Press,2002:132-137. [9] 潘文峰.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所,2004. [10] 金博,金博一,史彦军,等.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. [11] 王学熙,王亚东,湛燕,等.学习特征值对K-均值聚类算法的优化[J].计算机研究与发展,2003,40(6):869-873. [12] HAN Jia-wei,KAMBER M.Data mining:concept s and techniques[M].2nd ed.San Francisco:Morgan Kaufmann Publishers,2006:263-265. [13] TAN Pang-ning,STEINBACH M,KUMAR V.数据挖掘导论[M].北京:人民邮电出版社,2006:339-344. |
[1] | 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60. |
[2] | 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41. |
[3] | 张芬, 曲维光, 赵红艳, 周俊生. 基于CRF和转换错误驱动学习的浅层句法分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 147-150. |
[4] | 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156. |
[5] | 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31. |
[6] | 郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益. 汉语-印尼语平行语料自动对齐方法研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 89-97. |
[7] | 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150. |
[8] | 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |