|
广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 92-97.
黎佳, 王明文, 何世柱, 柯丽
LI Jia, WANG Ming-wen, HE Shi-zhu, KE Li
摘要: 目前在半监督聚类的研究中,尤其是当有类标信息的类的数量少于整个数据集的类的数量时,其聚类效果并不好。本文在现有半监督聚类技术的基础上,通过特征加权来提高同一类文档的相似性,从而得到更好的聚类效果。为了验证这一思想的有效性,实验不仅在单语言数据集上进行,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明,该方法体现出良好的性能。
中图分类号:
[1] ZHU Xiao-jin.Semi-supervised learning literature survey:report 1530[R].Madison:Department of Computer Sciences,University of Wisconsin at Madison,2006.[2010-07-08].http://wr.lib.tsinghua.edu.cn/node/17544. [2] SZUMMER M,JAAKKOLA T.Partially labeled classification with Markovrandom walks[M]//THOMAS G D,BECKER S,GHAHRAMANI Z.Advances in Neural Information Processing Systems 14.Cambridge,MA:MIT Press,2001:945-952. [3] DAVIDSON I,RAVI S S.Clustering with constraints:feasibility issuesand the K-means algorithm[C]//Proceedings of the 5th SIAM InternationalConference on Data Mining.Newport Beach,CA:SIAM,2005:138-149. [4] WANG Ming-wen,YE Hao,HUANG Guo-bin,et al.A cross lang uage retrieval model based on interlingua semantics[J].Journal of Computational Information Systems,2007,3(4):1555-1560. [5] LING Xiao,XUE Guo-rong,DAI Wen-yuan,et al.Can Chinese Web pagesbe classified with english data source[C]//Proceedings of the 17th International World Wide Web Conference.Beijing:[s.n.],2008:969-978. [6] 熊超,王明文,吴福英,等.基于潜在语义对偶空间的跨语言文本分类研究[J].广西师范大学学报:自然科学版,2010,28(1):157-160. [7] TAN Pang-ning,STEINBACH M,KUMAR V.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2006. [8] 廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报:自然科学版,2005,45(S1):1823-1827. [9] BI Wen-xia,WANG Ming-wen,LUO Yuan-sheng,et al.A new cross language text categorization based on interlingua semantic[J].Journal of Computational Information Systems,2008,4(1):105-110. |
[1] | 杨洋, 王立宏. 半监督聚类中成对约束的主动学习[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 87-91. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |