广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (3): 110-114.

• • 上一篇    下一篇

协同训练半监督学习二次伪迭代算法

黄霜明, 谢丽聪   

  1. 福州大学数学与计算机科学学院,福建福州350002
  • 收稿日期:2011-05-08 出版日期:2011-08-20 发布日期:2018-12-03
  • 通讯作者: 谢丽聪(1964—),女,福建福州人,福州大学副教授。E-mail:xielc@fzu.edu.cn
  • 基金资助:
    中科院软件所开放课题基金资助项目(SYSKF0701);国家自然科学基金资助项目(61070062)

Fake-iterative Algorithm for Co-training Semi-supervised Learning

HUANG Shuang-ming, XIE Li-cong   

  1. Institute of Mathematics and Computer Science of Fuzhou University,Fujian Fuzhou 350002,China
  • Received:2011-05-08 Online:2011-08-20 Published:2018-12-03

摘要: 在半监督学习训练的过程中,由于分类器对噪声的引入使得分类器性能下降而影响分类准确性,本文提出一种具有自我调节的二次伪迭代算法。该算法延用Tri-training算法的3个分类器思想,在一定条件下引入少量的人工作业,从而避免一些标记难分类而影响训练的进行,并且采用自我调节功能,用于减少在分类过程中出现的噪声数据和降低对分类器性能提高无贡献数据的加入,同时运用二次伪迭代训练过程用于提高未标记样本的利用率和贡献值。通过实验和结果数据验证,该算法能有效改良分类器的性能和提高未标记样本的利用率及贡献值,分类的准确性得到一定提高。

关键词: 协同训练, 二次伪迭代, 自我调节机制, 贡献值, 人工作业

Abstract: In the semi-supervised learning process,the veracity of classification is affected because the classifier introduces the noise data to the training course.This paper proposes a kind of self-regulation and twice fake-iterative algorithm,whichstill uses the three classifier of tri-training algorithm.A small amount of manual work will be introduced under certain conditions to make the training process going on,thus,to avoid the difficulty in the classification of somelabels.The self-regulatory function is also used to reduce the noise data and noncontributory data to be added in the classification process.Mean while,the utilization and contribution of unlabeled samples is improved by using twicefake-iterative.The experiment and the results show that this algorithm can effectively improve the classification performance,and the utilization and contribution of unlabeled samples.The veracity of classification is improved obviously.

Key words: co-training, twice fake-iterative, self-regulation, contribution, manual work

中图分类号: 

  • TP181
[1] 梁吉业,高嘉伟,常瑜.半监督学习研究进展[J].山西大学学报:自然科学版,2009,32(4):528-534.
[2] 傅彦,周俊临.基于无监督学习的盲信号源分离技术研究[J].电子科技大学学报,2004,3(1):63-66.
[3] 周志华.半监督学习中的协同训练风范[M].周志华,王珏.机器学习及应用.北京:清华大学出版社,2007:259-275.
[4] 杜明,周而重.机器学习在模式识别中的应用研究[J].科技信息,2009(9):37-39.
[5] NIGAM K,McCALLUM A K,THRUN S,et al.Text classification from labeled and unlabeled documents using EM[J].Machine Learning,2000,39(2/3):103-134.
[6] JOACHIMS T.Transductive inference for text classification using support vector machines[C]//Proceedings of the 16th International Conference on MachineLearning.New York:Morgan Kaufmann,1999:200-209.
[7] BLUM A,LAFFERTY J,RWEBANGIRA M R,et al.Semi-supervised learningusing randomized mincuts[C]//Proceedingsof the 21st International Conference on Machine Learining.New York:ACM,2004:97-104.
[8] BLUM A,MITCHELL T.Combining labeled and unlabeled data co-training[C]//Proceedings of the 11th annual conference on Computational Learning Theory.New York:ACM,1998:92-100.
[9] GOLDMAN S,ZHOU Yan.Enhancing supervised learning with unlabeled data[C]//Proceedings of the 17th International Conference on Machine Learning.New York:Morgan Kaufmann,2000:327-334.
[10] ZHOU Zhi-hua,LI Ming.Tri-training:exploiting unlabeled data using threeclasstifiers[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(11):1529-1541.
[11] 詹永照,陈亚必.具有噪声过滤功能的协同训练半监督主动学习算法[J].模式识别与人工智能,2009,22(5):750-755.
[1] 白捷, 高海力, 王永众, 杨来邦, 项晓航, 楼雄伟. 基于多路特征融合的Faster R-CNN与迁移学习的学生课堂行为检测[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 1-11.
[2] 吴昊, 秦立春, 罗柳容. 基于提升度的KNN分类子的分类原则改良模型[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 75-81.
[3] 林越, 刘廷章, 王哲河. 具有两类上限条件的虚拟样本生成数量优化[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 142-148.
[4] 郑威,文国秋,何威,胡荣耀,赵树之. 属性自表达的低秩无监督属性选择算法[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 61-69.
[5] 宗鸣, 龚永红, 文国秋, 程德波, 朱永华. 基于稀疏学习的kNN分类[J]. 广西师范大学学报(自然科学版), 2016, 34(3): 39-45.
[6] 苏毅娟, 孙可, 邓振云, 尹科军. 基于LPP和l2,1的KNN填充算法[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 55-62.
[7] 雷霖, 罗小勇. 一种新的量子进化算法实数编码方式及应用[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 23-27.
[8] 刘海峰, 续欣莹, 申雪芬, 谢王君. 基于限制邻域关系的不完备混合决策系统属性约简[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 30-36.
[9] 申雪芬, 谢王君, 刘海峰, 续欣莹. 一种改进的基于相对正域的增量式属性约简算法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 45-50.
[10] 胡卉颖, 钟智, 元昌安, 陆建波, 袁晖. 基于基因表达式编程的粗糙集属性约简研究[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 23-28.
[11] 陆广泉, 谢扬才, 刘星, 张师超. 一种基于KNN的半监督分类改进算法[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 45-49.
[12] 高俊芬, 胡维平. 基于非线性动力学和GMM的病态嗓音识别与研究[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 5-8.
[13] 徐丽, 丁世飞, 郭锋锋. 基于改进属性约简的粗核聚类算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 105-109.
[14] 丁磊, 王浩, 方宝富, 张权益. 基于Fast Marching方法的多机器人追捕算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 115-119.
[15] 孟凡辉, 王浩, 方宝富, 彭伟. 可扩展梯度直方图人体检测算法研究与实现[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 168-172.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发