广西师范大学学报(自然科学版) ›› 2020, Vol. 38 ›› Issue (2): 107-114.doi: 10.16088/j.issn.1001-6600.2020.02.012

• CCIR2019 • 上一篇    下一篇

一种自适应的高维离群点识别方法

叶青, 黄强, 聂斌*, 李欢   

  1. 江西中医药大学计算机学院,江西南昌330004
  • 收稿日期:2019-07-09 发布日期:2020-04-02
  • 通讯作者: 聂斌(1972—),男,江西峡江人,江西中医药大学副教授。E-mail:460092757@qq.com
  • 基金资助:
    国家自然科学基金 (61562045);江西省教育厅科学技术研究项目(160803);江西省卫生计生委资助项目(2017A282);江西中医药大学重点学科资助计划(2016jzzdxk015)

An Adaptive High-Dimensional Outlier Recognition Method

YE Qing, HUANG Qiang, NIE Bin*, LI Huan   

  1. School of Computer Science,Jiangxi University of Traditional Chinese Medicine,Nanchang Jiangxi 330004,China
  • Received:2019-07-09 Published:2020-04-02

摘要: 针对传统的基于距离的离群点识别方法难以直接有效地应用于高维数据且识别效果受参数影响的问题,本文提出了一种自适应的高维离群点识别方法,该方法利用经遗传算法优化的高斯受限玻尔兹曼机将高维数据非线性地映射到低维空间,然后通过自适应的离群点识别方法在低维数据空间进行离群点识别。采用 UCI高维数据和中药高维数据进行验证实验,实验结果表明自适应的高维离群点识别方法能自适应地、有效地识别出高维数据中的离群点。

关键词: 离群点识别, 高斯受限玻尔兹曼机, 自适应算法, 遗传算法, 中医药信息

Abstract: Aiming at the problem that the traditional distance-based outlier recognition method can not be directly and effectively applied to high-dimensional data and the recognition effect is affected by parameters, an adaptive high-dimensional outlier recognition method is proposed, which uses genetic algorithm. The optimized Gaussian Restricted Boltzmann machine nonlinearly maps high-dimensional data to low-dimensional space, and then performs outlier recognition in low-dimensional data space by adaptive outlier recognition. UCI high-dimensional data and high-dimensional data of traditional Chinese medicine are used to verify the experiment. The experimental results show that the adaptive high-dimensional outlier recognition method can adaptively and effectively identify outliers in high-dimensional data.

Key words: outlier identification, GRBM, adaptive algorithm, genetic algorithm, Chinese medicine information

中图分类号: 

  • TP301
[1] 张忠平,宋少英,宋晓辉.基于PCA及属性距离和的孤立点检测算法[J].计算机工程与应用,2009,45(17):139-141,243. DOI:10.3778/j.issn.1002-8331.2009.17.042.
[2] MEJIA A F,NEBEL M B,ELOYAN A,et al.PCA leverage: outlier detection for high-dimensional functional magnetic resonance imaging data[J].Biostatistics,2017,18(3):521-536.DOI:10.1093/biostatistics/kxw050.
[3] JOHNSTONE I M,PAUL D.PCA in high dimensions: an orientation[J].Proceedings of the IEEE,2018,106(8):1277-1292. DOI: 10.1109/JPROC.2018.2846730.
[4] JU Fujiao,SUN Yanfeng,GAO Junbin,et al.Image outlier detection and feature extraction via L1-norm based 2D probabilistic PCA[J].IEEE Transactions on Image Processing,2015,24(12):4834-4846.DOI:10.1109/TIP.2015.2469136.
[5] HUANG Haiping.Statistical mechanics of unsupervised feature learning in a restricted Boltzmann machine with binary synapses[J].Journal of Statistical Mechanics:Theory and Experiment,2017,2017(5):053302.DOI:10.1088/1742-5468/aa6ddc.
[6] 酆勇,熊庆宇,石为人,等.一种基于受限玻尔兹曼机的说话人特征提取算法[J].仪器仪表学报,2016,37(2):256-262.DOI: 10.19650/j.cnki.cjsi.2016.02.003.
[7] LI Ziqiang,CAI Xun,LIANG Ti.Gaussian-Bernoulli based convolutional restricted Boltzmann machine for images feature extraction[C]//Neural Information Processing:Lecture Notes in Computer Science vol 9948.Berlin:Springer,2016:593-602.DOI:10.1007/978-3-319-46672-9_66.
[8] 李敬微,顾晓辉,曹蕾,等.基于包络谱分析和高斯受限玻尔兹曼机的滚动轴承故障诊断方法[J].机械研究与应用,2016,29(2):87-90,93.DOI:10.16576/j.cnki.1007-4414.2016.02.029.
[9] 陈曦.基于高斯伯努利受限玻尔兹曼机的过程监测研究[D].杭州:浙江大学,2016.
[10]TRAN S N,BENETOS E,d′AVILA GARCEZ A.Learning motion-difference features using Gaussian restricted Boltzmann machines for efficient human action recognition[C]//2014 International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2014:2123-2129.DOI:10.1109/IJCNN.2014.6889945.
[11]LAMOUS-SWEENEY J D.Deep learning using genetic algorithms[D].Rochester,NY:Rochester Institute of Technology, 2012.
[12]TRAN L,FAN Liyue,SHAHABI C.Distance-based outlier detection in data streams[J].Proceedings of the VLDB Endowment,2016,9(12):1089-1100.DOI:10.14778/2994509.2994526.
[13]ZHANG Ying,ZHENG Hongyuan,DING Qiulin.Top-k distance-based outlier detection on uncertain data[C]//Cloud Computing and Security:Lecture Notes in Computer Science Vol 9483.Berlin:Springer,2015:521-535.DOI:10.1007/ 978-3-319-27051-7_45.
[14]YAN Qingli,CHEN Jianfeng,De STRYCKER L.An outlier detection method based on mahalanobis distance for source localization[J].Sensors,2018,18(7):2186.DOI:10.3390/s18072186.
[15]陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75,94.DOI:10.3321/j.issn: 1002-8331.2004.33.022.
[16]樊峰峰,李战怀,陈群,等.一种基于离群点检测的自动实体匹配方法[J].计算机学报,2017,40(10):2197-2211. DOI:10.11897/SP.J.1016.2017.02197.
[17]李春生,于澍,刘小刚.基于改进距离和的异常点检测算法研究[J].计算机技术与发展,2019,29(3):97-100. DOI:10.3969/j.issn.1673-629X.2019.03.021.
[18]张春霞,姬楠楠,王冠伟.受限波尔兹曼机[J].工程数学学报,2015,32(2):159-173.DOI:10.3969/j.issn.1005-3085.2015. 02.001.
[19]周志华.机器学习[M].北京:清华大学出版社, 2016.
[20]SUBRAMANIAM S,PALPANAS T,PAPADOPOULOS D,et al.Online outlier detection in sensor data using non-parametric models[C]//Proceedings of the 32nd International Conference on Very Large Data Bases.Seoul:VLDB Endowment,2006:187-198.
[21]ANNIE G.Anomaly detection based on machine learning:dimensionality reduction using PCA and classification using SVM[J].International Journal of Computer Applications,2012,47(21):5-8.DOI:10.5120/7470-0475.
[1] 梁晓萍,罗晓曙. 基于遗传自适应的维纳滤波图像去模糊算法[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 17-23.
[2] 刘伟铭, 李荣荣, 王超, 黄玲. 高速公路通行卡调拨问题的遗传算法[J]. 广西师范大学学报(自然科学版), 2016, 34(1): 1-8.
[3] 刘宏, 王其涛, 夏未君. 基于量子遗传算法的WSN三维定位方法[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 49-54.
[4] 乐美龙, 高金敏. 轮辐式航线网络下机型分配与舱位控制的协同优化研究[J]. 广西师范大学学报(自然科学版), 2014, 32(3): 33-40.
[5] 赵新超, 吴召军. 求解背包问题的多位极贪婪遗传算法[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 41-47.
[6] 曹永春, 邵亚斌, 田双亮, 蔡正琦. 一种基于免疫遗传算法的聚类方法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 59-64.
[7] 蒋晓峰, 许伦辉, 朱悦. 基于SVM短时交通流量预测[J]. 广西师范大学学报(自然科学版), 2012, 30(4): 13-17.
[8] 严晓明, 郑之. 基于混合仿生算法的SVM参数优化[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 114-118.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 孟春梅, 陆世银, 梁永红, 莫肖敏, 李卫东, 黄远洁, 成晓静, 苏志恒, 郑华. 岩黄连总碱诱导肝星状细胞凋亡和自噬的电镜实验研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 76 -79 .
[2] 林永生, 裴建国, 邹胜章, 杜毓超, 卢丽. 清江下游红层岩溶及其水化学特征[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 113 -120 .
[3] 李贤江, 石淑芹, 蔡为民, 曹玉青. 基于CA-Markov模型的天津滨海新区土地利用变化模拟[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 133 -143 .
[4] 王梦飞, 黄松. 广西西江经济带的城市旅游经济空间关联研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 144 -150 .
[5] 滕志军, 吕金玲, 郭力文, 许媛媛. 基于改进粒子群算法的无线传感器网络覆盖策略[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 9 -16 .
[6] 苗新艳, 张龙, 罗颜涛, 潘丽君. 一类交替变化的竞争—合作混杂种群模型研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 25 -31 .
[7] 黄荣里, 李长友, 汪敏庆. 一类常微分方程的伯恩斯坦定理Ⅱ[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 50 -55 .
[8] 陈梦华,刘敏,王宁. Weizscker-Skyrme核质量公式的理论预言能力研究[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 1 -8 .
[9] 万雷,罗玉玲,黄星月. 脉冲神经网络硬件系统性能监测平台[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 9 -16 .
[10] 林越,刘廷章,陈一凡,金勇,梁立新. 基于AP-HMM混合模型的充电桩故障诊断[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 25 -33 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发