广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 57-67.doi: 10.16088/j.issn.1001-6600.2021060913

• 研究论文 • 上一篇    下一篇

基于MEB和SVM方法的新类别分类研究

杨迪, 方扬鑫, 周彦*   

  1. 深圳大学 数学与统计学院, 广东 深圳 518060
  • 收稿日期:2021-06-09 修回日期:2021-07-13 出版日期:2022-01-25 发布日期:2022-01-24
  • 通讯作者: 周彦(1982—), 男, 湖南永州人, 深圳大学副教授, 博士。E-mail: zhouy1016@szu.edu.cn
  • 作者简介:★为共同第一作者
  • 基金资助:
    国家自然科学基金(12071305,11871390,11871411); 广东省自然科学基金(2020B1515310008)

New Category Classification Research Based on MEB and SVM Methods

YANG Di, FANG Yangxin, ZHOU Yan*   

  1. College of Mathematics and Statistics, Shenzhen University, Shenzhen Guangdong 518060, China
  • Received:2021-06-09 Revised:2021-07-13 Online:2022-01-25 Published:2022-01-24

摘要: 有1份仅含A类与B类的训练集,与1份包含不止这2个类别的测试集,如何对测试集中的样本进行分类?针对这个问题,本文提出3种基于SVM方法和最小包围球方法(minimum enclosing ball, MEB)的新类别分类方法。这3种新类别分类方法不仅解决了SVM不能正确判别新类别的缺点,而且在实际数据分析中获得了较好的效果。本文使用乳腺癌分子分型数据进行分析,最终样本分类准确率可达90%以上,新类别样本分类正确率可达99%以上。

关键词: 机器学习, 多分类问题, 支持向量机, MEB, SVDD

Abstract: This paper mainly studies the following problems: if there is a training set containing only A and B classes,and a test set containing more than these two categories,how should the samples in the test set be classified? For this problem, three new category classification methods based on SVM and minimum enclosing ball method are proposed. These three new methods not only can solves the weakness of SVM that can't correctly identifying new categories, but also can obtain good effect in the real data analysis. The data set used in this paper is breast cancer molecular subtype data set. The final sample classification accuracy rate can reach more than 90%,and the classification accuracy of the new category samples can be more than 99%.

Key words: machine learning, multi-classification problem, support vector machine, MEB, SVDD

中图分类号: 

  • R737.9
[1] 刘宗超, 李哲轩, 张阳, 等. 2020全球癌症统计报告解读[J]. 肿瘤综合治疗电子杂志, 2021, 7(2): 1-13.
[2]CHEN W Q, ZHENG R S, BAADE P D, et al. Cancer statistics in China, 2015[J]. CA:a Cancer Journal for Clinicians, 2016, 66(2): 115-32.
[3]JEMAL A, SIEGEL R, WARD E, et al. Cancer statistics, 2006[J]. CA:a Cancer Journal for Clinicians, 2006, 56(2): 106-130.
[4]ZHENG X Q, ZHAO Q, WU H J, et al. Methylpurify: tumor purity deconvolution and differential methylation detection from single tumor DNA methylomes[J]. Genome Biology, 2014, 15(8): 419.
[5]DOU H X, FANG Y, ZHENG X Q. Universal informative CpG sites fbr inferring tumor purity from DNA methylation microarray data[J]. Journal of Bioinformatics and Computational Biology, 2018, 16(3): 1750030.
[6]CARTER S L,CIBULSKIS K, HELMAN E, et al. Absolutequantification of somatic DNA alterations in Human cancer[J]. Nature Biotechnology, 2012, 30(5): 413-421.
[7]OESPER L, MAHMOODY A, RAPHAEL B J. THetA:inferring intra-tumor heterogeneity from high-throughput DNA sequencing data[J]. Genome Biology, 2013, 14(7): R80.
[8]ANDOR N, HAMESS J V, MÜLLER S, et al. EXPANDS:expanding ploidy and allele frequency on nested subpopulations[J]. Bioinfbrmatics, 2014, 30(1): 50-60.
[9]任湘, 张朋, 范明, 等. 基于卷积神经网络的乳腺癌分子分型预测研究[J]. 杭州电子科技大学学报(自然科学版), 2018, 38(5): 66-71.
[10]DREISEITL S, OSL M, SCHEIBBÖCK C, et al. Outlier detection with one-class SVMs: an application to melanoma prognosis[J].AMIA Annual Symposium Proceedings. AMIA Symposium, 2010: 172-176.
[11]SCHOLKOPF B, SMOLA A J. Learning with kernels: support vector machines, regularization, optimization, and beyond[M].Cambridge, MA : MIT Press, 2001.
[12]董小瑞, 武雅文, 张志文, 等. 基于遗传算法和支持向量机的汽车行驶工况识别[J]. 车用发动机, 2021(2): 13-17.
[13]SCHÖLKOPF B, PLATT J C, SHAWE-TAYLOR J, et al. Estimating the support of a high-dimensional distribution[J]. Neural Computation, 2001, 13(7): 1443-1471.
[14]TAX D M J, DUIN R P W. Support vector domain description[J]. Pattern Recognition Letters, 1999, 20(11/12/13): 1191-1199.
[15]WANG K, STOLFO S. One-class SVM training for masquerade detection[J]. 3rd IEEE Conference Data Mining Workshop on Data Mining for Computer Security. Florida, 2003: 10-19.
[16]CHEN Y Q, ZHOU X S, HUANG T S. One-class SVM for learning in image retrieval[C]//Proceedings 2001 International Conference on Image Processing. Thessaloniki: IEEE, 2001: 34-37.
[17]姚力群, 陶卿. 局部线性与one-class结合的科技文本分类方法[J]. 计算机研究与发展, 2005, 42(11): 1862-1869.
[18]何书锋, 孙钿奇, 王诏, 等. 基于深度学习的多波束海底地质数据异常值检测方法[J]. 计算机应用与软件, 2021, 38(4): 95-100.
[19]PEROU C M, SERLIE T, EISEN M B, et al. Molecular portraits of human breast tumors[J]. Nature, 2000, 406: 747-752.
[20]PRISACK H B, KARREMAN C, MODLICH O, et al. Predictive biological markers for response of invasive breast cancer to anthracycline/cyclophosphamide-based primary (radio-)chemotherapy[J]. Anticancer Research, 2005, 25(6C): 4615-4621.
[21]曾天宇, 孙春晓, 杨帆, 等. 小剂量阿帕替尼治疗晚期乳腺癌的效果和安全性分析[J]. 临床肿瘤学杂志, 2020, 25(5): 451-455.
[1] 路凯峰, 杨溢龙, 李智. 一种基于BERT和DPCNN的Web服务分类方法[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 87-98.
[2] 张永生, 朱文焌, 史若琪, 杜振华, 张瑞, 王志. 基于可信度的Android恶意代码多模型协同检测方法[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 19-28.
[3] 朱勇建, 彭柯, 漆广文, 夏海英, 宋树祥. 基于机器视觉的太阳能网版缺陷检测[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 105-112.
[4] 吕凯晨, 闫宏飞, 陈翀. 基于沪深300成分股的量化投资策略研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 1-12.
[5] 林越, 刘廷章, 王哲河. 具有两类上限条件的虚拟样本生成数量优化[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 142-148.
[6] 李子彦, 刘伟铭. 一种基于局部HOG特征的运动车辆检测方法[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 1-13.
[7] 刘艳红, 罗晓曙, 陈锦, 郭磊. 宫颈细胞图像的特征提取与识别研究[J]. 广西师范大学学报(自然科学版), 2016, 34(2): 61-66.
[8] 陈思溢, 罗强, 黄辉先. 基于群决策理论的协调控制子区划分方法[J]. 广西师范大学学报(自然科学版), 2014, 32(4): 18-25.
[9] 左信, 黄海龙, 刘建伟. 非凸共轭梯度p范数正则化SVM分类算法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 51-58.
[10] 王世明, 徐建闽, 李日涵. 城市快速路入口匝道控制算法的改进[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 1-6.
[11] 严晓明, 郑之. 基于混合仿生算法的SVM参数优化[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 114-118.
[12] 张仁津, 唐翠芳, 刘彬. 基于人工神经网络游戏程序的研究和设计[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 119-124.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘国伦, 宋树祥, 岑明灿, 李桂琴, 谢丽娜. 带宽可调带阻滤波器的设计[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 1 -8 .
[2] 刘铭, 张双全, 何禹德. 基于改进SOM神经网络的异网电信用户细分研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 17 -24 .
[3] 胡郁葱, 陈栩, 罗嘉陵. 多起终点多车型混载的定制公交线路规划模型[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 1 -11 .
[4] 唐堂, 魏承赟, 罗晓曙, 丘森辉. 基于附加惯性项人群搜索算法的四旋翼无人机姿态控制研究[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 12 -19 .
[5] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20 -26 .
[6] 韦振汉, 宋树祥, 夏海英. 基于随机森林的锂离子电池荷电状态估算[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 27 -33 .
[7] 许远静, 胡维平. 基于随机森林的不同程度病态嗓音识别[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 34 -41 .
[8] 张灿龙, 苏建才, 李志欣, 王智文. 基于AdaBoost置信图的红外与可见光目标跟踪[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 42 -50 .
[9] 刘电霆, 吴丽娜. 社会网络中基于信任的LDA主题模型领域专家推荐[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 51 -58 .
[10] 姜影星, 黄文念. 非线性薛定谔-麦克斯韦方程的基态解[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 59 -66 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发