|
广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 57-67.doi: 10.16088/j.issn.1001-6600.2021060913
杨迪★, 方扬鑫★, 周彦*
YANG Di★, FANG Yangxin★, ZHOU Yan*
摘要: 有1份仅含A类与B类的训练集,与1份包含不止这2个类别的测试集,如何对测试集中的样本进行分类?针对这个问题,本文提出3种基于SVM方法和最小包围球方法(minimum enclosing ball, MEB)的新类别分类方法。这3种新类别分类方法不仅解决了SVM不能正确判别新类别的缺点,而且在实际数据分析中获得了较好的效果。本文使用乳腺癌分子分型数据进行分析,最终样本分类准确率可达90%以上,新类别样本分类正确率可达99%以上。
中图分类号:
[1] 刘宗超, 李哲轩, 张阳, 等. 2020全球癌症统计报告解读[J]. 肿瘤综合治疗电子杂志, 2021, 7(2): 1-13. [2]CHEN W Q, ZHENG R S, BAADE P D, et al. Cancer statistics in China, 2015[J]. CA:a Cancer Journal for Clinicians, 2016, 66(2): 115-32. [3]JEMAL A, SIEGEL R, WARD E, et al. Cancer statistics, 2006[J]. CA:a Cancer Journal for Clinicians, 2006, 56(2): 106-130. [4]ZHENG X Q, ZHAO Q, WU H J, et al. Methylpurify: tumor purity deconvolution and differential methylation detection from single tumor DNA methylomes[J]. Genome Biology, 2014, 15(8): 419. [5]DOU H X, FANG Y, ZHENG X Q. Universal informative CpG sites fbr inferring tumor purity from DNA methylation microarray data[J]. Journal of Bioinformatics and Computational Biology, 2018, 16(3): 1750030. [6]CARTER S L,CIBULSKIS K, HELMAN E, et al. Absolutequantification of somatic DNA alterations in Human cancer[J]. Nature Biotechnology, 2012, 30(5): 413-421. [7]OESPER L, MAHMOODY A, RAPHAEL B J. THetA:inferring intra-tumor heterogeneity from high-throughput DNA sequencing data[J]. Genome Biology, 2013, 14(7): R80. [8]ANDOR N, HAMESS J V, MÜLLER S, et al. EXPANDS:expanding ploidy and allele frequency on nested subpopulations[J]. Bioinfbrmatics, 2014, 30(1): 50-60. [9]任湘, 张朋, 范明, 等. 基于卷积神经网络的乳腺癌分子分型预测研究[J]. 杭州电子科技大学学报(自然科学版), 2018, 38(5): 66-71. [10]DREISEITL S, OSL M, SCHEIBBÖCK C, et al. Outlier detection with one-class SVMs: an application to melanoma prognosis[J].AMIA Annual Symposium Proceedings. AMIA Symposium, 2010: 172-176. [11]SCHOLKOPF B, SMOLA A J. Learning with kernels: support vector machines, regularization, optimization, and beyond[M].Cambridge, MA : MIT Press, 2001. [12]董小瑞, 武雅文, 张志文, 等. 基于遗传算法和支持向量机的汽车行驶工况识别[J]. 车用发动机, 2021(2): 13-17. [13]SCHÖLKOPF B, PLATT J C, SHAWE-TAYLOR J, et al. Estimating the support of a high-dimensional distribution[J]. Neural Computation, 2001, 13(7): 1443-1471. [14]TAX D M J, DUIN R P W. Support vector domain description[J]. Pattern Recognition Letters, 1999, 20(11/12/13): 1191-1199. [15]WANG K, STOLFO S. One-class SVM training for masquerade detection[J]. 3rd IEEE Conference Data Mining Workshop on Data Mining for Computer Security. Florida, 2003: 10-19. [16]CHEN Y Q, ZHOU X S, HUANG T S. One-class SVM for learning in image retrieval[C]//Proceedings 2001 International Conference on Image Processing. Thessaloniki: IEEE, 2001: 34-37. [17]姚力群, 陶卿. 局部线性与one-class结合的科技文本分类方法[J]. 计算机研究与发展, 2005, 42(11): 1862-1869. [18]何书锋, 孙钿奇, 王诏, 等. 基于深度学习的多波束海底地质数据异常值检测方法[J]. 计算机应用与软件, 2021, 38(4): 95-100. [19]PEROU C M, SERLIE T, EISEN M B, et al. Molecular portraits of human breast tumors[J]. Nature, 2000, 406: 747-752. [20]PRISACK H B, KARREMAN C, MODLICH O, et al. Predictive biological markers for response of invasive breast cancer to anthracycline/cyclophosphamide-based primary (radio-)chemotherapy[J]. Anticancer Research, 2005, 25(6C): 4615-4621. [21]曾天宇, 孙春晓, 杨帆, 等. 小剂量阿帕替尼治疗晚期乳腺癌的效果和安全性分析[J]. 临床肿瘤学杂志, 2020, 25(5): 451-455. |
[1] | 路凯峰, 杨溢龙, 李智. 一种基于BERT和DPCNN的Web服务分类方法[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 87-98. |
[2] | 张永生, 朱文焌, 史若琪, 杜振华, 张瑞, 王志. 基于可信度的Android恶意代码多模型协同检测方法[J]. 广西师范大学学报(自然科学版), 2020, 38(2): 19-28. |
[3] | 朱勇建, 彭柯, 漆广文, 夏海英, 宋树祥. 基于机器视觉的太阳能网版缺陷检测[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 105-112. |
[4] | 吕凯晨, 闫宏飞, 陈翀. 基于沪深300成分股的量化投资策略研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 1-12. |
[5] | 林越, 刘廷章, 王哲河. 具有两类上限条件的虚拟样本生成数量优化[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 142-148. |
[6] | 李子彦, 刘伟铭. 一种基于局部HOG特征的运动车辆检测方法[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 1-13. |
[7] | 刘艳红, 罗晓曙, 陈锦, 郭磊. 宫颈细胞图像的特征提取与识别研究[J]. 广西师范大学学报(自然科学版), 2016, 34(2): 61-66. |
[8] | 陈思溢, 罗强, 黄辉先. 基于群决策理论的协调控制子区划分方法[J]. 广西师范大学学报(自然科学版), 2014, 32(4): 18-25. |
[9] | 左信, 黄海龙, 刘建伟. 非凸共轭梯度p范数正则化SVM分类算法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 51-58. |
[10] | 王世明, 徐建闽, 李日涵. 城市快速路入口匝道控制算法的改进[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 1-6. |
[11] | 严晓明, 郑之. 基于混合仿生算法的SVM参数优化[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 114-118. |
[12] | 张仁津, 唐翠芳, 刘彬. 基于人工神经网络游戏程序的研究和设计[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 119-124. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |