|
广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 43-56.doi: 10.16088/j.issn.1001-6600.2021060910
张治飞1, 段谦1, 刘乃嘉2, 黄磊1*
ZHANG Zhifei1, DUAN Qian1, LIU Naijia2, HUANG Lei1*
摘要: 确定独立筛选(SIS)方法在处理超高维稀疏线性回归模型的变量选择问题上已得到了广泛的应用,且已被推广到处理广义线性回归模型的变量选择问题。但SIS不能很好地解决非线性回归模型的变量选择问题,关于该问题的现有研究也较少,因此,如何有效地对超高维稀疏非线性回归模型进行变量选择是一个具有研究价值的问题。本文在经典的SIS方法基础上,利用互信息的刀切估计(JMI),提出JMI与SIS相结合的方法,给出具体算法步骤,以实现超高维稀疏非线性回归模型的变量选择问题,并通过一些有代表性的统计模拟试验,验证所提方法的相合性,同时通过2个超高维基因数据的实例分析,对所提方法的可行性以及实用性进行说明。
中图分类号:
[1] 张晓琴, 刘莉楠. 基于亲密度和吸引力的二分网络社区发现算法[J]. 计算机工程与应用, 2019, 55(23): 170-176. DOI: 10.3778/j.issn.1002-8331.1808-0090. [2]韦春荣, 何楚. 基于改进型互信息的遥感图像配准方法[J]. 广西师范大学学报(自然科学版), 2014, 32(2): 20-25. DOI: 10.16088/j.issn.1001-6600.2014.02.033. [3]ZENG X L, XIA Y C, TONG H. Jackknife approach to the estimation of mutual information[J]. Proceedings of the National Academy of Sciences of the United States of America, 2018, 115(40): 9956-9961. DOI: 10.1073/pnas.1715593115. [4]DESBOULETS L D D. A review on variable selection in regression analysis[J]. Econometrics, 2018, 6(4): 45. DOI: 10.3390/econometrics6040045. [5]FAN J Q, LV J C. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2008, 70(5): 849-911. DOI:10.1111/j.1467-9868.2008.00674.x. [6]张秀秀. 基于(I)SIS的变量选择方法及其在极高维数据生存分析中的应用[D]. 太原: 山西医科大学, 2013. DOI: 10.7666/d.Y2339335. [7]马学俊. GSIS超高维变量选择[J]. 统计与信息论坛, 2015, 30(8): 16-19. DOI: 10.3969/j.issn.1007-3116.2015.08.004. [8]HALL P, MILLER H. Using generalized correlation to effect variable selection in very high dimensional problems[J]. Journal of Computational and Graphical Statistics, 2009, 18(3): 533-550. DOI: 10.1198/jcgs.2009.08041. [9]ANTONIADIS A, FAN J Q. Regularization of wavelet approximations[J]. Journal of the American Statistical Association, 2001, 96(455): 939-967. DOI: 10.1198/016214501753208942. [10]YUAN M, LIN Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2006, 68(1): 49-67. DOI: 10.1111/j.1467-9868.2005.00532.x. [11]LIN Y, ZHANG H H. Component selection and smoothing in multivariate nonparametric regression[J]. The Annals of Statistics, 2006, 34(5): 2272-2297. DOI: 10.1214/009053606000000722. [12]RAVIKUMAR P, LAFFERTY J, LIU H, et al. Sparse additive models[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2009, 71(5): 1009-1030. DOI: 10.1111/j.1467-9868.2009.00718.x. [13]ZHU L P, LI L X, LI R Z, et al. Model-free feature screening for ultrahigh dimensional data[J]. Journal of the American Statistical Association, 2011, 106(496): 1464-1475. DOI: 10.1198/jasa.2011.tm10563. [14]CUI H J, LI R Z, ZHONG W. Model-free feature screening for ultrahigh dimensional discriminant analysis[J]. Journal of the American Statistical Association, 2015, 110(510): 630-641. DOI: 10.1080/01621459.2014.920256. [15]MAI Q, ZOU H. The Kolmogorov filter for variable screening in high-dimensional binary classification[J]. Biometrika, 2013, 100(1): 229-234. DOI: 10.1093/biomet/ass062. [16]WU S, XUE H Q, WU Y C, et al. Variable selection for sparse high-dimensional nonlinear regression models by combining nonnegative garrote and sure independence screening[J]. Statistica Sinica, 2014, 24(3): 1365-1387. DOI: 10.5705/ss.2012.316. [17]DAVIDSON R, MACKINNON J G, et al. Implicit alternatives and the local power of test statistics[J]. Econometrica, 1987, 55(6): 1305-1329. DOI: 10.2307/1913558. [18]GOLUB T R, SLONIM D K, TAMAYO P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537. DOI: 10.1126/science.286.5439.531. [19]RABANI M, LEVIN J Z, FAN L, et al. Metabolic labeling of RNA uncovers principles of RNA production and degradation dynamics in mammalian cells[J]. Nature Biotechnology, 2011, 29(5): 436-442. DOI: 10.1038/nbt.1861. [20]YANG Y, ZHANG T, ZOU H. Flexible expectile regression in reproducing kernel Hilbert spaces[J]. Technometrics, 2018, 60(1): 26-35. DOI: 10.1080/00401706.2017.1291450. |
[1] | 翁小雄, 谢志鹏. 基于多层复杂网络的高速公路节点重要性研究[J]. 广西师范大学学报(自然科学版), 2021, 39(5): 78-88. |
[2] | 杨晓伟, 张军舰. 负二项回归模型的重对数律和强相合性[J]. 广西师范大学学报(自然科学版), 2020, 38(3): 59-69. |
[3] | 孟媛媛,韦 波,邹 瑶. 基于新Vague软集模糊熵-Topsis的地标决策[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 39-48. |
[4] | 杨鲲, 林娇, 蒋贵荣. 具有脉冲生育的随机SIS传染病模型的动力学分析[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 81-86. |
[5] | 周长会, 吴启勋, 侯庆高. 一种研究脂肪胺QSPR的拓扑方法[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 93-97. |
[6] | 周长会, 吴启勋, 侯庆高, 高宴梓, 李洪囡, 张瑞. 拓扑指数在脂肪醛、脂肪胺及脂肪烃沸点中的应用[J]. 广西师范大学学报(自然科学版), 2013, 31(1): 82-87. |
[7] | 张军舰, 杨秀芹. 最小加权KS估计[J]. 广西师范大学学报(自然科学版), 2012, 30(4): 54-58. |
[8] | 杨善朝, 梁丹. φ混合样本下频率插值密度估计的强相合性[J]. 广西师范大学学报(自然科学版), 2012, 30(3): 16-21. |
[9] | 崔永君, 杨善朝, 梁丹. LNQD样本最近邻密度估计的相合性[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 59-65. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |