|
广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 100-107.doi: 10.16088/j.issn.1001-6600.2021060919
徐萍, 钟思敏, 李斌斌, 熊文俊*
XU Ping, ZHONG Simin, LI Binbin, XIONG Wenjun*
摘要: 变量筛选是处理超高维数据的一种有效方法。针对部分变量与响应变量显著相关,Barut等基于线性模型假定提出CSIS方法,能有效降低伪变量错选概率。但CSIS方法线性模型假定严苛,实际研究中有时不能事先确定模型结构。由此,本文基于非参数可加模型提出条件非参数独立筛选方法(CNIS),不需要对模型结构进行假定,增大了适用范围。同时,在适当条件下,证明本文方法第1阶段的筛选具有一致性筛选性质,能以概率1保留重要变量;第2阶段的变量选择也具有良好相合性。Monte Carlo数据模拟结果表明:相较于NIS方法,本文方法表现更好。
中图分类号:
[1] FAN J Q, LV J C. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70(5): 849-911. [2]HALL P, MILLER H. Using generalized correlation to effect variable selection in very high dimensional problems[J]. Journal of Computational and Graphical Statistics, 2009, 18(3): 533-550. [3]LI G R, PENG H, ZHANG J, et al. Robust rank correlation based screening[J]. The Annals of Statistics, 2012, 40(3): 1846-1877. [4]BARUT E, FAN J Q, VERHASSELT A. Conditional sure independence screening[J]. Journal of the American Statistical Association, 2016, 111(515): 1266-1277. [5]马学俊. GSIS超高维变量选择[J]. 统计与信息论坛, 2015, 30(8): 16-19. [6]FAN J Q, SONG R. Sure independence screening in generalized linear models with NP dimensionality[J]. The Annals of Statistics, 2010, 38(6): 3567-3604. [7]XU C, CHEN J H. The sparse MLE for ultra-high-dimensional feature screening[J]. Journal of the American Statistical Association, 2014, 109(507): 1257-1269. [8]FAN J Q, FENG Y, SONG R. Nonparametric independence screening in sparse ultra-high-dimensional additive models[J]. Journal of the American Statistical Association, 2011, 106(494): 544-557. [9]FAN J Q, MA Y B, DAI W. Nonparametric independence screening in sparse ultra-high-dimensional varying coefficient models[J]. Journal of the American Statistical Association, 2014, 109(507): 1270-1284. [10]LIU J Y, LI R Z,WU R L. Feature selection for varying coefficient models with ultra high dimensional covariates[J]. Journal of the American Statistical Association, 2014, 109(505):266-274. [11]LI R Z, ZHONG W, ZHU L P. Feature screening via distance correlation learning[J]. Journal of the American Statistical Association, 2012, 107(499): 1129-1139. [12]STONE C J. Additive regression and other nonparametric models[J]. The Annals of Statistics, 1985,13(2): 689-705. [13]RIESENFELD R F. Application of B-spline approximation to geometric problems of computeraided design[D]. Syracuse: Syracuse University, 1973. [14]HUANG J, HOROWITZ J L, WEI F R. Variable selection in nonparametric additive models[J]. The Annals of Statistics, 2010, 38(4): 2282-2313. [15]SHEN X, WOLFE D A, ZHOU S. Local asymptotics for regression splines and confidence regions[J]. The Annals of Statistics, 1998, 26(5): 1760-1782. [16]DU P, CHENG G, LIANG H. Semiparametric regression models with additive nonparametric components and high dimensional parametric components[J]. Computational Statistics & Data Analysis, 2012, 56(6): 2006-2017. |
[1] | 白德发, 徐欣, 王国长. 函数型数据广义线性模型和分类问题综述[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 15-29. |
[2] | 曾庆樊, 秦永松, 黎玉芳. 一类空间面板数据模型的经验似然推断[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 30-42. |
[3] | 张治飞, 段谦, 刘乃嘉, 黄磊. 基于Jackknife互信息的高维非线性回归模型研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 43-56. |
[4] | 陈钟秀, 张兴发, 熊强, 宋泽芳. 非对称DAR模型的估计与检验[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 68-81. |
[5] | 孙烨, 蒋京京, 王纯杰. 广义极值回归模型下现状数据的贝叶斯估计[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 82-90. |
[6] | 贺建风, 石立. 大数据情境下基于切片逆回归的抽样方法研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 91-99. |
[7] | 任帅, 程文慧, 周洁. 混合广义部分线性加性模型的参数估计[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 108-124. |
[8] | 刘宇, 周稳, 李霓. 复发事件数据在含治愈个体的半参数比率模型下的经验似然推断[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 139-149. |
[9] | 舒婷, 罗幼喜, 李翰芳. 面板数据贝叶斯双惩罚分位回归方法研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 150-165. |
[10] | 朱恩文, 朱安麒, 王洁丹, 刘玉娇. 基于EEMD-GA-BP模型的风电功率短期预测研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 166-174. |
[11] | 颜海波, 邓罡, 姜云卢. 基于MRCD估计的多元线性回归模型的稳健估计[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 175-186. |
[12] | 孔令涛, 宋祥军, 王晓敏. 可加风险模型现状数据样本量的确定[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 187-194. |
[13] | 梁鑫, 陈小玲, 张兴发, 李元. 一类带有GARCH类误差项的自回归滑动平均模型[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 195-205. |
[14] | 李城恩, 潘晓映, 王美涵, 施建华. 基于区间型数据计量的我国粮食产量研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 206-215. |
[15] | 田镇滔, 张军舰. 基于分位数方法的超高维删失数据的特征筛选[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 99-111. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |