广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 100-107.doi: 10.16088/j.issn.1001-6600.2021060919

• 研究论文 • 上一篇    下一篇

基于稀疏超高维非参数可加模型的条件独立筛选

徐萍, 钟思敏, 李斌斌, 熊文俊*   

  1. 广西师范大学 数学与统计学院, 广西 桂林 541006
  • 收稿日期:2021-06-09 修回日期:2021-07-30 出版日期:2022-01-25 发布日期:2022-01-24
  • 通讯作者: 熊文俊(1987—), 男, 浙江衢州人, 广西师范大学副教授, 博士。 E-mail: wjxiong@gxnu.edu.cn
  • 基金资助:
    国家自然科学基金(11801102,11861017); 广西高等学校千名中青年骨干教师培育计划资助项目

Conditional Independence Screening in Sparse Ultra-high Dimensional Nonparametric Additive Models

XU Ping, ZHONG Simin, LI Binbin, XIONG Wenjun*   

  1. School of Mathematics and Statistics, Guangxi Normal University, Guilin Guangxi 541006, China
  • Received:2021-06-09 Revised:2021-07-30 Online:2022-01-25 Published:2022-01-24

摘要: 变量筛选是处理超高维数据的一种有效方法。针对部分变量与响应变量显著相关,Barut等基于线性模型假定提出CSIS方法,能有效降低伪变量错选概率。但CSIS方法线性模型假定严苛,实际研究中有时不能事先确定模型结构。由此,本文基于非参数可加模型提出条件非参数独立筛选方法(CNIS),不需要对模型结构进行假定,增大了适用范围。同时,在适当条件下,证明本文方法第1阶段的筛选具有一致性筛选性质,能以概率1保留重要变量;第2阶段的变量选择也具有良好相合性。Monte Carlo数据模拟结果表明:相较于NIS方法,本文方法表现更好。

关键词: 变量筛选, 可加模型, 变量选择, 确定筛选

Abstract: Variable screening is an effective method for processing ultra-high-dimensional data. Barut et al. considered that some of the known variables are significantly related to the response variables, and propose the CSIS method based on the assumption of a linear model. This method can effectively reduce the probability of false variable selection. However, its linear model assumptions are more stringent. In actual research, the structure of the model cannot be determined in advance. Therefore, this paper proposes a conditional non-parametric independent screening method (CNIS) based on a non-parametric additive model, which does not need to make assumptions about the model structure, to increases the scope of application. At the same time, under appropriate conditions, it is proved that the screening in the first stage of the method has consistent screening properties and can retain important variables with probability 1. The variable selection in the second stage also has good consistency. The simulation results based on Monte Carlo data show that this method has better performance than the NIS method.

Key words: screening, additive model, variable selection, sure screening

中图分类号: 

  • O212
[1] FAN J Q, LV J C. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70(5): 849-911.
[2]HALL P, MILLER H. Using generalized correlation to effect variable selection in very high dimensional problems[J]. Journal of Computational and Graphical Statistics, 2009, 18(3): 533-550.
[3]LI G R, PENG H, ZHANG J, et al. Robust rank correlation based screening[J]. The Annals of Statistics, 2012, 40(3): 1846-1877.
[4]BARUT E, FAN J Q, VERHASSELT A. Conditional sure independence screening[J]. Journal of the American Statistical Association, 2016, 111(515): 1266-1277.
[5]马学俊. GSIS超高维变量选择[J]. 统计与信息论坛, 2015, 30(8): 16-19.
[6]FAN J Q, SONG R. Sure independence screening in generalized linear models with NP dimensionality[J]. The Annals of Statistics, 2010, 38(6): 3567-3604.
[7]XU C, CHEN J H. The sparse MLE for ultra-high-dimensional feature screening[J]. Journal of the American Statistical Association, 2014, 109(507): 1257-1269.
[8]FAN J Q, FENG Y, SONG R. Nonparametric independence screening in sparse ultra-high-dimensional additive models[J]. Journal of the American Statistical Association, 2011, 106(494): 544-557.
[9]FAN J Q, MA Y B, DAI W. Nonparametric independence screening in sparse ultra-high-dimensional varying coefficient models[J]. Journal of the American Statistical Association, 2014, 109(507): 1270-1284.
[10]LIU J Y, LI R Z,WU R L. Feature selection for varying coefficient models with ultra high dimensional covariates[J]. Journal of the American Statistical Association, 2014, 109(505):266-274.
[11]LI R Z, ZHONG W, ZHU L P. Feature screening via distance correlation learning[J]. Journal of the American Statistical Association, 2012, 107(499): 1129-1139.
[12]STONE C J. Additive regression and other nonparametric models[J]. The Annals of Statistics, 1985,13(2): 689-705.
[13]RIESENFELD R F. Application of B-spline approximation to geometric problems of computeraided design[D]. Syracuse: Syracuse University, 1973.
[14]HUANG J, HOROWITZ J L, WEI F R. Variable selection in nonparametric additive models[J]. The Annals of Statistics, 2010, 38(4): 2282-2313.
[15]SHEN X, WOLFE D A, ZHOU S. Local asymptotics for regression splines and confidence regions[J]. The Annals of Statistics, 1998, 26(5): 1760-1782.
[16]DU P, CHENG G, LIANG H. Semiparametric regression models with additive nonparametric components and high dimensional parametric components[J]. Computational Statistics & Data Analysis, 2012, 56(6): 2006-2017.
[1] 白德发, 徐欣, 王国长. 函数型数据广义线性模型和分类问题综述[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 15-29.
[2] 曾庆樊, 秦永松, 黎玉芳. 一类空间面板数据模型的经验似然推断[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 30-42.
[3] 张治飞, 段谦, 刘乃嘉, 黄磊. 基于Jackknife互信息的高维非线性回归模型研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 43-56.
[4] 陈钟秀, 张兴发, 熊强, 宋泽芳. 非对称DAR模型的估计与检验[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 68-81.
[5] 孙烨, 蒋京京, 王纯杰. 广义极值回归模型下现状数据的贝叶斯估计[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 82-90.
[6] 贺建风, 石立. 大数据情境下基于切片逆回归的抽样方法研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 91-99.
[7] 任帅, 程文慧, 周洁. 混合广义部分线性加性模型的参数估计[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 108-124.
[8] 刘宇, 周稳, 李霓. 复发事件数据在含治愈个体的半参数比率模型下的经验似然推断[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 139-149.
[9] 舒婷, 罗幼喜, 李翰芳. 面板数据贝叶斯双惩罚分位回归方法研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 150-165.
[10] 朱恩文, 朱安麒, 王洁丹, 刘玉娇. 基于EEMD-GA-BP模型的风电功率短期预测研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 166-174.
[11] 颜海波, 邓罡, 姜云卢. 基于MRCD估计的多元线性回归模型的稳健估计[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 175-186.
[12] 孔令涛, 宋祥军, 王晓敏. 可加风险模型现状数据样本量的确定[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 187-194.
[13] 梁鑫, 陈小玲, 张兴发, 李元. 一类带有GARCH类误差项的自回归滑动平均模型[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 195-205.
[14] 李城恩, 潘晓映, 王美涵, 施建华. 基于区间型数据计量的我国粮食产量研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 206-215.
[15] 田镇滔, 张军舰. 基于分位数方法的超高维删失数据的特征筛选[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 99-111.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘国伦, 宋树祥, 岑明灿, 李桂琴, 谢丽娜. 带宽可调带阻滤波器的设计[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 1 -8 .
[2] 刘铭, 张双全, 何禹德. 基于改进SOM神经网络的异网电信用户细分研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 17 -24 .
[3] 胡郁葱, 陈栩, 罗嘉陵. 多起终点多车型混载的定制公交线路规划模型[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 1 -11 .
[4] 唐堂, 魏承赟, 罗晓曙, 丘森辉. 基于附加惯性项人群搜索算法的四旋翼无人机姿态控制研究[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 12 -19 .
[5] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20 -26 .
[6] 韦振汉, 宋树祥, 夏海英. 基于随机森林的锂离子电池荷电状态估算[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 27 -33 .
[7] 许远静, 胡维平. 基于随机森林的不同程度病态嗓音识别[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 34 -41 .
[8] 张灿龙, 苏建才, 李志欣, 王智文. 基于AdaBoost置信图的红外与可见光目标跟踪[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 42 -50 .
[9] 刘电霆, 吴丽娜. 社会网络中基于信任的LDA主题模型领域专家推荐[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 51 -58 .
[10] 姜影星, 黄文念. 非线性薛定谔-麦克斯韦方程的基态解[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 59 -66 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发