广西师范大学学报(自然科学版) ›› 2021, Vol. 39 ›› Issue (6): 99-111.doi: 10.16088/j.issn.1001-6600.2020122406

• 研究论文 • 上一篇    下一篇

基于分位数方法的超高维删失数据的特征筛选

田镇滔, 张军舰*   

  1. 广西师范大学 数学与统计学院, 广西 桂林 541006
  • 收稿日期:2020-12-24 修回日期:2021-03-30 出版日期:2021-11-25 发布日期:2021-12-08
  • 通讯作者: 张军舰(1973—), 男, 河南内乡人, 广西师范大学教授, 博士。E-mail: jjzhang@gxnu.edu.cn
  • 基金资助:
    国家自然科学基金(11861017); 广西研究生教育创新计划项目(XYCSZ2020061)

Quantile Feature Screening for Ultra High Dimensional Censored Data

TIAN Zhentao, ZHANG Junjian*   

  1. School of Mathematics and Statistics, Guangxi Normal University, Guilin Guangxi 541006, China
  • Received:2020-12-24 Revised:2021-03-30 Online:2021-11-25 Published:2021-12-08

摘要: 利用条件分位数分别在响应变量非随机删失和随机删失的情形下研究超高维数据的特征筛选,提出相应的特征筛选方法,理论证明和模拟验证都证明该方法筛选出的变量集满足确定筛选性质和排序一致性。与已有方法相比,本文方法在协变量与删失变量相关时具有相对优势。

关键词: 超高维删失数据, 特征筛选, 条件分位数

Abstract: In this paper, conditional quantiles are used to study the feature screening problem of ultra-high dimensional data when response variables are randomly censored and nonrandomly censored, respeclively. Then, a corresponding feature screening method is proposed. Through theoretical and simulation study, it is verified that the variable set created by this method satisfies the sure screening and ranking consistency properties. Compared with the existing methods, this method has some advantages when covariates and censored variables are correlative.

Key words: ultra-high dimensional censoring data, feature screening, conditional quantile

中图分类号: 

  • O212.1
[1] 唐振军, 杨帆, 黄紫晴, 等. 基于PCA特征距离的图像哈希算法[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 9-18.
[2] TIBSHIRANI R. Regression shrinkage and selection via the LASSO[J]. Journal of the Royal Statistical Society: Series B(Methodological), 1996, 58(1): 267-288.
[3] FAN J Q, LI R Z. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American Statistical Association, 2001, 96(456): 1348-1360.
[4] 杨善朝. 线性模型中岭估计的相合性[J]. 广西师范大学学报(自然科学版), 1992, 10(1): 25-29.
[5] 杨晓伟, 张军舰. 负二项回归模型的重对数律和强相合性[J]. 广西师范大学学报(自然科学版), 2020, 38(3): 59-69.
[6] FAN J Q, LV J C. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of The Royal Statistical Society Series B-Statistical Methodology, 2008, 70(5): 849-911.
[7] FAN J Q, SONG R. Sure independence screening in generalized linear models with np-dimensionality[J]. Annals of Statistics, 2010, 38(6): 3567-3604.
[8] ZHU L P, LI L X, LI R Z, et al. Model-free feature screening for ultrahigh dimensional data[J]. Journal of the American Statistical Association, 2011, 106(496): 1464-1475.
[9] LI R Z, ZHONG W, ZHU L P. Feature screening via distance correlation learning[J]. Journal of the American Statistical Association, 2012, 107: 1129-1139.
[10] LIU Y, CHEN X L. Quantile screening for ultra-high-dimensional heterogeneous data conditional on some variables[J]. Journal of Statistical Computation and Simulation, 2018, 88(2): 329-342.
[11] 赖秋楠, 李玉杰, 李高荣. 超高维部分线性模型的PGFR变量筛选[J]. 应用概率统计, 2017, 33(6): 608-624.
[12] 何胜美, 李高荣, 许王莉. 基于秩能量距离的超高维特征筛选研究[J]. 统计研究, 2020, 37(8): 117-128.
[13] LIU Y, CHEN X L. A new robust model-free feature screening method for ultra-high dimensional right censored data[J]. Communications in Statistics-Theory and Methods, 2020: 1-19.
[14] 高羽飞, 来鹏, 何孟霜, 等. 基于模型平均的超高维数据特征筛选方法[J]. 扬州大学学报(自然科学版), 2020, 23 (3): 7-14.
[15] ZHAO S D, LI Y. Principled sure independence screening for cox models with ultra-high-dimensionalcovariates[J]. Journal of Multivariate Analysis, 2012, 105(1): 397-411.
[16] ZHOU T Y, ZHU L P. Model-free feature screening for ultrahigh dimensional censored regression[J]. Statistics and Computing, 2017, 27(4): 947-961.
[17] CHEN X L. Model-free conditional feature screening for ultra-high dimensional right censored data[J]. Journal of Statistical Computation and Simulation, 2019, 88(12): 242-546.
[18] HE X M, WANG L, HONG H G. Quantile-adaptive model-free variable screening for high-dimensional heterogeneous data[J]. Annals of Statistics, 2013, 41: 342-369.
[19] WU Y S, YIN G S. Conditional quantile screening in ultrahigh-dimensional heterogeneous data[J]. Biometrika, 2015, 102(1): 65-76.
[20] NEDELJKOVIE M. Nonparametric test of conditional quantile independence with an application to banks, system risk[EB/OL]. (2010-03-07)[2020-12-24]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.597.4858&rep=rep1& type=pdf.
[21] SERFLING R J. Approximation theorems of mathematical statistics[M]. New York: John Wiley & Sons, Inc., 1980.
[22] LIU J Y, LI R Z, WU R L. Feature selection for varying coefficient models with ultrahigh-dimensional covariates[J]. Journal of the American Statistical Association, 2014, 109(505): 266-274.
[1] 谢冬林, 邓国和. 随机利率跳扩散模型下幂型乘积远期生效期权定价[J]. 广西师范大学学报(自然科学版), 2021, 39(5): 158-172.
[2] 李莉丽, 张兴发, 李元, 邓春亮. 基于高频数据的日频GARCH模型估计[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 68-78.
[3] 林松, 尹长明. 两阶段Logit模型的惩罚广义估计方程估计的渐近性质[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 126-130.
[4] 何琳,杨善朝. α-混合随机域边缘频率插值的渐近方差性[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 88-94.
[5] 雷庆祝, 秦永松, 罗敏. 强混合样本下刻度指数分布族参数的经验贝叶斯估计和检验[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 63-74.
[6] 张军舰,赖廷煜,杨晓伟. VaR和ES的贝叶斯经验似然估计[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 38-45.
[7] 张新成, 张军舰, 詹欢. 基于垂直密度表示的经验欧氏拟合优度检验[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 60-65.
[8] 杜雪松, 宾石玉, 林勇, 唐章生, 张永德, 曾兰, 杨慧赞, 陈忠. 基于ULCIZ和SIT的罗非鱼耐寒性能测定模型[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 134-139.
[9] 张军舰, 詹欢, 晏振. 基于经验欧氏似然的拟合优度检验[J]. 广西师范大学学报(自然科学版), 2012, 30(3): 30-35.
[10] 张军舰, 杨秀芹. 最小加权KS估计[J]. 广西师范大学学报(自然科学版), 2012, 30(4): 54-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 胡锦铭, 韦笃取. 不同阶次分数阶永磁同步电机的混合投影同步[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 1 -8 .
[2] 武康康, 周鹏, 陆叶, 蒋丹, 闫江鸿, 钱正成, 龚闯. 基于小批量梯度下降法的FIR滤波器[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 9 -20 .
[3] 刘东, 周莉, 郑晓亮. 基于SA-DBN的超短期电力负荷预测[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 21 -33 .
[4] 张伟彬, 吴军, 易见兵. 基于RFB网络的特征融合管制物品检测算法研究[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 34 -46 .
[5] 王金艳, 胡春, 高健. 一种面向知识编译的OBDD构造方法[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 47 -54 .
[6] 逯苗, 何登旭, 曲良东. 非线性参数的精英学习灰狼优化算法[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 55 -67 .
[7] 李莉丽, 张兴发, 李元, 邓春亮. 基于高频数据的日频GARCH模型估计[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 68 -78 .
[8] 李松涛, 李群宏, 张文. 三自由度碰撞振动系统的余维二擦边分岔与混沌控制[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 79 -92 .
[9] 赵红涛, 刘志伟. λ重完全二部3-一致超图λK(3)n,n分解为超图双三角锥[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 93 -98 .
[10] 李梦, 曹庆先 , 胡宝清. 1960—2018年广西大陆海岸线时空变迁分析[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 99 -108 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发