广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 43-56.doi: 10.16088/j.issn.1001-6600.2021060910

• 研究论文 • 上一篇    下一篇

基于Jackknife互信息的高维非线性回归模型研究

张治飞1, 段谦1, 刘乃嘉2, 黄磊1*   

  1. 1.西南交通大学 数学学院, 四川 成都 611756;
    2.西南财经大学 统计学院, 四川 成都 611137
  • 收稿日期:2021-06-09 修回日期:2021-06-27 出版日期:2022-01-25 发布日期:2022-01-24
  • 通讯作者: 黄磊(1987—), 男, 四川成都人, 西南交通大学副教授。 E-mail: stahl@swjtu.edu.cn
  • 基金资助:
    国家自然科学基金重点项目(72033002); 国家自然科学基金(11771066)

High-dimensional Nonlinear Regression Model Based on JMI

ZHANG Zhifei1, DUAN Qian1, LIU Naijia2, HUANG Lei1*   

  1. 1. School of Mathematics, Southwest Jiaotong University, Chengdu Sichuan 611756, China;
    2. School of Statistics, Southwestern University of Finance and Economics, Chengdu Sichuan 611137, China
  • Received:2021-06-09 Revised:2021-06-27 Online:2022-01-25 Published:2022-01-24

摘要: 确定独立筛选(SIS)方法在处理超高维稀疏线性回归模型的变量选择问题上已得到了广泛的应用,且已被推广到处理广义线性回归模型的变量选择问题。但SIS不能很好地解决非线性回归模型的变量选择问题,关于该问题的现有研究也较少,因此,如何有效地对超高维稀疏非线性回归模型进行变量选择是一个具有研究价值的问题。本文在经典的SIS方法基础上,利用互信息的刀切估计(JMI),提出JMI与SIS相结合的方法,给出具体算法步骤,以实现超高维稀疏非线性回归模型的变量选择问题,并通过一些有代表性的统计模拟试验,验证所提方法的相合性,同时通过2个超高维基因数据的实例分析,对所提方法的可行性以及实用性进行说明。

关键词: 超高维空间, SIS, 非线性回归, JMI, 相合性

Abstract: Sure Independence Screening (SIS) has been widely used in the variable selection of linear regression models in ultra-high dimensional space, and extended to deal with the variable selection of generalized linear regression models. However, SIS cannot solve the problem of variable selection in nonlinear regression models well, and there are few existing studies on this problem. Therefore, how to effectively select variables in nonlinear regression models in ultra-high dimensional space becomes a problem with research value. Based on the classic SIS method, by considering Jackknife-based estimation of mutual information (JMI), a method combining SIS with JMI is proposed, and a specific algorithm is provided to realize the variable selection of the nonlinear regression model in the ultra-high dimensional space. Through some representative simulation experiments, this paper verifies the consistency of the proposed method. In addition, by the analysis of two examples gene data, the feasibility and practicality of the proposed method are elaborated.

Key words: ultra-high dimensional space, SIS, nonlinear regression, JMI, consistency

中图分类号: 

  • O212.1
[1] 张晓琴, 刘莉楠. 基于亲密度和吸引力的二分网络社区发现算法[J]. 计算机工程与应用, 2019, 55(23): 170-176. DOI: 10.3778/j.issn.1002-8331.1808-0090.
[2]韦春荣, 何楚. 基于改进型互信息的遥感图像配准方法[J]. 广西师范大学学报(自然科学版), 2014, 32(2): 20-25. DOI: 10.16088/j.issn.1001-6600.2014.02.033.
[3]ZENG X L, XIA Y C, TONG H. Jackknife approach to the estimation of mutual information[J]. Proceedings of the National Academy of Sciences of the United States of America, 2018, 115(40): 9956-9961. DOI: 10.1073/pnas.1715593115.
[4]DESBOULETS L D D. A review on variable selection in regression analysis[J]. Econometrics, 2018, 6(4): 45. DOI: 10.3390/econometrics6040045.
[5]FAN J Q, LV J C. Sure independence screening for ultrahigh dimensional feature space[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2008, 70(5): 849-911. DOI:10.1111/j.1467-9868.2008.00674.x.
[6]张秀秀. 基于(I)SIS的变量选择方法及其在极高维数据生存分析中的应用[D]. 太原: 山西医科大学, 2013. DOI: 10.7666/d.Y2339335.
[7]马学俊. GSIS超高维变量选择[J]. 统计与信息论坛, 2015, 30(8): 16-19. DOI: 10.3969/j.issn.1007-3116.2015.08.004.
[8]HALL P, MILLER H. Using generalized correlation to effect variable selection in very high dimensional problems[J]. Journal of Computational and Graphical Statistics, 2009, 18(3): 533-550. DOI: 10.1198/jcgs.2009.08041.
[9]ANTONIADIS A, FAN J Q. Regularization of wavelet approximations[J]. Journal of the American Statistical Association, 2001, 96(455): 939-967. DOI: 10.1198/016214501753208942.
[10]YUAN M, LIN Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2006, 68(1): 49-67. DOI: 10.1111/j.1467-9868.2005.00532.x.
[11]LIN Y, ZHANG H H. Component selection and smoothing in multivariate nonparametric regression[J]. The Annals of Statistics, 2006, 34(5): 2272-2297. DOI: 10.1214/009053606000000722.
[12]RAVIKUMAR P, LAFFERTY J, LIU H, et al. Sparse additive models[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2009, 71(5): 1009-1030. DOI: 10.1111/j.1467-9868.2009.00718.x.
[13]ZHU L P, LI L X, LI R Z, et al. Model-free feature screening for ultrahigh dimensional data[J]. Journal of the American Statistical Association, 2011, 106(496): 1464-1475. DOI: 10.1198/jasa.2011.tm10563.
[14]CUI H J, LI R Z, ZHONG W. Model-free feature screening for ultrahigh dimensional discriminant analysis[J]. Journal of the American Statistical Association, 2015, 110(510): 630-641. DOI: 10.1080/01621459.2014.920256.
[15]MAI Q, ZOU H. The Kolmogorov filter for variable screening in high-dimensional binary classification[J]. Biometrika, 2013, 100(1): 229-234. DOI: 10.1093/biomet/ass062.
[16]WU S, XUE H Q, WU Y C, et al. Variable selection for sparse high-dimensional nonlinear regression models by combining nonnegative garrote and sure independence screening[J]. Statistica Sinica, 2014, 24(3): 1365-1387. DOI: 10.5705/ss.2012.316.
[17]DAVIDSON R, MACKINNON J G, et al. Implicit alternatives and the local power of test statistics[J]. Econometrica, 1987, 55(6): 1305-1329. DOI: 10.2307/1913558.
[18]GOLUB T R, SLONIM D K, TAMAYO P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537. DOI: 10.1126/science.286.5439.531.
[19]RABANI M, LEVIN J Z, FAN L, et al. Metabolic labeling of RNA uncovers principles of RNA production and degradation dynamics in mammalian cells[J]. Nature Biotechnology, 2011, 29(5): 436-442. DOI: 10.1038/nbt.1861.
[20]YANG Y, ZHANG T, ZOU H. Flexible expectile regression in reproducing kernel Hilbert spaces[J]. Technometrics, 2018, 60(1): 26-35. DOI: 10.1080/00401706.2017.1291450.
[1] 翁小雄, 谢志鹏. 基于多层复杂网络的高速公路节点重要性研究[J]. 广西师范大学学报(自然科学版), 2021, 39(5): 78-88.
[2] 杨晓伟, 张军舰. 负二项回归模型的重对数律和强相合性[J]. 广西师范大学学报(自然科学版), 2020, 38(3): 59-69.
[3] 孟媛媛,韦 波,邹 瑶. 基于新Vague软集模糊熵-Topsis的地标决策[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 39-48.
[4] 杨鲲, 林娇, 蒋贵荣. 具有脉冲生育的随机SIS传染病模型的动力学分析[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 81-86.
[5] 周长会, 吴启勋, 侯庆高. 一种研究脂肪胺QSPR的拓扑方法[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 93-97.
[6] 周长会, 吴启勋, 侯庆高, 高宴梓, 李洪囡, 张瑞. 拓扑指数在脂肪醛、脂肪胺及脂肪烃沸点中的应用[J]. 广西师范大学学报(自然科学版), 2013, 31(1): 82-87.
[7] 张军舰, 杨秀芹. 最小加权KS估计[J]. 广西师范大学学报(自然科学版), 2012, 30(4): 54-58.
[8] 杨善朝, 梁丹. φ混合样本下频率插值密度估计的强相合性[J]. 广西师范大学学报(自然科学版), 2012, 30(3): 16-21.
[9] 崔永君, 杨善朝, 梁丹. LNQD样本最近邻密度估计的相合性[J]. 广西师范大学学报(自然科学版), 2012, 30(2): 59-65.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘国伦, 宋树祥, 岑明灿, 李桂琴, 谢丽娜. 带宽可调带阻滤波器的设计[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 1 -8 .
[2] 刘铭, 张双全, 何禹德. 基于改进SOM神经网络的异网电信用户细分研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 17 -24 .
[3] 胡郁葱, 陈栩, 罗嘉陵. 多起终点多车型混载的定制公交线路规划模型[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 1 -11 .
[4] 唐堂, 魏承赟, 罗晓曙, 丘森辉. 基于附加惯性项人群搜索算法的四旋翼无人机姿态控制研究[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 12 -19 .
[5] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20 -26 .
[6] 韦振汉, 宋树祥, 夏海英. 基于随机森林的锂离子电池荷电状态估算[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 27 -33 .
[7] 许远静, 胡维平. 基于随机森林的不同程度病态嗓音识别[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 34 -41 .
[8] 张灿龙, 苏建才, 李志欣, 王智文. 基于AdaBoost置信图的红外与可见光目标跟踪[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 42 -50 .
[9] 刘电霆, 吴丽娜. 社会网络中基于信任的LDA主题模型领域专家推荐[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 51 -58 .
[10] 姜影星, 黄文念. 非线性薛定谔-麦克斯韦方程的基态解[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 59 -66 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发