广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 175-186.doi: 10.16088/j.issn.1001-6600.2021060911

• 研究论文 • 上一篇    下一篇

基于MRCD估计的多元线性回归模型的稳健估计

颜海波1, 邓罡2, 姜云卢2*   

  1. 1.暨南大学 公共管理学院, 广东 广州 510632;
    2.暨南大学 经济学院, 广东 广州 510632
  • 收稿日期:2021-06-09 修回日期:2021-07-18 出版日期:2022-01-25 发布日期:2022-01-24
  • 通讯作者: 姜云卢(1983—), 男, 湖南邵阳人, 暨南大学副教授。E-mail: tjiangyl@jnu.edu.cn
  • 基金资助:
    广东省自然科学基金(2018A030313171, 2019A1515011830)

Robust Estimation of Multivariate Linear Regression Model Based on MRCD Estimation

YAN Haibo1, DENG Gang2, JIANG Yunlu2*   

  1. 1. School of Public Administration, Jinan University, Guangzhou Guangdong 510632, China;
    2. School of Economics, Jinan University, Guangzhou Guangdong 510632, China
  • Received:2021-06-09 Revised:2021-07-18 Online:2022-01-25 Published:2022-01-24

摘要: 含异常值的数据和高维数据越来越频繁地出现,对现有的稳健估计和多元线性回归估计方法提出了挑战。传统的多元线性回归模型估计对异常值非常敏感,基于MCD估计方法的多元线性回归估计对异常值有一定的抵御作用。但随着数据维数的增加,MCD估计的精度不断降低,稳健性也随之降低,且当数据维数大于样本量时MCD估计方法失效。因此,本文利用MRCD的均值向量和协方差矩阵估计,提出了基于MRCD估计方法的高维稳健多元线性回归模型估计。数值模拟的结果表明,基于MRCD估计方法的多元线性回归模型估计能很好地抵御异常值,且在数据维数大于样本量的情况下,基于MRCD估计方法的多元线性回归估计更为有效。实证分析的结果表明,基于MRCD方法的多元线性回归估计能更好地抵御异常值并得到更好的预测效果。

关键词: 异常值, 高维数据, MCD估计, MRCD估计, 多元线性回归模型

Abstract: Data with outliers and high-dimensional data appear more and more frequently, challenging the existing robust estimation methods and multivariate linear model estimation methods. The traditional multivariate linear model estimation is very sensitive to outliers, and the multivariate linear model estimation based on the MCD estimation method has a certain resistance to outliers. But with the increase of the data dimensionality, the accuracy of MCD estimation continues to decrease, and the robustness also decreases. The MCD estimation method fails when the data dimensionality is greater than the sample size. Therefore, using the mean vector and covariance matrix estimation of MRCD, a high-dimensional robust multivariate linear model estimation based on the MRCD estimation method is proposed. Numerical simulation results show that the multivariate linear model estimation based on the MRCD estimation method can resist outliers well, and when the data dimension is larger than the sample size, the multivariate linear model estimation based on the MRCD estimation method is more effective. The results of empirical analysis show that the multiple linear regression estimation based on the MRCD method can better resist outliers and get better prediction results.

Key words: outliers, high-dimensional data, MCD estimation, MRCD estimation, multivariate linear model

中图分类号: 

  • O212.1
[1] 耿修林. 多元质量特性预报: MULTIVARIATE回归分析的应用[J]. 数理统计与管理, 2008, 27(5): 807-814. DOI: 10.13860/j.cnki.sltj.2008.05.002.
[2]邓永亮. 网络营销规模影响因素的多重回归与实证分析[J]. 商业时代, 2013(6): 39-40.
[3]耿修林, 黄婷婷. 基于多重多元回归的多目标影响因素效应比较及应用: 以企业经营活动分析为例[J]. 统计与信息论坛, 2019, 34(10): 100-107. DOI: 10.3969/j.issn.1007-3116.2019.10.013.
[4]向润, 陈素芬, 曾雪强. 基于多重多元回归的人脸年龄估计[J]. 山东大学学报(工学版), 2019, 49(2): 54-60.
[5]廖文辉, 林睿, 何志锋, 等. 基于稳健回归的颗粒物浓度预测研究[J]. 湖南理工学院学报(自然科学版), 2021, 34(2): 20-23, 91. DOI: 10.16740/j.cnki.cn43-1421/n.2021.02.005.
[6]HUBER P J. Robust regression: asymptotics, conjectures and Monte Carlo[J]. The Annals of Statistics, 1973, 1(5): 799-821. DOI: 10.1214/aos/1176342503.
[7]JUREČKOVÁ J. Nonparametric estimate of regression coefficients[J]. The Annals of Mathematical Statistics, 1971, 42(4): 1328-1338. DOI: 10.1214/aoms/1177693245.
[8]KOENKER R, PORTNOY S. L-estimation for linear models[J]. Journal of the American Statistical Association, 1987, 82(399): 851-857. DOI: 10.1080/01621459.1987.10478508.
[9]KRASKER W S, WELSCH R E. Efficient bounded-influence regression estimation[J]. Journal of the American Statistical Association, 1982, 77(379): 595-604. DOI: 10.1080/01621459.1982.10477855.
[10]MARONNA R A, YOHAI V J. Asymptotic behavior of general M-estimates for regression and scale with random carriers[J]. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, 1981, 58(1): 7-20. DOI: 10.1007/BF00536192.
[11]ANDREWS D F, BICKEL P J, HAMPEL F R, et al. Robust estimates of location: survey and advances[M]. Princeton, NJ: Princeton University Press, 2016.
[12]HAMPEL F R. Beyond location parameters: robust concepts and methods[J]. Bulletin of the International Statistical Institute, 1975, 46(1): 375-382.
[13]ROUSSEEUW P J. Least median of squares regression[J]. Journal of the American Statistical Association, 1984, 79(388): 871-880. DOI: 10.1080/01621459.1984.10477105.
[14]PIEPEL G F. Robust regression and outlier detection[J]. Technometrics, 1989, 31(2): 260-261. DOI: 10.1080/00401706. 1989.10488524.
[15]AGULLÓ J, CROUX C, VAN AELST S. The multivariate least-trimmed squares estimator[J]. Journal of Multivariate Analysis, 2008, 99(3):311-338. DOI: 10.1016/j.jmva.2006.06.005.
[16]SHE Y Y, OWEN A B. Outlier detection using nonconvex penalized regression[J]. Journal of the American Statistical Association, 2011, 106(494): 626-639. DOI: 10.1198/jasa.2011.tm10390.
[17]KONG D H, BONDELL H D, WU Y C. Fully efficient robust estimation, outlier detection and variable selection via penalized regression[J]. Statistica Sinica, 2018, 28(2): 1031-1052. DOI: 10.5705/ss.202016.0441.
[18]GAO X L, FENG Y. Penalized weighted least absolute deviation regression[J]. Statistics and Its Interface, 2018, 11(1): 79-89. DOI: 10.4310/SII.2018.v11.n1.a7.
[19]JIANG Y L, WANG Y, ZHANG J T, et al. Outlier detection and robust variable selection via the penalized weighted LAD-LASSO method[J]. Journal of Applied Statistics, 2021, 48(2): 234-246. DOI: 10.1080/02664763.2020.1722079.
[20]KOENKER R, PORTNOY S.M estimation of multivariate regressions[J]. Journal of the American Statistical Association, 1990, 85(412): 1060-1068. DOI: 10.1080/01621459.1990.10474976.
[21]BILODEAU M, DUCHESNE P. Robust estimation of the SUR model[J]. The Canadian Journal of Statistics, 2000, 28(2): 277-288. DOI: 10.2307/3315978.
[22]DAVIES P L. Asymptotic behaviour of S-estimates of multivariate location parameters and dispersion matrices[J]. The Annals of Statistics, 1987, 15(3): 1269-1292. DOI: 10.1214/aos/1176350505.
[23]ROELANT E, VAN AELST S, CROUX C. Multivariate generalized S-estimators[J]. Journal of Multivariate Analysis, 2009, 100(5): 876-887. DOI: 10.1016/j.jmva.2008.09.002.
[24]CROUX C, ROUSSEEUW P J, HÖSSJER O. Generalized S-estimators[J]. Journal of the American Statistical Association, 1994, 89(428): 1271-1281. DOI: 10.1080/01621459.1994.10476867.
[25]BEN M G, MARTÍNEZ E, YOHAI V J. Robust estimation for the multivariate linear model based on a τ-scale[J]. Journal of Multivariate Analysis, 2006, 97(7): 1600-1622. DOI: 10.1016/j.jmva.2005.08.007.
[26]GAO C. Robust regression via mutivariate regression depth[EB/OL]. (2017-02-15)[2021-06-09]. https://arxiv.org/abs/ 1702.04656.
[27]ROUSSEEUW P J, VAN DRIESSEN K. A fast algorithm for the minimum covariance determinant estimator[J]. Technometrics, 1999, 41(3): 212-223. DOI: 10.1080/00401706.1999.10485670.
[28]ROUSSEEUW P J, VAN AELST S, VAN DRIESSEN K, et al. Robust multivariate regression[J]. Technometrics, 2004, 46(3): 293-305. DOI: 10.1198/004017004000000329.
[29]BOUDT K, ROUSSEEUW P J, VANDUFFEL S, et al. The minimum regularized covariance determinant estimator[J]. Statistics and Computing, 2020, 30(1): 113-128. DOI: 10.1007/s11222-019-09869-x.
[30]姜云卢, 胡月, 刘巧云, 等. 高维稳健主成分聚类方法及其应用研究[J/OL]. 数理统计与管理, 2020[2021-06-09]. https://doi.org/10.13860/j.cnki.sltj.20201016-002.
[31]LEDOIT O, WOLF M. A well-conditioned estimator for large-dimensional covariance matrices[J]. Journal of Multivariate Analysis, 2004, 88(2): 365-411. DOI: 10.1016/S0047-259X(03)00096-4.
[32]HARDIN J, ROCKE D M. Outlier detection in the multiple cluster setting using the minimum covariance determinant estimator[J]. Computational Statistics & Data Analysis, 2004, 44(4): 625-638. DOI: 10.1016/S0167-9473(02)00280-3.
[33]YEH I C. Modeling slump flow of concrete using second-order regressions and artificial neural networks[J]. Cement and Concrete Composites, 2007, 29(6): 474-480. DOI: 10.1016/j.cemconcomp.2007.02.001.
[34]ROUSSEEUW P J, VAN ZOMEREN B C. Unmasking multivariate outliers and leverage points[J]. Journal of the American Statistical Association, 1990, 85(411): 633-639. DOI: 10.1080/01621459.1990.10474920.
[1] 张治飞, 段谦, 刘乃嘉, 黄磊. 基于Jackknife互信息的高维非线性回归模型研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 43-56.
[2] 陈钟秀, 张兴发, 熊强, 宋泽芳. 非对称DAR模型的估计与检验[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 68-81.
[3] 刘宇, 周稳, 李霓. 复发事件数据在含治愈个体的半参数比率模型下的经验似然推断[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 139-149.
[4] 朱恩文, 朱安麒, 王洁丹, 刘玉娇. 基于EEMD-GA-BP模型的风电功率短期预测研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 166-174.
[5] 梁鑫, 陈小玲, 张兴发, 李元. 一类带有GARCH类误差项的自回归滑动平均模型[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 195-205.
[6] 田镇滔, 张军舰. 基于分位数方法的超高维删失数据的特征筛选[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 99-111.
[7] 谢冬林, 邓国和. 随机利率跳扩散模型下幂型乘积远期生效期权定价[J]. 广西师范大学学报(自然科学版), 2021, 39(5): 158-172.
[8] 李莉丽, 张兴发, 李元, 邓春亮. 基于高频数据的日频GARCH模型估计[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 68-78.
[9] 林松, 尹长明. 两阶段Logit模型的惩罚广义估计方程估计的渐近性质[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 126-130.
[10] 何琳,杨善朝. α-混合随机域边缘频率插值的渐近方差性[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 88-94.
[11] 雷庆祝, 秦永松, 罗敏. 强混合样本下刻度指数分布族参数的经验贝叶斯估计和检验[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 63-74.
[12] 张军舰,赖廷煜,杨晓伟. VaR和ES的贝叶斯经验似然估计[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 38-45.
[13] 张新成, 张军舰, 詹欢. 基于垂直密度表示的经验欧氏拟合优度检验[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 60-65.
[14] 杜雪松, 宾石玉, 林勇, 唐章生, 张永德, 曾兰, 杨慧赞, 陈忠. 基于ULCIZ和SIT的罗非鱼耐寒性能测定模型[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 134-139.
[15] 张军舰, 詹欢, 晏振. 基于经验欧氏似然的拟合优度检验[J]. 广西师范大学学报(自然科学版), 2012, 30(3): 30-35.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘国伦, 宋树祥, 岑明灿, 李桂琴, 谢丽娜. 带宽可调带阻滤波器的设计[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 1 -8 .
[2] 刘铭, 张双全, 何禹德. 基于改进SOM神经网络的异网电信用户细分研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 17 -24 .
[3] 胡郁葱, 陈栩, 罗嘉陵. 多起终点多车型混载的定制公交线路规划模型[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 1 -11 .
[4] 唐堂, 魏承赟, 罗晓曙, 丘森辉. 基于附加惯性项人群搜索算法的四旋翼无人机姿态控制研究[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 12 -19 .
[5] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20 -26 .
[6] 韦振汉, 宋树祥, 夏海英. 基于随机森林的锂离子电池荷电状态估算[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 27 -33 .
[7] 许远静, 胡维平. 基于随机森林的不同程度病态嗓音识别[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 34 -41 .
[8] 张灿龙, 苏建才, 李志欣, 王智文. 基于AdaBoost置信图的红外与可见光目标跟踪[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 42 -50 .
[9] 刘电霆, 吴丽娜. 社会网络中基于信任的LDA主题模型领域专家推荐[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 51 -58 .
[10] 姜影星, 黄文念. 非线性薛定谔-麦克斯韦方程的基态解[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 59 -66 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发