|
广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 175-186.doi: 10.16088/j.issn.1001-6600.2021060911
颜海波1, 邓罡2, 姜云卢2*
YAN Haibo1, DENG Gang2, JIANG Yunlu2*
摘要: 含异常值的数据和高维数据越来越频繁地出现,对现有的稳健估计和多元线性回归估计方法提出了挑战。传统的多元线性回归模型估计对异常值非常敏感,基于MCD估计方法的多元线性回归估计对异常值有一定的抵御作用。但随着数据维数的增加,MCD估计的精度不断降低,稳健性也随之降低,且当数据维数大于样本量时MCD估计方法失效。因此,本文利用MRCD的均值向量和协方差矩阵估计,提出了基于MRCD估计方法的高维稳健多元线性回归模型估计。数值模拟的结果表明,基于MRCD估计方法的多元线性回归模型估计能很好地抵御异常值,且在数据维数大于样本量的情况下,基于MRCD估计方法的多元线性回归估计更为有效。实证分析的结果表明,基于MRCD方法的多元线性回归估计能更好地抵御异常值并得到更好的预测效果。
中图分类号:
[1] 耿修林. 多元质量特性预报: MULTIVARIATE回归分析的应用[J]. 数理统计与管理, 2008, 27(5): 807-814. DOI: 10.13860/j.cnki.sltj.2008.05.002. [2]邓永亮. 网络营销规模影响因素的多重回归与实证分析[J]. 商业时代, 2013(6): 39-40. [3]耿修林, 黄婷婷. 基于多重多元回归的多目标影响因素效应比较及应用: 以企业经营活动分析为例[J]. 统计与信息论坛, 2019, 34(10): 100-107. DOI: 10.3969/j.issn.1007-3116.2019.10.013. [4]向润, 陈素芬, 曾雪强. 基于多重多元回归的人脸年龄估计[J]. 山东大学学报(工学版), 2019, 49(2): 54-60. [5]廖文辉, 林睿, 何志锋, 等. 基于稳健回归的颗粒物浓度预测研究[J]. 湖南理工学院学报(自然科学版), 2021, 34(2): 20-23, 91. DOI: 10.16740/j.cnki.cn43-1421/n.2021.02.005. [6]HUBER P J. Robust regression: asymptotics, conjectures and Monte Carlo[J]. The Annals of Statistics, 1973, 1(5): 799-821. DOI: 10.1214/aos/1176342503. [7]JUREČKOVÁ J. Nonparametric estimate of regression coefficients[J]. The Annals of Mathematical Statistics, 1971, 42(4): 1328-1338. DOI: 10.1214/aoms/1177693245. [8]KOENKER R, PORTNOY S. L-estimation for linear models[J]. Journal of the American Statistical Association, 1987, 82(399): 851-857. DOI: 10.1080/01621459.1987.10478508. [9]KRASKER W S, WELSCH R E. Efficient bounded-influence regression estimation[J]. Journal of the American Statistical Association, 1982, 77(379): 595-604. DOI: 10.1080/01621459.1982.10477855. [10]MARONNA R A, YOHAI V J. Asymptotic behavior of general M-estimates for regression and scale with random carriers[J]. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, 1981, 58(1): 7-20. DOI: 10.1007/BF00536192. [11]ANDREWS D F, BICKEL P J, HAMPEL F R, et al. Robust estimates of location: survey and advances[M]. Princeton, NJ: Princeton University Press, 2016. [12]HAMPEL F R. Beyond location parameters: robust concepts and methods[J]. Bulletin of the International Statistical Institute, 1975, 46(1): 375-382. [13]ROUSSEEUW P J. Least median of squares regression[J]. Journal of the American Statistical Association, 1984, 79(388): 871-880. DOI: 10.1080/01621459.1984.10477105. [14]PIEPEL G F. Robust regression and outlier detection[J]. Technometrics, 1989, 31(2): 260-261. DOI: 10.1080/00401706. 1989.10488524. [15]AGULLÓ J, CROUX C, VAN AELST S. The multivariate least-trimmed squares estimator[J]. Journal of Multivariate Analysis, 2008, 99(3):311-338. DOI: 10.1016/j.jmva.2006.06.005. [16]SHE Y Y, OWEN A B. Outlier detection using nonconvex penalized regression[J]. Journal of the American Statistical Association, 2011, 106(494): 626-639. DOI: 10.1198/jasa.2011.tm10390. [17]KONG D H, BONDELL H D, WU Y C. Fully efficient robust estimation, outlier detection and variable selection via penalized regression[J]. Statistica Sinica, 2018, 28(2): 1031-1052. DOI: 10.5705/ss.202016.0441. [18]GAO X L, FENG Y. Penalized weighted least absolute deviation regression[J]. Statistics and Its Interface, 2018, 11(1): 79-89. DOI: 10.4310/SII.2018.v11.n1.a7. [19]JIANG Y L, WANG Y, ZHANG J T, et al. Outlier detection and robust variable selection via the penalized weighted LAD-LASSO method[J]. Journal of Applied Statistics, 2021, 48(2): 234-246. DOI: 10.1080/02664763.2020.1722079. [20]KOENKER R, PORTNOY S.M estimation of multivariate regressions[J]. Journal of the American Statistical Association, 1990, 85(412): 1060-1068. DOI: 10.1080/01621459.1990.10474976. [21]BILODEAU M, DUCHESNE P. Robust estimation of the SUR model[J]. The Canadian Journal of Statistics, 2000, 28(2): 277-288. DOI: 10.2307/3315978. [22]DAVIES P L. Asymptotic behaviour of S-estimates of multivariate location parameters and dispersion matrices[J]. The Annals of Statistics, 1987, 15(3): 1269-1292. DOI: 10.1214/aos/1176350505. [23]ROELANT E, VAN AELST S, CROUX C. Multivariate generalized S-estimators[J]. Journal of Multivariate Analysis, 2009, 100(5): 876-887. DOI: 10.1016/j.jmva.2008.09.002. [24]CROUX C, ROUSSEEUW P J, HÖSSJER O. Generalized S-estimators[J]. Journal of the American Statistical Association, 1994, 89(428): 1271-1281. DOI: 10.1080/01621459.1994.10476867. [25]BEN M G, MARTÍNEZ E, YOHAI V J. Robust estimation for the multivariate linear model based on a τ-scale[J]. Journal of Multivariate Analysis, 2006, 97(7): 1600-1622. DOI: 10.1016/j.jmva.2005.08.007. [26]GAO C. Robust regression via mutivariate regression depth[EB/OL]. (2017-02-15)[2021-06-09]. https://arxiv.org/abs/ 1702.04656. [27]ROUSSEEUW P J, VAN DRIESSEN K. A fast algorithm for the minimum covariance determinant estimator[J]. Technometrics, 1999, 41(3): 212-223. DOI: 10.1080/00401706.1999.10485670. [28]ROUSSEEUW P J, VAN AELST S, VAN DRIESSEN K, et al. Robust multivariate regression[J]. Technometrics, 2004, 46(3): 293-305. DOI: 10.1198/004017004000000329. [29]BOUDT K, ROUSSEEUW P J, VANDUFFEL S, et al. The minimum regularized covariance determinant estimator[J]. Statistics and Computing, 2020, 30(1): 113-128. DOI: 10.1007/s11222-019-09869-x. [30]姜云卢, 胡月, 刘巧云, 等. 高维稳健主成分聚类方法及其应用研究[J/OL]. 数理统计与管理, 2020[2021-06-09]. https://doi.org/10.13860/j.cnki.sltj.20201016-002. [31]LEDOIT O, WOLF M. A well-conditioned estimator for large-dimensional covariance matrices[J]. Journal of Multivariate Analysis, 2004, 88(2): 365-411. DOI: 10.1016/S0047-259X(03)00096-4. [32]HARDIN J, ROCKE D M. Outlier detection in the multiple cluster setting using the minimum covariance determinant estimator[J]. Computational Statistics & Data Analysis, 2004, 44(4): 625-638. DOI: 10.1016/S0167-9473(02)00280-3. [33]YEH I C. Modeling slump flow of concrete using second-order regressions and artificial neural networks[J]. Cement and Concrete Composites, 2007, 29(6): 474-480. DOI: 10.1016/j.cemconcomp.2007.02.001. [34]ROUSSEEUW P J, VAN ZOMEREN B C. Unmasking multivariate outliers and leverage points[J]. Journal of the American Statistical Association, 1990, 85(411): 633-639. DOI: 10.1080/01621459.1990.10474920. |
[1] | 张治飞, 段谦, 刘乃嘉, 黄磊. 基于Jackknife互信息的高维非线性回归模型研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 43-56. |
[2] | 陈钟秀, 张兴发, 熊强, 宋泽芳. 非对称DAR模型的估计与检验[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 68-81. |
[3] | 刘宇, 周稳, 李霓. 复发事件数据在含治愈个体的半参数比率模型下的经验似然推断[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 139-149. |
[4] | 朱恩文, 朱安麒, 王洁丹, 刘玉娇. 基于EEMD-GA-BP模型的风电功率短期预测研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 166-174. |
[5] | 梁鑫, 陈小玲, 张兴发, 李元. 一类带有GARCH类误差项的自回归滑动平均模型[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 195-205. |
[6] | 田镇滔, 张军舰. 基于分位数方法的超高维删失数据的特征筛选[J]. 广西师范大学学报(自然科学版), 2021, 39(6): 99-111. |
[7] | 谢冬林, 邓国和. 随机利率跳扩散模型下幂型乘积远期生效期权定价[J]. 广西师范大学学报(自然科学版), 2021, 39(5): 158-172. |
[8] | 李莉丽, 张兴发, 李元, 邓春亮. 基于高频数据的日频GARCH模型估计[J]. 广西师范大学学报(自然科学版), 2021, 39(4): 68-78. |
[9] | 林松, 尹长明. 两阶段Logit模型的惩罚广义估计方程估计的渐近性质[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 126-130. |
[10] | 何琳,杨善朝. α-混合随机域边缘频率插值的渐近方差性[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 88-94. |
[11] | 雷庆祝, 秦永松, 罗敏. 强混合样本下刻度指数分布族参数的经验贝叶斯估计和检验[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 63-74. |
[12] | 张军舰,赖廷煜,杨晓伟. VaR和ES的贝叶斯经验似然估计[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 38-45. |
[13] | 张新成, 张军舰, 詹欢. 基于垂直密度表示的经验欧氏拟合优度检验[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 60-65. |
[14] | 杜雪松, 宾石玉, 林勇, 唐章生, 张永德, 曾兰, 杨慧赞, 陈忠. 基于ULCIZ和SIT的罗非鱼耐寒性能测定模型[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 134-139. |
[15] | 张军舰, 詹欢, 晏振. 基于经验欧氏似然的拟合优度检验[J]. 广西师范大学学报(自然科学版), 2012, 30(3): 30-35. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |