|
广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 91-99.doi: 10.16088/j.issn.1001-6600.2021060903
贺建风1*, 石立1,2
HE Jianfeng1*, SHI Li1,2
摘要: 大数据时代,抽样调查依然是一种不可或缺的数据获取和统计推断方法,但抽样调查方法需要适应大数据的新时代情境,才能更好地体现其应有的价值。其中,如何抽取到对研究变量有代表性的样本是最值得关切的问题。本文提出一种基于切片逆回归的综合得分抽样法,利用切片逆回归能将因变量信息融入到自变量的特点,先对大数据进行切片逆回归分析,改进其降维过程,再计算各个体主成分综合得分作为入样概率进行抽样。数据模拟分析结果显示,在大数据情境下,相比于未实施抽样和简单随机抽样估计而言,本文提出的方法均具有更好的抽样估计效果,且当个体差别较大时抽样估计效果会更好。最后,实际数据检验也证实了此方法的可行性和有效性。
中图分类号:
[1] RIVERS D.Sample matching. Representative sampling from internet panels[R]. Palo Alto: You Gov Polimetrix,2006:2-9. [2]ORR E S, SISIC M, ROSS C, et al. The influence of shyness on the use of Facebook in an undergraduate sample[J]. Cyberpsychology and Behavior, 2009,12(3):337-340. [3]KOGAN S M, WEJNERT C, CHEN Y F, et al. Respondent-driven sampling with hard-to-reach emerging adults: an introduction and case study with rural African Americans[J].Journal of Adolescent Research,2011,26(1):30-60. [4]贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021,38(4):131-144. [5]LI K C. Sliced inverse regression for dimension reduction[J].Journal of the American Statistical Association,1991,86(414): 316-327. [6]WANG H S, NI L Q, TSAI C L. Improving dimension reduction via contour-projection[J]. Statistica Sinica, 2008,18: 299-311. [7]ZHU L P, ZHU L X, FENG Z H. Dimension reduction in regressions through cumulative slicing estimation[J].Journal of the American Statistical Association, 2010, 105:1455-1466. [8]DONG Y X, YU Z, ZHU L P. Robust inverse regression for dimension reduction[J].Journal of Multivariate Analysis, 2015,134:71-81. [9]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(8):25-31. [10]MA P, MAHONEY M W, YU B. A statistical perspective on algorithmic leveraging[J]. Journal of Machine Learning Research, 2015, 16:861-911. [11]秦磊,王奕丹,苏治.大规模数据下基于充分降维的Leverage重要性抽样方法[J].统计研究, 2020,37(3): 114-128. [12]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999:154-162. [13]石立,林海明.关于主成分分析综合评价函数质疑的讨论[J].数学的实践与认识,2020,50(14): 312-320. [14]FANAEE T H, GAMA J. Event labeling combining ensemble detectors and background knowledge[J]. Progress in Artificial Intelligence, 2014, 2(2):113-127. |
[1] | 白德发, 徐欣, 王国长. 函数型数据广义线性模型和分类问题综述[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 15-29. |
[2] | 赵鑫, 宋英强, 胡月明, 刘轶伦, 朱阿兴. 基于多源开放数据的城乡居民点空间布局优化[J]. 广西师范大学学报(自然科学版), 2020, 38(1): 26-40. |
[3] | 唐振军. 基于PCA特征距离的图像哈希算法[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 9-18. |
[4] | 刘慧敏, 官冬杰, 张梦婕. 三峡库区生态安全后续发展胁迫因子及胁迫机理研究[J]. 广西师范大学学报(自然科学版), 2016, 34(3): 150-158. |
[5] | 濮玲, 李海朝, 濮御, 蒋红霞. 十二种常用中草药中微量元素的主成分分析[J]. 广西师范大学学报(自然科学版), 2014, 32(4): 96-100. |
[6] | 何茜, 李旭, 周伟, 李奇生. 缺须墨头鱼不同地理居群的形态分化[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 128-133. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |