广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (1): 91-99.doi: 10.16088/j.issn.1001-6600.2021060903

• 研究论文 • 上一篇    下一篇

大数据情境下基于切片逆回归的抽样方法研究

贺建风1*, 石立1,2   

  1. 1.华南理工大学 经济与金融学院, 广东 广州 510006;
    2.广州华商学院 经济贸易学院, 广东 广州 511300
  • 收稿日期:2021-06-09 修回日期:2021-07-27 出版日期:2022-01-25 发布日期:2022-01-24
  • 通讯作者: 贺建风(1981—),男,湖南攸县人,华南理工大学教授,博士。E-mail: ectjhjf@scut.edu.cn
  • 基金资助:
    国家社会科学基金(19BTJ022);全国统计科学研究重大项目(2020LD02);广州市哲学社科规划智库课题(2021GZZK03);广东省普通高校创新团队项目(2020WCXTD008);广州华商学院导师制项目(2021HSDS01)

Sampling Method Based on Slice Inverse Regression in Big Data

HE Jianfeng1*, SHI Li1,2   

  1. 1. School of Economics and Finance, South China University of Technology, Guangzhou Guangdong 510006, China;
    2. School of Economics and Trade, Guangzhou Huashang College, Guangzhou Guangdong 511300, China
  • Received:2021-06-09 Revised:2021-07-27 Online:2022-01-25 Published:2022-01-24

摘要: 大数据时代,抽样调查依然是一种不可或缺的数据获取和统计推断方法,但抽样调查方法需要适应大数据的新时代情境,才能更好地体现其应有的价值。其中,如何抽取到对研究变量有代表性的样本是最值得关切的问题。本文提出一种基于切片逆回归的综合得分抽样法,利用切片逆回归能将因变量信息融入到自变量的特点,先对大数据进行切片逆回归分析,改进其降维过程,再计算各个体主成分综合得分作为入样概率进行抽样。数据模拟分析结果显示,在大数据情境下,相比于未实施抽样和简单随机抽样估计而言,本文提出的方法均具有更好的抽样估计效果,且当个体差别较大时抽样估计效果会更好。最后,实际数据检验也证实了此方法的可行性和有效性。

关键词: 大数据, 切片逆回归, 主成分分析, 综合得分, 抽样估计

Abstract: Sampling survey is still an indispensable data acquisition and statistical inference method in the era of big data, but better value depends on the adaptation of sampling method to the real situation of big data. Among them, how to extract representative samples of research variables is the most concerned problem. A comprehensive score sampling method based on slice inverse regression is proposed to solve this problem. The slice inverse regression can integrate the dependent variable information into the independent variable. Firstly, slice inverse regression analysis is used on big data to improve its dimension reduction process. Then, the comprehensive score of each principal component is taken as the sampling probability. The results of data simulation analysis show that the proposed method has better sampling estimation effect compared with the sampling without implementation and simple random sampling estimation in the big data situation, and the better sampling estimation effect appears when the individual difference is large. Finally, the feasibility and effectiveness of this method are verified by the actual data.

Key words: big data, slice inverse regression, principal component analysis, comprehensive score, sampling estimation

中图分类号: 

  • O212.2
[1] RIVERS D.Sample matching. Representative sampling from internet panels[R]. Palo Alto: You Gov Polimetrix,2006:2-9.
[2]ORR E S, SISIC M, ROSS C, et al. The influence of shyness on the use of Facebook in an undergraduate sample[J]. Cyberpsychology and Behavior, 2009,12(3):337-340.
[3]KOGAN S M, WEJNERT C, CHEN Y F, et al. Respondent-driven sampling with hard-to-reach emerging adults: an introduction and case study with rural African Americans[J].Journal of Adolescent Research,2011,26(1):30-60.
[4]贺建风,李宏煜.大数据背景下基于社交网络的聚类随机游走抽样算法研究[J].统计研究,2021,38(4):131-144.
[5]LI K C. Sliced inverse regression for dimension reduction[J].Journal of the American Statistical Association,1991,86(414): 316-327.
[6]WANG H S, NI L Q, TSAI C L. Improving dimension reduction via contour-projection[J]. Statistica Sinica, 2008,18: 299-311.
[7]ZHU L P, ZHU L X, FENG Z H. Dimension reduction in regressions through cumulative slicing estimation[J].Journal of the American Statistical Association, 2010, 105:1455-1466.
[8]DONG Y X, YU Z, ZHU L P. Robust inverse regression for dimension reduction[J].Journal of Multivariate Analysis, 2015,134:71-81.
[9]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(8):25-31.
[10]MA P, MAHONEY M W, YU B. A statistical perspective on algorithmic leveraging[J]. Journal of Machine Learning Research, 2015, 16:861-911.
[11]秦磊,王奕丹,苏治.大规模数据下基于充分降维的Leverage重要性抽样方法[J].统计研究, 2020,37(3): 114-128.
[12]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999:154-162.
[13]石立,林海明.关于主成分分析综合评价函数质疑的讨论[J].数学的实践与认识,2020,50(14): 312-320.
[14]FANAEE T H, GAMA J. Event labeling combining ensemble detectors and background knowledge[J]. Progress in Artificial Intelligence, 2014, 2(2):113-127.
[1] 白德发, 徐欣, 王国长. 函数型数据广义线性模型和分类问题综述[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 15-29.
[2] 赵鑫, 宋英强, 胡月明, 刘轶伦, 朱阿兴. 基于多源开放数据的城乡居民点空间布局优化[J]. 广西师范大学学报(自然科学版), 2020, 38(1): 26-40.
[3] 唐振军. 基于PCA特征距离的图像哈希算法[J]. 广西师范大学学报(自然科学版), 2016, 34(4): 9-18.
[4] 刘慧敏, 官冬杰, 张梦婕. 三峡库区生态安全后续发展胁迫因子及胁迫机理研究[J]. 广西师范大学学报(自然科学版), 2016, 34(3): 150-158.
[5] 濮玲, 李海朝, 濮御, 蒋红霞. 十二种常用中草药中微量元素的主成分分析[J]. 广西师范大学学报(自然科学版), 2014, 32(4): 96-100.
[6] 何茜, 李旭, 周伟, 李奇生. 缺须墨头鱼不同地理居群的形态分化[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 128-133.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘国伦, 宋树祥, 岑明灿, 李桂琴, 谢丽娜. 带宽可调带阻滤波器的设计[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 1 -8 .
[2] 刘铭, 张双全, 何禹德. 基于改进SOM神经网络的异网电信用户细分研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 17 -24 .
[3] 胡郁葱, 陈栩, 罗嘉陵. 多起终点多车型混载的定制公交线路规划模型[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 1 -11 .
[4] 唐堂, 魏承赟, 罗晓曙, 丘森辉. 基于附加惯性项人群搜索算法的四旋翼无人机姿态控制研究[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 12 -19 .
[5] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20 -26 .
[6] 韦振汉, 宋树祥, 夏海英. 基于随机森林的锂离子电池荷电状态估算[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 27 -33 .
[7] 许远静, 胡维平. 基于随机森林的不同程度病态嗓音识别[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 34 -41 .
[8] 张灿龙, 苏建才, 李志欣, 王智文. 基于AdaBoost置信图的红外与可见光目标跟踪[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 42 -50 .
[9] 刘电霆, 吴丽娜. 社会网络中基于信任的LDA主题模型领域专家推荐[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 51 -58 .
[10] 姜影星, 黄文念. 非线性薛定谔-麦克斯韦方程的基态解[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 59 -66 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发