广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 72-76.

• • 上一篇    下一篇

QENNI:一种缺失值填充的新方法

张师超, 朱曼龙, 黄木梁昌   

  1. 广西师范大学计算机科学与信息工程学院,广西桂林 541004
  • 收稿日期:2009-12-04 出版日期:2010-03-20 发布日期:2023-02-07
  • 通讯作者: 张师超(1962—),男,广西全州人,广西师范大学教授,博士,博导。E-mail:zhangc@mailbox.gxnu.edu.cn
  • 基金资助:
    国家973计划资助项目(2008CB317108);国家自然科学基金资助项目(90718020);澳大利亚ARC基金资助项目(DP0985456);广西研究生教育创新计划项目(2009106020812M63)

QENNI:A New Imputation Method for Missing Data

ZHANG Shi-chao, ZHU Man-long, HUANG Liang-chang   

  1. College of Computer Science and Information Technology,GuangxiNormal University,Guilin Guangxi 541004,China
  • Received:2009-12-04 Online:2010-03-20 Published:2023-02-07

摘要: 针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(quadrant-encapsidated-nearest-neighbor-based imputation),它仅仅使用缺失数据象限方向的最近邻数据填充该缺失值,避免了kNNI中选取的k个最近邻点有偏好这一情况。另外,此算法对于低维数据集可以是无参的,即消除了对参数的依赖。实验结果表明,QENNI算法的填充准确性要优于kNNI算法。

关键词: 缺失值, 缺失填充, kNNI补值算法, QENNI补值算法

Abstract: As the k-nearest neighbor imputation (kNNI)algorithm is often biased in choosing the k nearest neighbors of missing data,a new imputation method is put forward,Quadrant-Encapsidated-Nearest-Neighbor based Imputation method (QENNI),for missing values.The algorithm uses the quadrant nearest neighbors (points of the encapsulant) around a missing datum to impute the missing datum.It is not biased in selecting nearest neighbors.Experiments demonstrate that QENNI is much better than the kNNI method in imputed accuracy.

Key words: missing data, missing data imputation, kNNI method, QENNI method

中图分类号: 

  • TP181
[1] ZHANG Shi-chao.Parimputation:from imputation and null-imputation to partially imputation[J].IEEE Intelligent Informatics Bulletin,2008,9(1):32-38.
[2] ZHANG Shi-chao.Shell-neighbor method and its application in missing data imputation[J].Applied Intelligence,2010(待发).
[3] QIN Yong-song,ZHANG Shi-chao,ZHU Xiao-feng,et al.Semi-parametric optimization for missing data imputation[J].Applied Intelligence,2007,27(1):79-88.
[4] BATISTA G,MONARD M C.An analysis of four missing data treatment methods for supervised learning[J].Applied Artificial Intelligence,2003,17(5):519-533.
[5] GEDIGA G,DUNTSCH I.Maximum consistency of incomplete data via non-invasive imputation[J].Artificial Intelligence Review,2003,19(1):93-107.
[6] WANG Qi-hua,RAO J N K.Empirical likelihood-based inference underimputation for missing response data[J].The Annals of Statistics,2002,30(3):896-924.
[7] BATISTA G E,MONARD M C.A study of k-nearest neighbor as a model-based method to treat missing data[C]//Proceedings of the Argentine Symposium on Artificial Intelligence.Bering Germany:Springer,2001,30:1-9.
[8] 金自翔,戴新宇,陈家骏.一种基于贪婪算法的KNN参数选择策略[J].广西师范大学学报:自然科学版,2008,26(1):182-185.
[9] 朱晓锋.缺失值填充若干问题研究[D].桂林:广西师范大学计算机科学与信息工程学院,2007.
[1] 苏毅娟, 孙可, 邓振云, 尹科军. 基于LPP和l2,1的KNN填充算法[J]. 广西师范大学学报(自然科学版), 2015, 33(4): 55-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发