在python中使用KNN算法处理数据中的缺失值

2020-10-31 Dario Radečić deephub翻译组

处理缺失的数据并不是一件容易的事。 方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。 解决问题的挑战性是选择使用哪种方法。 今天,我们将探索一种简单但高效的填补缺失数据的方

处理缺失的数据并不是一件容易的事。 方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。 解决问题的挑战性是选择使用哪种方法。 今天,我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。 KNN代表“ K最近邻居”,这是一种简单算法,可根据定义的最接近邻居数进行预测。 它计算从您要分类的实例到训练集中其他所有实例的距离。 正如标题所示,我们不会将算法用于分类目的,而是填充缺失值。 本文将使用房屋价格数据集,这是一个简单而著名的数据集,仅包含500多个条目。 这篇文章的结构如下: 数据集加载和探索 KNN归因 归因优化 结论 数据集加载和探索 如前所述,首先下载房屋数据集。 另外,请确保同时导入了Numpy和Pandas。 这是前几行的外观: 默认情况下,数据集缺失值非常低-单个属性中只有五个: 让我们改变一下。 您通常不会这样做,但是我们需要更多缺少的值。 首先,我们创建两个随机数数组,其范围从1到数据集的长度。 第一个数组包含35个元素,第二个数组包含20个(任意选择): i1 = np.random.choice(a=df.index, size=35

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=895880, encodeId=4eaf89588095, content=<a href='/topic/show?id=cbb810399ec8' target=_blank style='color:#2F92EE;'>#缺失值#</a>处理方法, beContent=null, objectType=article, channel=null, level=null, likeNumber=93, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=103997, encryptionId=cbb810399ec8, topicName=缺失值)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20220519/c2ab253484ee4527a2d4e9589a4821ac/45de9bf494a54becb2ea4369c9d11e85.jpg, createdBy=7a3710, createdName=lovetcm, createdTime=Sat Oct 31 16:00:07 CST 2020, time=2020-10-31, status=1, ipAttribution=)]
    2020-10-31 lovetcm

    #缺失值#处理方法

    0

相关资讯

机器学习中处理缺失值的9种方法

数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下,当我们从不同的资源收集数据或从某处下载数据时,几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行