机器学习中处理缺失值的9种方法

2020-10-31 deephub CSDN

数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行

数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因。我们可以使用许多技术来处理丢失的数据。在这个文章中，我将分享处理数据缺失的9种方法，但首先让我们看看为什么会出现数据缺失以及有多少类型的数据缺失。不同类型的缺失值缺失的值主要有三种类型。完全随机缺失(MCAR):当数据为MCAR时，如果所有观测的缺失概率都相同，则一个变量完全随机缺失，这意味着数据缺失与数据集中任何其他观察到的或缺失的值完全没有关系。换句话说，那些缺失的数据点是数据集的一个随机子集。丢失数据不是随机的(MNAR):顾名思义，丢失的数据和数据集中的任何其他值之间存在某种关系。随机丢失(MAR):这意味着数据点丢失的倾向与丢失的数据无关，但与数据集中其他观察到的数据有关。数据集中缺少值的原因有很多。例如,在数据集的身高和年龄,会有更多年龄列中缺失值,因为女孩通常隐藏他们的年龄相同的如果

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (2)

#插入话题

插入图片

[GetPortalCommentsPageByObjectIdResponse(id=1583270, encodeId=2e6e15832e07d, content=<a href='/topic/show?id=f6e1611840d' target=_blank style='color:#2F92EE;'>#机器#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=38, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61184, encryptionId=f6e1611840d, topicName=机器)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=13dc16973127, createdName=ms6279672939590805, createdTime=Mon Nov 02 06:17:21 CST 2020, time=2020-11-02, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=895879, encodeId=02308958e9c3, content=<a href='/topic/show?id=7d806121594' target=_blank style='color:#2F92EE;'>#机器学习#</a>处理<a href='/topic/show?id=cbb810399ec8' target=_blank style='color:#2F92EE;'>#缺失值#</a>方法, beContent=null, objectType=article, channel=null, level=null, likeNumber=126, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61215, encryptionId=7d806121594, topicName=机器学习), TopicDto(id=103997, encryptionId=cbb810399ec8, topicName=缺失值)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20220519/c2ab253484ee4527a2d4e9589a4821ac/45de9bf494a54becb2ea4369c9d11e85.jpg, createdBy=7a3710, createdName=lovetcm, createdTime=Sat Oct 31 15:59:47 CST 2020, time=2020-10-31, status=1, ipAttribution=)]
2020-11-02 ms6279672939590805

#机器#

38 0
[GetPortalCommentsPageByObjectIdResponse(id=1583270, encodeId=2e6e15832e07d, content=<a href='/topic/show?id=f6e1611840d' target=_blank style='color:#2F92EE;'>#机器#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=38, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61184, encryptionId=f6e1611840d, topicName=机器)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=13dc16973127, createdName=ms6279672939590805, createdTime=Mon Nov 02 06:17:21 CST 2020, time=2020-11-02, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=895879, encodeId=02308958e9c3, content=<a href='/topic/show?id=7d806121594' target=_blank style='color:#2F92EE;'>#机器学习#</a>处理<a href='/topic/show?id=cbb810399ec8' target=_blank style='color:#2F92EE;'>#缺失值#</a>方法, beContent=null, objectType=article, channel=null, level=null, likeNumber=126, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61215, encryptionId=7d806121594, topicName=机器学习), TopicDto(id=103997, encryptionId=cbb810399ec8, topicName=缺失值)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20220519/c2ab253484ee4527a2d4e9589a4821ac/45de9bf494a54becb2ea4369c9d11e85.jpg, createdBy=7a3710, createdName=lovetcm, createdTime=Sat Oct 31 15:59:47 CST 2020, time=2020-10-31, status=1, ipAttribution=)]
2020-10-31 lovetcm

#机器学习#处理#缺失值#方法

126 0

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

研究设计与统计

机器学习中处理缺失值的9种方法

相关资讯

科室

工具

服务