机器学习中处理缺失值的9种方法

2020-10-31 deephub CSDN

数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下,当我们从不同的资源收集数据或从某处下载数据时,几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行

数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下,当我们从不同的资源收集数据或从某处下载数据时,几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因。我们可以使用许多技术来处理丢失的数据。在这个文章中,我将分享处理数据缺失的9种方法,但首先让我们看看为什么会出现数据缺失以及有多少类型的数据缺失。 不同类型的缺失值 缺失的值主要有三种类型。 完全随机缺失(MCAR):当数据为MCAR时,如果所有观测的缺失概率都相同,则一个变量完全随机缺失,这意味着数据缺失与数据集中任何其他观察到的或缺失的值完全没有关系。换句话说,那些缺失的数据点是数据集的一个随机子集。 丢失数据不是随机的(MNAR):顾名思义,丢失的数据和数据集中的任何其他值之间存在某种关系。 随机丢失(MAR):这意味着数据点丢失的倾向与丢失的数据无关,但与数据集中其他观察到的数据有关。 数据集中缺少值的原因有很多。例如,在数据集的身高和年龄,会有更多年龄列中缺失值,因为女孩通常隐藏他们的年龄相同的如果

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1583270, encodeId=2e6e15832e07d, content=<a href='/topic/show?id=f6e1611840d' target=_blank style='color:#2F92EE;'>#机器#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=38, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61184, encryptionId=f6e1611840d, topicName=机器)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=13dc16973127, createdName=ms6279672939590805, createdTime=Mon Nov 02 06:17:21 CST 2020, time=2020-11-02, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=895879, encodeId=02308958e9c3, content=<a href='/topic/show?id=7d806121594' target=_blank style='color:#2F92EE;'>#机器学习#</a>处理<a href='/topic/show?id=cbb810399ec8' target=_blank style='color:#2F92EE;'>#缺失值#</a>方法, beContent=null, objectType=article, channel=null, level=null, likeNumber=126, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61215, encryptionId=7d806121594, topicName=机器学习), TopicDto(id=103997, encryptionId=cbb810399ec8, topicName=缺失值)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20220519/c2ab253484ee4527a2d4e9589a4821ac/45de9bf494a54becb2ea4369c9d11e85.jpg, createdBy=7a3710, createdName=lovetcm, createdTime=Sat Oct 31 15:59:47 CST 2020, time=2020-10-31, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1583270, encodeId=2e6e15832e07d, content=<a href='/topic/show?id=f6e1611840d' target=_blank style='color:#2F92EE;'>#机器#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=38, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61184, encryptionId=f6e1611840d, topicName=机器)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=13dc16973127, createdName=ms6279672939590805, createdTime=Mon Nov 02 06:17:21 CST 2020, time=2020-11-02, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=895879, encodeId=02308958e9c3, content=<a href='/topic/show?id=7d806121594' target=_blank style='color:#2F92EE;'>#机器学习#</a>处理<a href='/topic/show?id=cbb810399ec8' target=_blank style='color:#2F92EE;'>#缺失值#</a>方法, beContent=null, objectType=article, channel=null, level=null, likeNumber=126, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61215, encryptionId=7d806121594, topicName=机器学习), TopicDto(id=103997, encryptionId=cbb810399ec8, topicName=缺失值)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/20220519/c2ab253484ee4527a2d4e9589a4821ac/45de9bf494a54becb2ea4369c9d11e85.jpg, createdBy=7a3710, createdName=lovetcm, createdTime=Sat Oct 31 15:59:47 CST 2020, time=2020-10-31, status=1, ipAttribution=)]
    2020-10-31 lovetcm

相关资讯

Nat Med:1000多对双胞胎研究告诉你,人类餐后是怎么对食物进行反应的?

研究人员在英国招募了1,002对双胞胎和没有血缘关系的健康成年人参与PREDICT 1研究,并评估了临床环境和家庭中的餐后代谢反应。

Blood:机器学习揭示MDS基因型和形态学特征的相关性

骨髓增生异常综合征(MDS)是一组起源于造血干细胞的肿瘤性疾病,主要特征是骨髓造血功能异常、血细胞发育异常,表现为难治性的血细胞减少、造血功能衰竭,有向急性白血病转化的高风险,曾被称为白血病前期。

CELL:刘如谦发文,不需要做实验,机器学习预测基因编辑结果

刘如谦团队在哺乳动物细胞中的38,538个基因组整合靶点上表征了11个胞嘧啶和腺嘌呤碱基编辑器(CBEs和ABEs)的序列-活性关系,并将所得结果用于训练BE-蜂巢机器学习模型。

盘点:2020年度Radiology科研进展汇总(八)

2020年度Radiology科研进展汇总