机器学习中处理缺失值的9种方法
2020-10-31 deephub CSDN
数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下,当我们从不同的资源收集数据或从某处下载数据时,几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行
数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下,当我们从不同的资源收集数据或从某处下载数据时,几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因。我们可以使用许多技术来处理丢失的数据。在这个文章中,我将分享处理数据缺失的9种方法,但首先让我们看看为什么会出现数据缺失以及有多少类型的数据缺失。 不同类型的缺失值 缺失的值主要有三种类型。 完全随机缺失(MCAR):当数据为MCAR时,如果所有观测的缺失概率都相同,则一个变量完全随机缺失,这意味着数据缺失与数据集中任何其他观察到的或缺失的值完全没有关系。换句话说,那些缺失的数据点是数据集的一个随机子集。 丢失数据不是随机的(MNAR):顾名思义,丢失的数据和数据集中的任何其他值之间存在某种关系。 随机丢失(MAR):这意味着数据点丢失的倾向与丢失的数据无关,但与数据集中其他观察到的数据有关。 数据集中缺少值的原因有很多。例如,在数据集的身高和年龄,会有更多年龄列中缺失值,因为女孩通常隐藏他们的年龄相同的如果
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#机器#
38
#机器学习#处理#缺失值#方法
126