预处理入门完整指南

发布时间：2021-05-05 17:07:26 所属栏目：动态来源：互联网

导读：，数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别，也是表现专业和业余之间的差别。就像为度假做好事先准备一样，如果你提前将行程细节确定好，就能够预防旅途变成一场噩梦。那么，应该怎么做呢? 本文将带你领略，如何

，数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别，也是表现专业和业余之间的差别。就像为度假做好事先准备一样，如果你提前将行程细节确定好，就能够预防旅途变成一场噩梦。

那么，应该怎么做呢?

本文将带你领略，如何在任意的数据集上，针对任意一个机器学习模型，完成数据预处理工作。

***步，导入

让我们从导入数据预处理所需要的库开始吧。库是非常棒的使用工具：将输入传递给库，它则完成相应的工作。你可以接触到非常多的库，但在 PYTHON 中，有三个是最基础的库。任何时候，你都很可能最终还是使用到它们。这三个在使用 PYTHON 时***的库就是 Numpy、Matplotlib 和 Pandas。Numpy 是满足所有数学运算所需要的库，由于代码是基于数学公式运行的，因此就会使用到它。Maplotlib(具体而言，Matplotlib.pyplot)则是满足绘图所需要的库。Pandas 则是***的导入并处理数据集的一个库。对于数据预处理而言，Pandas 和 Numpy 基本是必需的。

最适当的方式是，在导入这些库的时候，赋予其缩写的称呼形式，在之后的使用中，这可以节省一定的时间成本。这一步非常简单，可以用如下方式实是 1。「[:, :3]」会返回 animal、age 和 worth 三列。其中 0 表示 animal，1 表示 age，2 表示 worth。对于这种计数方法，即使你没见过，也会在很短的时间内适应。

如果有缺失数据会怎么样?

事实上，我们总会遇到数据缺失。对此，我们可以将存在缺失的行直接删除，但这不是一个好办法，还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是，用其所在列的均值来填充缺失。为此，你可以利用 scikit-learn 预处理模型中的 inputer 类来很轻松地实现。(如果你还不知道，那么我强烈建议你搞明白它：scikit-learn 包含非常棒的机器学习模型)。在机器学习中，你可能并不适应诸如「方法」、「类」和「对象」这些术语。这不是什么大问题!

类就是我们希望为某目的所建立的模型。如果我们希望搭建一个棚子，那么搭建规划就是一个类。
对象是类的一个实例。在这个例子中，根据规划所搭建出来的一个棚子就是一个对象。同一个类可以有很多对象，就像可以根据规划搭建出很多个棚子一样。
方法是我们可以在对象上使用的工具，或在对象上实现的函数：传递给它某些输入，它返回一个输出。这就像，当我们的棚子变

（编辑：梅州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

企业数字化变型期间的	怎么鉴别图片中的文字
如何提升界面信息识别	ipa签名是什么咋弄