zl程序教程

您现在的位置是:首页 >  后端

当前栏目

Python数据处理Tips数据特征处理离散化和二值化

Python数据 处理 数据处理 特征 Tips 离散
2023-09-11 14:18:26 时间

机器学习的特征工程中,二值化和离散化用于数据预处理的。

所谓离散化是将无限空间中的有限个体映射到有限空间。数据离散化操作主要在连续数据上执行。处理后数据值范围分布将从连续属性更改为离散属性。此属性通常包含两个或多个值范围。

而二值化的值设置取决于场景。例如大多数数据处理可以设置为 1 或 0 。在许多情况下需要对变量特征进行二值化,将每个数据点与阈值进行比较,将大于阈值的值设置为固定值(例如1),将小于阈值的值设置为a固定值(例如0),然后获得只有两个值范围的二进制数据集。
在这里插入图片描述