机器学习特征表达——日期与时间特征做离散处理(数字到分类的映射),稀疏类分组(相似特征归档),创建虚拟变量(提取新特征) 本质就是要么多变少,或少变多
2023-09-14 09:11:55 时间
特征表达
接下来要谈到的特征工程类型虽然简单却影响巨大。我们将其称为特征表达。
你的数据并不一定总是理想格式。你需要考虑是否有必要通过另一种形式进行特征表达以获取有用信息。
- 日期与时间特征: 我们假设你拥有purchase_datetime特征。从中提取purchase_day_of_week与purchase_hour_of_day两项特征可能会更有用。你还可以进行观察聚类以创建诸如purchases_over_last_30_days这类特征。
- 数字到分类的映射: 假设你拥有years_in_school特征。你可以基于它创建新的grade特征,并分类为“小学”、“初中”和“高中”。
- 稀疏类分组:假设你拥有一个包含多个类别的特征,但样本量较小。你可以尝试对相似类进行分组,将相似的类别分到一组,然后将剩下的类划分至单一的“其他”类中。
- 创建虚拟变量 根据你所选取的机器学习实现方法,你可能需要手动地将各分类特征转化为虚拟变量。请务必在稀疏类分组之后再创建虚拟变量。
见:http://www.infoq.com/cn/news/2017/08/Analysis-practices-Feature-Engin
相关文章
- 浅析机器学习的主题模型和语义分析
- 机器学习与模式识别学习总结
- 机器学习笔记:k近邻算法介绍及基于scikit-learn的实验
- 机器学习笔记 - 构建推荐系统(5) 前馈神经网络用于协同过滤
- 机器学习笔记 - 支持向量机(SVM)背后的数学二
- AI之AutoML:autogluon(可支持NAS自动机器学习工具)的简介、安装、使用方法之详细攻略
- ML与math:机器学习与高等数学基础概念、代码实现、案例应用之详细攻略——进阶篇
- 机器学习-时间序列(一):日期和时间处理
- 带你认识MindSpore量子机器学习库MindQuantum
- 【ML】机器学习中的十大深度学习算法
- 机器学习中的范数规则化 L0、L1与L2范数 核范数与规则项参数选择
- scikit-learn系列之如何存储和导入机器学习模型
- 【机器学习】如何判断函数凸或非凸?(面试回答)
- 【机器学习】8、梯度下降法和拟牛顿法
- 机器学习简单理解过程,人脸识别基本步骤
- 【ML on Kubernetes】第 6 章:机器学习工程
- 机器学习算法有哪些?机器学习十大算法
- 机器学习能解决什么问题?