Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline
2023-03-14 10:23:56 时间
1.6 机器学习工作流和Spark pipeline
在本节中,我们介绍机器学习工作流和Spark pipeline,然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的。
学习完本节,读者将掌握这两个重要概念,并且为编程和实现机器学习工作流的Spark pipeline做好准备。
机器学习的工作流步骤
几乎所有的机器学习项目均涉及数据清洗、特征挖掘、模型估计、模型评估,然后是结果解释,这些都可以组织为循序渐进的工作流。这些工作流有时称为分析过程。
有些人甚至定义机器学习是将数据转化为可执行的洞察结果的工作流,有些人会在工作流中增加对业务的理解或问题的定义,以作为他们工作的出发点。
在数据挖掘领域,跨行业数据挖掘标准过程(CRISP-DM)是一个被广泛接受和采用的标准流程。许多标准机器学习的工作流都只是CRISP-DM工作流某种形式上的变型。
正如上图所示,任何标准CRISP-DM的工作流都需要以下所有的6个步骤:
1.业务理解
2.数据理解
3.数据准备
4.建模
5.评估
6.部署
一些人可能会在其中补充分析方法选择和结果解释,以使其更加完整。对于复杂的机器学习项目,会有一些分支和反馈回路,使工作流程变得非常复杂。
换句话说,有一些机器学习的项目,在我们完成模型评估之后,可能会回到建模甚至是数据准备的步骤。在数据准备步骤之后,我们可以将其分为两种以上的建模类型分支。
相关文章
- R语言数据挖掘1.3 数据挖掘
- 谷歌为什么要开放TensorFlow
- 【又一重磅】再获翻译授权,斯坦福CS231N深度学习与计算机视觉
- 如何利用机器学习和分布式计算来对用户事件进行聚类
- 在图片中加入噪点就能骗过Google最顶尖的图像识别AI
- R语言数据挖掘1.8.2 统计学与机器学习
- 赵国栋:网约车合法化,甩开膀子干吧
- 技术再好,能阻止暴力视频的疯传吗?
- 滴滴和优步为何合并?对你有何影响?该如何看待?
- 超级实习生Ian Goodfellow留给谷歌地图的算法被完善,识别800亿街景图文字(附论文)
- 什么时候应该听取机器决定?
- 找不到外星人,也许是因为人类出现得太早
- 世界上最贵的面子工程:平均超出预算156%的奥林匹克之坑
- 里约奥运|高科技助力 本届奥运会有待打破更多记录
- Pokémon Go风靡全球,AR或将引发医疗应用革命
- 对冲基金已经瞄准人工智能
- 十大颠覆性医疗技术,或能拯救发展中国家数百万人口
- 你应该了解的数据分析入门知识
- 量子生命|生物信息是如何编码的, 又是如何遗传的?
- 大数据与机器学习:实践方法与行业案例1.1 数据的基本形态