您现在的位置是：首页 > IT要闻

当前栏目

Apache Spark机器学习.1.6　机器学习工作流和Spark pipeline

学习数据微软工作流

2023-03-14 10:23:56 时间

1.6　机器学习工作流和Spark pipeline

在本节中，我们介绍机器学习工作流和Spark pipeline，然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的。

学习完本节，读者将掌握这两个重要概念，并且为编程和实现机器学习工作流的Spark pipeline做好准备。

机器学习的工作流步骤

几乎所有的机器学习项目均涉及数据清洗、特征挖掘、模型估计、模型评估，然后是结果解释，这些都可以组织为循序渐进的工作流。这些工作流有时称为分析过程。

有些人甚至定义机器学习是将数据转化为可执行的洞察结果的工作流，有些人会在工作流中增加对业务的理解或问题的定义，以作为他们工作的出发点。

在数据挖掘领域，跨行业数据挖掘标准过程（CRISP-DM）是一个被广泛接受和采用的标准流程。许多标准机器学习的工作流都只是CRISP-DM工作流某种形式上的变型。

正如上图所示，任何标准CRISP-DM的工作流都需要以下所有的6个步骤：

1.业务理解

2.数据理解

3.数据准备

4.建模

5.评估

6.部署

一些人可能会在其中补充分析方法选择和结果解释，以使其更加完整。对于复杂的机器学习项目，会有一些分支和反馈回路，使工作流程变得非常复杂。

换句话说，有一些机器学习的项目，在我们完成模型评估之后，可能会回到建模甚至是数据准备的步骤。在数据准备步骤之后，我们可以将其分为两种以上的建模类型分支。

猜你喜欢

2021 年你应该尝试的 8 个 React 库
Adobe Photoshop（ps）2023中文版下载纯净、安全、无捆绑
django import_export 个性化导出 model 里的字段含有 choice 的值
v-bind 绑定 class、style 属性
VSCode打造成为开发神器
Vue SEO的四种方案
django import_export export 导出时新增自定义字段
Lr软件下载|Adobe Lightroom Classic --lr新版介绍
centos7 + nginx + nodejs 部署
nodejs 启动后台服务（前端代码运行起来）
Fiddler creation of the root certificate was not successfull
Fiddler win10：Failed to register Fiddler as the system proxy
nginx: [emerg] host not found in upstream "cdn.xieboke.net" in /usr/local/nginx/conf/vhost/joyo.ink.
树莓派安装 Nextcloud 出现“内部服务器错误”
树莓派4B 安装 nextcloud 做私人云盘网盘（nginx + docker + nextCloud + redis）
async 函数和 promises 的性能提升
Java多线程：条件变量
ajax放在vue的哪个生命周期中？
web 服务器 caddy 资料收集
The unit caddy.service has entered the 'failed' state with result 'exit-code'

zl程序教程

当前栏目

Apache Spark机器学习.1.6　机器学习工作流和Spark pipeline

相关文章

当前栏目

Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline

相关文章

Apache Spark机器学习.1.6　机器学习工作流和Spark pipeline