Apache Spark机器学习.1.7 机器学习工作流示例
1.7 机器学习工作流示例
为了进一步了解学习机器学习的工作流,在这里让我们学习一些例子。
本书后续章节会研究风险建模、欺诈检测、客户视图、流失预测和产品推荐。对于诸如此类的项目,目标往往是确定某些问题的原因,或者建立一个因果模型。下面是使用工作流建立一个因果模型的一个例子。
1.检查数据结构,以确保更好地理解数据:
数据是横截面数据吗?是隐含着时间信息的合并数据吗?
是否使用了分类变量?
2.检查缺失值:
不知道或者忘记了一个答案可能会被记录为一个中立或特殊的类别
一些变量可能有很多缺失值
根据需要重新记录一些变量
3.进行一些描述性研究,开始讲故事:
使用比较方法和交叉列表
检查一些关键变量的变异性(标准差和方差)
4.ind变量(外生变量)的选择组:
作为问题原因的候选
5.基本描述性统计:
所有变量的均值、标准差和频率
6.测量工作:
研究一些测量值的规模(efa探索性因子分析在这里可能是有用的)
形成测量模型
7.本地模型:
从全局中找出部分以探索其中关系
使用交叉列表
图表展示
使用逻辑回归
使用线性回归
8.开展一些偏相关分析,以帮助模型设定。
9.使用(8)的结果,提出结构方程模型:
确定主结构和次结构
将测量和结构模型进行关联
10.初次拟合:
运用SPSS为lisrel或Mplus创建数据集
使用lisrel或Mplus编程
11.模型修正:
使用SEM结果(主要模型拟合指数)来指导
再次分析偏相关性
12.诊断:
分布
残差
曲线
13.到这里我们应该可以开展最终模型估计了:
如果不能,请重复步骤13和14
14.模型解释(识别和量化因果效应)
可参考 Spark Pipelines: http://www.researchmethods.org/step-by-step1.pdf。
Apache Spark团队认识到了机器学习工作流的重要性,因此,他们开发了Spark pipeline来高效处理工作流问题。
Spark 机器学习代表一个可以作为pipeline的机器学习工作流,它由一系列以特定顺序运行的PipelineStages组成。
PipelineStages包括:Spark转换、Spark估计和Spark评估。
机器学习的工作流可以是非常复杂的,因此创建和调整它们非常耗时。研发Spark 机器学习Pipeline,使得机器学习工作流的构造和调整更为容易,尤其可以表示以下主要阶段:
1.数据加载
2.特征提取
3.模型估计
4.模型评价
5.模型解释
对于以上任务,可以使用Spark转换器进行特征提取。Spark估计器用来训练和估计模型,Spark评估器用来评价模型。
从技术上看,Spark中的pipeline作为一系列处理过程的有序组合,每个过程可以是转换,或者是估计,或者是评估。这些过程按照顺序执行,输入的数据集遵循各过程顺序进行修改。在转换过程中,调用transform() 方法进行数据集处理。在估计过程中,调用fit()方法生成一个转换器(转换器将成为pipeline Model或拟合pipeline的一部分),并且在数据集上调用转换器的transform()方法。
上面给出的技术说明都是针对线性pipeline模型。一旦数据流图形成有向无环图(Directed Acyclic Graph,DAG),Spark也可能生产非线性pipeline模型。
更多关于Spark pipeline的信息,请访问如下链接:http://spark.apache.org/docs/latest/ml-guide.html#pipeline。
相关文章
- 发现 Linux SpaceFM 文件管理器的威力
- 夯实数据智能底座 共筑数字经济发展“新基石”
- 五分钟教你使用console.log发布公司的招聘信息
- 微软发布 Windows 11 Beta 预览版 Build 22621.1250 和 22623.1250 (KB5023008)
- Windows 11 学院:在 Windows 11 Build 25290 上如何为文件管理器启用标签页拖拽支持
- 微软Windows 11 Dev 预览版 Build 25290 发布:带来新的开始菜单提醒角标
- 微软正用全屏通知提醒 Windows 10 用户免费升级 Windows 11,要点击 5 次才能退出
- Linux Mint 21.2 将于 6 月发布:改进登录屏幕,优化 Pix 图像管理程序等等
- 字节面试也会问SPI机制?
- 微软正式停售 Windows 10 产品密钥 / 许可证:继续提供 ISO 镜像下载,推荐用户升级 Windows 11
- 用复古电脑程序 Toy CPU 学习低级编程
- Windows 11 新功能泄露:现代音量合成器、实验工具和新的文件管理器
- 微软 Windows 11 文件资源管理器全新设计曝光:UI 迎来大修,整合 Microsoft 365
- 对比Pandas,学习PySpark大数据处理
- 微软宣布为Windows 11 21H2设备开启自动更新到22H2版本
- 互联网都在说降本增效,小红书技术团队是怎么做的?
- 微软将继续提供 Windows 10 ISO 镜像下载,即将停售产品密钥 / 许可证
- 微软宣布为Windows 11 21H2 设备开启自动更新到 22H2 版本
- 面试突击:Properties和Yml有什么区别?
- 微软 Windows 11 Beta 预览版 22621.1245 和 22623.1245 (KB5022358) 发布