Apache Spark机器学习3.8 小结
2023-03-14 10:26:04 时间
3.8 小结
本章,我们一步一步实现了从数据到商业的整体视图,通过这个过程我们在Spark上处理了大量的数据,并且为IFS公司建立了一个生成销售团队成功的整体视图的模型。
具体来讲,首先我们在准备好Spark计算环境和载入预处理数据之后,为每个商业需求选择了模型。第二,我们准备并约减了特征。第三,估计模型系数。第四,评估了估计模型。接着,我们解释了分析结果。最后,部署了估计得到的模型。
这一处理过程与小数据集处理过程十分相似。然而,要处理大数据,我们需要并行计算,因此,我们使用了Spark。在前面描述的处理过程中,Spark使用简单、处理迅速。
学习完本章,读者全面了解了Spark在获得整体视图的过程中如何使我们的工作更容易和快捷。与此同时,读者应该熟悉了处理大量数据的RM4E建模和开发预测性模型的过程,尤其有能力生成自己的商业整体视图。
相关文章
- 荣之联DataZoo大数据平台:基于hadoop但不仅仅只是hadoop
- 10道Hadoop面试真题及解题思路
- Superset数据分析平台搭建
- 程序员自我培训指南
- 几分钟内学习Clojure
- 关于大数据、AI,TalkingData有话要说
- 如何将数据可视化技术应用于广告投放?
- 如何教新手编程
- 微软推出必应(Bing)开发中心
- 6个替代Adobe Dreamweaver的编码工具
- 码农自白:这样成为谷歌工程师
- 掌握数据科学应该学习哪些语言?
- 微软老将Philip Su的离职信:回首12年职场生涯
- 清华毕业,海外实习面试记
- 微软甲骨文下周或宣布云计算合作计划
- 我学编程时犯的最大两个错误
- 腾讯云存储黄炳琪:存储不仅是数据仓库,而应该是生产管道
- 微软将关闭 Outlook.com 的关联账户功能
- 如何设计“找回用户帐号”功能
- C++ 程序员自信心曲线图