您现在的位置是：首页 > 硬件

当前栏目

《Scala机器学习》一一第3章使用Spark和MLlib

机器 scala 学习 Spark 一一使用

2023-09-11 14:19:11 时间

第3章使用Spark和MLlib

上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识，但接下来不会介绍Spark和MLlib的具体实现，MLlib是Spark顶层的机器学习库。Spark是大数据生态系统中相对较新的成员，它基于内存使用而不是磁盘来进行优化。数据仍然可以根据需要转储到磁盘上，但Spark只有在明确指示这样做或活动数据集不适合内存时才会执行转储。如果节点出现故障或由于某些原因从内存中擦除信息，Spark会利用存储的信息来重新计算活动数据集。这与传统的MapReduce方法不同，传统的MapReduce方法会将每个map或reduce的数据保留到磁盘上。
Spark特别适合于在分布式节点集上的迭代或统计机器学习算法，并且可以对其进行扩展。对于Spark，唯一的问题是节点中可用的总内存空间和磁盘空间，以及网络速度。本章将介绍Spark架构和实现的基础知识。
可简单修改配置参数来管理Spark在单个节点上或跨一组节点执行数据管道。当然，这种灵活性以稍微复杂的框架和更长的设置时间为代价，但框架的并行性非常好。由于目前大多数笔记本电脑已经是多线程且足够强大，因此这样的配置通常不会有大问题。
本章将介绍以下主题：
安装和配置Spark
Spark架构的基础知识，并解释为什么它会绑定Scala语言
为什么Spark是继顺序编程和Hadoop MapReduce之后的下一代技术
Spark组件
Scala和Spark中单词计数程序的实现
基于流的单词计数程序的实现
如何从分布式文件或分布式数据库中创建Spark的数据框（DataFrame）
Spark性能调整

猜你喜欢

Csdn Blog 开发团队致广大网友的一封信－“关于评论数不更新等若干问题的说明”
Reactor中的Thread和Scheduler
Harbor 镜像仓库
【步态识别】基于深度学习的步态识别系统的MATLAB仿真，包括ALEXNET，改进CNN，GOOGLENET
大数据产业化:无锡建亚太区首个双T4标准数据中心
使用jenkins+Emma统计Android客户端单元测试覆盖率
网易面试——人工智能工程师
如何获取大数据平台 CDH 中 hive metastore db 的用户名和密码？
C#编码标准
Swift - 手机摇晃的监测和响应
浅谈聚簇索引和非聚簇索引的区别
二、从后端请求到的列表数据，存在于对象数组中每个元素的不同属性对象中
【BZOJ4773】负环倍增Floyd
ES 复杂类型及其查询
Java类和对象超详细整理，适合新手入门
数据库垂直拆分水平拆分
操作系统4小时速成：操作系统的基本概念，它是系统软件，管理处理机、存储器、io设备、文件，并发和共享是最基本特征，还有虚拟和异步
VIM使用技巧15

相关主题

python机器学习
机器学习
机器学习初窥
机器学习-朴素贝叶斯
[机器学习] 集成学习
机器学习-线性回归
机器学习和统计学习
吴恩达机器学习I
机器学习之深度学习
[ML] 机器学习简介
机器学习模型评估
《Scala机器学习》一一
机器学习的原理
Python 7步机器学习
机器学习之统计学
关于机器学习
机器学习值KNN
机器学习过程
机器学习总结

zl程序教程

当前栏目

《Scala机器学习》一一第3章使用Spark和MLlib

相关文章

当前栏目

《Scala机器学习》一一第3章 使用Spark和MLlib

相关文章

《Scala机器学习》一一第3章使用Spark和MLlib