《循序渐进学Spark 》导读
2023-03-14 22:31:19 时间
目 录
前 言
第1章 Spark架构与集群环境
1.1 Spark概述与架构
1.1.1 Spark概述
1.1.2 Spark生态
1.1.3 Spark架构
1.2 在Linux集群上部署Spark
1.2.1 安装OpenJDK
1.2.2 安装Scala
1.2.3 配置SSH免密码登录
1.2.4 Hadoop的安装配置
1.2.5 Spark的安装部署
1.2.6 Hadoop与Spark的集群复制
1.3 Spark 集群试运行
1.4 Intellij IDEA的安装与配置
1.4.1 Intellij的安装
1.4.2 Intellij的配置
1.5 Eclipse IDE的安装与配置
1.6 使用Spark Shell开发运行Spark程序
1.7 本章小结
第2章 Spark 编程模型
2.1 RDD弹性分布式数据集
2.1.1 RDD简介
2.1.2 深入理解RDD
2.1.3 RDD特性总结
2.2 Spark程序模型
2.3 Spark算子
2.3.1 算子简介
2.3.2 Value型Transmation算子
2.3.3 Key-Value型Transmation算子
2.3.4 Action算子
2.4 本章小结
第3章 Spark机制原理
3.1 Spark应用执行机制分析
3.1.1 Spark应用的基本概念
3.1.2 Spark应用执行机制概要
3.1.3 应用提交与执行
3.2 Spark调度机制
3.2.1 Application的调度
3.2.2 job的调度
3.2.3 stage(调度阶段)和TasksetManager的调度
3.2.4 task的调度
3.3 Spark存储与I/O
3.3.1 Spark存储系统概览
3.3.2 BlockManager中的通信
3.4 Spark通信机制
3.4.1 分布式通信方式
3.4.2 通信框架AKKA
3.4.3 Client、Master和Worker之间的通信
3.5 容错机制及依赖
3.5.1 Lineage(血统)机制
3.5.2 Checkpoint(检查点)机制
3.6 Shuffle机制
3.6.1 什么是Shuffle
3.6.2 Shuffle历史及细节
3.7 本章小结
相关文章
- “adb”不是内部或外部命令,也不是可运行的程序或批处理文件
- 人类远端肺部气道细胞图谱绘制
- Could not get unknown property ‘versions‘ for object of type com.android.build.gradle.AppExtension
- 单细胞meta分析揭示肿瘤反应性CXCL13+T细胞对免疫检查点阻断的反应
- InstantRun mode is not supported
- 单细胞RNA-seq分析小鼠肺动脉高压内皮细胞
- 2022单细胞关键意见领袖的关键文章
- android studio3.6版本配置svn忽略文件
- Gradle sync failed: Could not read cache value from C:\Users\lenovo\.gradle\daemon\4.1\registry.bin
- CAF里也有好人-使用CD105明辨好坏CAF
- android:screenOrientation=“portrait“ 一直警告报红
- 复杂组织中单细胞表观基因组的空间分辨方法
- scRNA-seq 揭示UCOGCP的发生与异质性
- 先天性心内膜缺陷导致左心发育不良综合征
- 前列腺癌进展过程中单细胞分辨率下的细胞群体动力学研究
- Manifest merger failed : Attribute application@appComponentFactory value=(android.support.v4.app.C
- C盘空间一直在减小(每隔几秒减少0.1),windows文件夹下temp文件夹删除后一直在重复创建
- Cause: buildOutput.apkData must not be null
- 互联网信息服务安全评估报告
- 单细胞测序绘制正常与畸形的人脑血管图谱