您现在的位置是：首页 > 其他

当前栏目

《Spark大数据分析：核心概念、技术及实践》导读

技术缓存变量数据分析 Spark

2023-03-14 22:33:41 时间

Contents 目　　录

译者序

前言

致谢

第1章　大数据技术一览

1.1　Hadoop

1.1.1　HDFS

1.1.2　MapReduce

1.1.3　Hive

1.2　数据序列化

1.2.1　Avro

1.2.2　Thrift

1.2.3　Protocol Buffers

1.2.4　SequenceFile

1.3　列存储

1.3.1　RCFile

1.3.2　ORC

1.3.3　Parquet

1.4　消息系统

1.4.1　Kafka

1.4.2　ZeroMQ

1.5　NoSQL

1.5.1　Cassandra

1.5.2　HBase

1.6　分布式SQL查询引擎

1.6.1　Impala

1.6.2　Presto

1.6.3　Apache Drill

1.7　总结15

第2章　Scala编程

2.1　函数式编程

2.1.1　函数

2.1.2　不可变数据结构

2.1.3　一切皆表达式

2.2　Scala基础

2.2.1　起步

2.2.2　基础类型

2.2.3　变量

2.2.4　函数

2.2.5　类

2.2.6　单例

2.2.7　样本类

2.2.8　模式匹配

2.2.9　操作符

2.2.10　特质

2.2.11　元组

2.2.12　Option类型

2.2.13　集合

2.3　一个单独的Scala应用程序

2.4　总结

第3章　Spark Core

3.1　概述

3.1.1　主要特点

3.1.2　理想的应用程序

3.2　总体架构

3.2.1　worker

3.2.2　集群管理员

3.2.3　驱动程序

3.2.4　执行者

3.2.5　任务

3.3　应用运行

3.3.1　术语

3.3.2　应用运行过程

3.4　数据源

3.5　API

3.5.1　SparkContext

3.5.2　RDD

3.5.3　创建RDD

3.5.4　RDD操作

3.5.5　保存RDD

3.6　惰性操作

3.7　缓存

3.7.1　RDD的缓存方法

3.7.2　RDD缓存是可容错的

3.7.3　缓存内存管理

3.8　Spark作业

3.9　共享变量

3.9.1　广播变量

3.9.2　累加器

3.10　总结

猜你喜欢

3M Health Information Systems 如何使用 Amazon Redshift 构建医疗保健数据报告工具
java 复制文件
python 操作字符串大全
Java容器详解
使用 AWS CDK 自动化部署自动生成 PDF 缩略图 Serverless 服务
在 Amazon EKS 上运行 Flannel 和 Weave Net 网络插件
java读取文本
JAVA system.exit
即将推出 – AWS 西班牙区域
Java--Path详解
使用python发送邮件
基于 Amazon DynamoDB 流对 Amazon DynamoDB 表进行跨区复制实践
基于详细账单的成本监控及优化解决方案
在 Amazon EMR 中利用 Alluxio 的分层存储架构
使用python发送邮件
Java访问权限
Java并发——Exchanger
python日期的处理
【Java】封装httpClient
基于 AWS Batch 只需五步搭建一个高性能集群

zl程序教程

当前栏目

《Spark大数据分析：核心概念、技术及实践》导读

相关文章