zl程序教程

Spark学习笔记

  • Pyspark学习笔记(五)RDD操作(四)_RDD连接/集合操作

    Pyspark学习笔记(五)RDD操作(四)_RDD连接/集合操作

    Pyspark学习笔记(五)RDD操作(四)_RDD连接/集合操作文章目录Pyspark学习笔记(五)RDD操作(四)_RDD连接/集合操作1.join-连接1.1. innerjoin-内连接1.2. leftOuterJoin-左连接1.3. rightOuterJoin-右连接1.4. fullOuterJoin-全连接1.5 cogroup1.6 cartesian2.Union-集合操作

    日期 2023-06-12 10:48:40     
  • Spark学习笔记1:Spark概览详解大数据

    Spark学习笔记1:Spark概览详解大数据

    Spark是一个用来实现快速而通用的集群计算的平台。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的,运行在多个工作机器或者是一个计算集群上的应用进行调度,分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点,因此Spark支持为各种不同应用场景专门设计的高级组件,这些组件关系密切并且可以互相调用。 Spark各组件密切结合的设计原理的优点:软件栈

    日期 2023-06-12 10:48:40     
  • Spark学习笔记2:RDD编程详解大数据

    Spark学习笔记2:RDD编程详解大数据

    def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("word") val sc = new SparkContext(conf) val input = sc.parallelize(List("spark core scala pyth

    日期 2023-06-12 10:48:40     
  • Spark学习笔记3:键值对操作详解大数据

    Spark学习笔记3:键值对操作详解大数据

    键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pair RDD。pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 Spark中创建pair RDD的方法:存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pair RDD,还可以使用map()函数将一个普通的RDD转为pair RDD。 Pair RDD

    日期 2023-06-12 10:48:40     
  • Spark学习笔记4:数据读取与保存详解大数据

    Spark学习笔记4:数据读取与保存详解大数据

    Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。 Spark支持的一些常见文件格式如下: 文本文件 使用文件路径作为参数调用SparkContext中的textFile()函数,就可以读取一个文本文件。也可以指定minPartitions控制分区数。传递目录作为参数,会把目录中的各部分都读取到RDD中。例如: val input =

    日期 2023-06-12 10:48:40     
  • Spark学习笔记5:Spark集群架构详解大数据

    Spark学习笔记5:Spark集群架构详解大数据

    Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力。Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应用既能够适应专用集群,又能用于共享的云计算环境。 Spark运行时架构 Spark在分布式环境中的架构如下图: 在分布式环境下,Spark集群采用的是

    日期 2023-06-12 10:48:40     
  • Spark学习笔记6:Spark调优与调试详解大数据

    Spark学习笔记6:Spark调优与调试详解大数据

    1、使用Sparkconf配置Spark 对Spark进行性能调优,通常就是修改Spark应用的运行时配置选项。 Spark中最主要的配置机制通过SparkConf类对Spark进行配置,当创建出一个SparkContext时,就需要创建出一个SparkConf实例。 Sparkconf实例包含用户要重载的配置选项的键值对。调用set()方法来添加配置项的设置,然后把这个对象传给Sp

    日期 2023-06-12 10:48:40     
  • Spark学习笔记

    Spark学习笔记

    Spark学习笔记 转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/40506715 join跟union方法測试效果 join(otherDataset, [numTasks]):(K, V) join (K, W) => (K, (V, W)) 測试过假设  没有join到的key,就没有

    日期 2023-06-12 10:48:40     
  • Spark学习笔记01-基础

    Spark学习笔记01-基础

    目录简介特性Spark运行模式Mac本地安装 本文基于 Spark 2.4.1 进行演示,相关代码可以在我的Github上看到。 简介 Spark是一个分布式集群计算系统,类似Hadoop提供了强大的分布式计算能力,相比过去的批量处理系统,提供了处理更大规模数据的能力。Spark提供了Java、Python、Scala、R接口。除常见的MapReduce运算外,还支持图、机器学习、Spark

    日期 2023-06-12 10:48:40