zl程序教程

Spark总结1

  • Hudi Spark SQL源码学习总结-Create Table

    Hudi Spark SQL源码学习总结-Create Table

    前言简要总结Hudi Spark Sql源码执行逻辑,从建表开始。其实从去年开始接触Hudi的时候就研究学习了Hudi Spark SQL的部分源码,并贡献了几个PR,但是完整的逻辑有些地方还没有完全梳理清楚,所以现在想要从头开始学习,搞懂一些知识难点,这样以后看相关源码的时候就不会导致因为一些关键点不懂影响进度。 由于本人能力和精力有限,本人只讲解自己觉得比较关键的点,主要目的是梳理整个流程。

    日期 2023-06-12 10:48:40     
  • Spark面对OOM问题的解决方法及优化总结

    Spark面对OOM问题的解决方法及优化总结

    Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,repartition等操作。后面先总结一下我对Spark内存模型的理解,再总结各种OOM的情况相对应的解决

    日期 2023-06-12 10:48:40     
  • Spark 读写 Ceph S3入门学习总结

    Spark 读写 Ceph S3入门学习总结

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住给大家分享一下。点击跳转到网站:https://www.captainai.net/dongkelun前言首先安装好Ceph,可以参考我上篇文章Ceph分布式集群安装配置版本spark: 2.4.5 hadoop: hdp版本 3.1.1.3.1.0.0-78spark-shell读写S3jar包配置hadoop-aws-3.1.1

    日期 2023-06-12 10:48:40     
  • Spark原理小总结详解大数据

    Spark原理小总结详解大数据

    2、弹性分布式数据集RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 RDD的属性 &n

    日期 2023-06-12 10:48:40     
  • Spark原理总结详解大数据

    Spark原理总结详解大数据

    一、Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有hadoop MapReduce所具有的优点,但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个M

    日期 2023-06-12 10:48:40     
  • Spark算子总结(带案例)详解大数据

    Spark算子总结(带案例)详解大数据

    spark算子大致上可分三大类算子: 1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 2、Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 3、Action算子,这类算子会触发SparkContext提交作业。  

    日期 2023-06-12 10:48:40     
  • spark-submit  参数总结

    spark-submit 参数总结

    spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 1)./spark-shell --help   :不知道如何使用,可通过它查看命令帮助,[]中括号里面的表示可选的。 2)重要参数讲解: --master    master 的地址,提交任务到哪里执行,例如 spark://h

    日期 2023-06-12 10:48:40     
  • Hadoop Spark 集群简便安装总结

    Hadoop Spark 集群简便安装总结

    本人实际安装经验,目的是为以后高速安装。仅供自己參考。 一、Hadoop 1、操作系统一如既往:①setup关掉防火墙、②vi /etc/sysconfig/selinux,改SELINUX=disabled 。(3)安装时自己定义不要JAVA。④系统安装后,直接创建用户hadoop,password同username。 2、ssh。①在master上以hadoop用户运

    日期 2023-06-12 10:48:40     
  • 大数据开发笔记(八):Spark综合笔记总结

    大数据开发笔记(八):Spark综合笔记总结

      ✨大数据开发笔记推荐: 大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术,总结内容适合大数据开发者学习࿰

    日期 2023-06-12 10:48:40     
  • Spark Broadcast总结

    Spark Broadcast总结

    为什么要使用广播(broadcast)变量? Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。 进一

    日期 2023-06-12 10:48:40     
  • spark 学习总结

    spark 学习总结

      作者:csj更新时间:01.15 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结   1 安装spark及简介 spark 是用scala语言编写的一套分布式内存计算系统,他的核心抽象模型是RDD(弹性分布式数据集),围绕rdd构件了一系列分布式API 可以直接对数据集进行分

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一1.7 总结

    《Spark大数据分析:核心概念、技术及实践》一1.7 总结

      本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.7节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.7 总结 近年来数据的指数级增长给许多大数据技术带来了机会。传统的专有产品要么无法处理大数据,要么代价太昂贵。这就为开源大数据技术打开了一扇门。仅仅在过去几年里,这个领域

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一2.4 总结

    《Spark大数据分析:核心概念、技术及实践》一2.4 总结

    本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第2章,第2.4节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4 总结 Scala是一门运行在JVM之上的静态类型语言,它用来开发多线程和分布式的应用程序。它结合了面向对象编程和函数式编程各自的优点。而且,它可以和Java无缝集成在一起

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一3.10 总结

    《Spark大数据分析:核心概念、技术及实践》一3.10 总结

     本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.10节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.10 总结 Spark是一个快速、可扩展、可容错且基于内存的集群计算框架。一个Spark应用可以比Hadoop应用快上100倍。 Spark不但快速而且它能很方便地使用

    日期 2023-06-12 10:48:40     
  • Spark基础知识总结和应用举例

    Spark基础知识总结和应用举例

    目录 1、Spark编程模型 1.1 术语定义 1.2 模型组成 1.2.1 Driver部分 1.2.2 Executor部分 2、RDD

    日期 2023-06-12 10:48:40     
  • ## Spark作业性能调优总结

    ## Spark作业性能调优总结

    Spark作业性能调优总结 前段时间在集群上运行Spark作业,但是发现作业运行到某个stage之后就卡住了,之后也不再有日志输出。于是开始着手对作业进行调优,下面是遇到的问题和解决过程: 运行时错误 Out Of Memory: Java heap space / GC overhead limit exceeded 使用yarn logs -applicationId=appliat

    日期 2023-06-12 10:48:40