zl程序教程

spark source

  • Spark SQL实战(07)-Data Sources

    Spark SQL实战(07)-Data Sources

    1 概述Spark SQL通过DataFrame接口支持对多种数据源进行操作。DataFrame可使用关系型变换进行操作,也可用于创建临时视图。将DataFrame注册为临时视图可以让你对其数据运行SQL查询。本节介绍使用Spark数据源加载和保存数据的一般方法,并进一步介绍可用于内置数据源的特定选项。数据源关键操作:loadsave2 大数据作业基本流程input 业务逻辑 output 不管

    日期 2023-06-12 10:48:40     
  • Spark 动态资源分配(Dynamic Resource Allocation) 解析

    Spark 动态资源分配(Dynamic Resource Allocation) 解析

    高峰和低峰Spark Streaming每个周期要处理的数据量相差三倍以上,预分配资源会导致低峰的时候资源的大量浪费。 Spark Streaming 跑的数量多了后,资源占用相当可观。 所以便有了要开发一套针对Spark Streaming 动态资源调整的想法。我在文章最后一个章节给出了一个可能的设计方案。不过要做这件事情,首先我们需要了解现有的Spark 已经实现的 Dynamic Res

    日期 2023-06-12 10:48:40     
  • Spark Streaming Dynamic Resource Allocation 文档(非官方特性)

    Spark Streaming Dynamic Resource Allocation 文档(非官方特性)

    spark.streaming.dynamicAllocation.minExecutors=0 spark.streaming.dynamicAllocation.maxExecutors=50 这些参数可以不用配置,都已经提供了一个较为合理的默认值 开启日志: spark.streaming.dynamicAllocation.debug=true 设置DRA 生效延时: spar

    日期 2023-06-12 10:48:40     
  • Spark Streaming Dynamic Resource Allocation

    Spark Streaming Dynamic Resource Allocation

    The goal is to make processing time infinitely close to duration by reducing/increasing resource in spark streaming . And we also hope having a reas Problem Statement DRA has already been implement

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(高级篇)——Spark源码阅读:第七节 resourceOffers方法与launchTasks方法解析

    Spark修炼之道(高级篇)——Spark源码阅读:第七节 resourceOffers方法与launchTasks方法解析

    // Make fake resource offers on just one executor private def makeOffers(executorId: String) { // Filter out executors under killing if (!executorsPendingToRemove.contains(executorId)) { val

    日期 2023-06-12 10:48:40     
  • 利用 Spark DataSource API 实现Rest数据源

    利用 Spark DataSource API 实现Rest数据源

    先说下这个需求的来源。通常在一个流式计算的主流程里,会用到很多映射数据,譬如某某对照关系,而这些映射数据通常是通过HTTP接口暴露出来的,尤其是外部系统,你基本没有办法直接通过JDBC去读库啥的。 上面是一个点,其次是从HTTP读到的JSON数据,我其实需要做扁平化处理的。现在如果SQL作用于JSON数据可以解决简单的嵌套问题,但是更复杂的方式是没有太大办法的。 比如下面格式的:{ "st

    日期 2023-06-12 10:48:40     
  • Spark on k8s提交测试任务失败报错解决办法:User “system:serviceaccount:default:default“ cannot get resource “pods

    Spark on k8s提交测试任务失败报错解决办法:User “system:serviceaccount:default:default“ cannot get resource “pods

    kubectl create serviceaccount spark kubectl create clusterrolebinding spark-role --clusterrole=edit --serv

    日期 2023-06-12 10:48:40     
  • spark on k8s报错:User “system:serviceaccount:default:default“ cannot get resource “pods“ in API group

    spark on k8s报错:User “system:serviceaccount:default:default“ cannot get resource “pods“ in API group

    kubectl create serviceaccount spark kubectl create clusterrolebinding spark-role --clusterrole=edit --serv

    日期 2023-06-12 10:48:40     
  • 深入理解Spark:核心思想与源码分析. 3.13 创建DAGSchedulerSource和BlockManagerSource

    深入理解Spark:核心思想与源码分析. 3.13 创建DAGSchedulerSource和BlockManagerSource

    3.13 创建DAGSchedulerSource和BlockManagerSource 在创建DAGSchedulerSource、BlockManagerSource之前首先调用taskScheduler的post-StartHook方法,其目的是为了等待backend就绪,见代码清单3-53。postStartHook的实现见代码清单3-54。 创建DAGSchedulerSource和

    日期 2023-06-12 10:48:40     
  • Spark DataSource V1 & V2 API 一文理解

    Spark DataSource V1 & V2 API 一文理解

    1. Spark DataSource介绍 Spark DataSource 是一个 Spark 的数据连接器,可以通过该连接器进行外部数据系统的读写操作。Spark DataSource包含两部分,分别是 Reader 和 Writer。  Spark DataSource API 类似于flink 的connector

    日期 2023-06-12 10:48:40