Spark--后端、前端、移动开发、大数据、Java、Python、Vue开发经验分享

Spark

Spark（十一）Spark分区
一、分区的概念　　分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。二、为什么要进行分区　　数据分区，在分布式集群里，网络通信的代价很大，减少网络传输可以极大提升性能。mapreduce框架的
日期 2023-09-21 09:21:02
Spark RDD API扩展开发
原文链接： Spark RDD API扩展开发(1) Spark RDD API扩展开发(2):自定义RDD 我们都知道，Apache Spark内置了很多操作数据的API。但是很多时候，当我们在现实中开发应用程序的时候，我们需要解决现实中遇到的问题，而这些问题可能在Spark中没有相应的API提供，这时候，我们就需要通过扩展Spark API来实现我们自己的方法。我们可以通过两种方法
日期 2023-09-21 09:21:02
Spark基础知识总结和应用举例
目录 1、Spark编程模型 1.1 术语定义 1.2 模型组成 1.2.1 Driver部分 1.2.2 Executor部分 2、RDD
日期 2023-09-21 09:21:02
Spark的发展历史
原文地址：https://cloud.tencent.com/developer/article/1442771 Spark是一种通用的大数据计算框架，使用了内存内运算技术。今天加米谷大数据就来简单介绍一下Spark的简史。 Spark的简史 1、2009年，Spark诞生于伯克利大学AMPLab，属于伯克利大学的研究性项目； 2、2010 年，通过BSD 许可协议正式对外开源发布； 3、20
日期 2023-09-21 09:21:02
《循序渐进学Spark》一3.7　本章小结
本节书摘来自华章出版社《循序渐进学Spark》一书中的第3章，第3.7节，作者小象学院杨磊，更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.7 本章小结本章主要讲述了Spark的工作机制与原理。首先剖析了Spark的提交和执行时的具体机制，重点强调了Spark程序的宏观执行过程：提交后的Job在Spark中形成了RDD DAG（有向无环图），然后进入一系列切分
日期 2023-09-21 09:21:02
Spark源码分析 – Shuffle
参考详细探究Spark的shuffle实现, 写的很清楚, 当前设计的来龙去脉 Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer不断的spill的时候, 就会产生大量的小文件所以Hadoop后面直到reduce之前做的所有的
日期 2023-09-21 09:21:02
Apache Spark技术实战之6 --Standalone部署模式下的临时文件清理
问题导读 1.在Standalone部署模式下，Spark运行过程中会创建哪些临时性目录及文件? 2.在Standalone部署模式下分为几种模式？ 3.在client模式和cluster模式下有什么不同？概要在Standalone部署模式下，Spark运行过程中会创建哪些临时性目录及文件，这些临时目录和文件又是在什么时候被清理，本文将就这些问题做深入细致的解答。从资源使用的方
日期 2023-09-21 09:21:02
Apache Spark机器学习.1.7　机器学习工作流示例
为了进一步了解学习机器学习的工作流，在这里让我们学习一些例子。本书后续章节会研究风险建模、欺诈检测、客户视图、流失预测和产品推荐。对于诸如此类的项目，目标往往是确定某些问题的原因，或者建立一个因果模型。下面是使用工作流建立一个因果模型的一个例子。 1.检查数据结构，以确保更好地理解数据：数据是横截面数据吗？是隐含着时间信息的合并数据吗？是否使用了分类变量？ 2.检查缺失值：不知
日期 2023-09-21 09:21:02
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json("people.json") peopleRDD = peopleDF.map(lambda row: (row.pcode,row.name)) peopleRDD.take(
日期 2023-09-21 09:21:02
macOS SwiftUI 图表组件之 Spark line Chart火花线图 (教程含源码)
实战需求 macOS SwiftUI 图表组件之 Spark line Chart火花线图 (教程含源码) 本文价值与收获看完本文后，您将能够作出下面的界面看完本文您将掌握的技能绘制矩形设置圆角和背景
日期 2023-09-21 09:21:02
spark-exploit
https://github.com/akhld/spark-exploit
日期 2023-09-21 09:21:02
181 Spark IDEA中编写WordCount程序
spark shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个M
日期 2023-09-21 09:21:02
《Spark大数据处理：技术、应用与性能优化》——1.4　Spark分布式架构与单机多核架构的异同
本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第1章，第1.4节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.4 Spark分布式架构与单机多核架构的异同我们通常所说的分布式系统主要指的是分布式软件系统，它是在通信网络互连的多处理机的架构上执行任务的软件系统，包括分布式操作系统、分布式程序设计语言、分布式文件系统和分布式数据库系统等
日期 2023-09-21 09:21:02
【大数据】Spark on k8s动态资源DRA使用
前言目前在生产环境数据服务中使用到的查询引擎是spark-thriftserver2, driver和executor都是运行在k8s之上，在启动的时候，executor是driver来启动的
日期 2023-09-21 09:21:02
《Spark与Hadoop大数据分析》一一3.2　学习Spark的核心概念
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.2节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.2 学习Spark的核心概念在本节，我们要了解 Spark 的核心概念。Spark 提供的主要抽象是弹性分布式数据集（Resilient Distributed Dataset，RDD）。因此，我
日期 2023-09-21 09:21:02
在Spark程序中使用压缩
　　当大片连续区域进行数据存储并且存储区域中数据重复性高的状况下，数据适合进行压缩。数组或者对象序列化后的数据块可以考虑压缩。所以序列化后的数据可以压缩，使数据紧缩，减少空间开销。 1. Spark对压缩方式的选择　　压缩采用了两种算法：Snappy和LZF，底层分别采用了两个第三方库实现，同时可以自定义其他压缩库对Spark进行扩展。Snappy提供了更高的压缩速度，LZF提供了更高的压缩比
日期 2023-09-21 09:21:02
spark 学习总结
作者：csj更新时间:01.15 email:59888745@qq.com 说明：因内容较多，会不断更新 xxx学习总结；回主目录：2017 年学习记录和总结 1 安装spark及简介 spark 是用scala语言编写的一套分布式内存计算系统，他的核心抽象模型是RDD(弹性分布式数据集)，围绕rdd构件了一系列分布式API 可以直接对数据集进行分
日期 2023-09-21 09:21:02
Spark（五）Spark任务提交方式和执行流程
一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext （3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行某些
日期 2023-09-21 09:21:02
Spark Streaming Programming Guide
参考，http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html Overview SparkStreaming支持多种流输入，like Kafka, Flume, Twitter, ZeroMQ or plain old TCP sockets，并且可以在上面进行transform操作，最终数
日期 2023-09-21 09:21:02
《Spark大数据分析：核心概念、技术及实践》一第2章 Scala编程
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第2章，第2.1节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。第2章 Scala编程 Scala是当前热门的现代编程语言之一。它是编程语言界的凯迪拉克。它是一门强大且优美的语言。学会了它，对你的职业生涯大有裨益。用不同的编程语言都
日期 2023-09-21 09:21:02
Dr. Elephant：Hadoop和Spark的优化“神器”
美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant（Dr. Elephant 是Hadoop和Spark的性能监视和调优工具）开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。 Pepperdata的应用程序分析器作为早期访问版本，基于去年推出的Apache开源项目Dr. Elephant。Dr. Elephant项目的贡献者包括Airbn
日期 2023-09-21 09:21:02
《Spark大数据分析：核心概念、技术及实践》一导读
前言 Preface 本书是大数据和Spark方面的一本简明易懂的手册。它将助你学习如何用Spark来完成很多大数据分析任务。它覆盖了高效利用Spark所需要知道的一切内容。购买本书的好处之一就是：帮你高效学习Spark，节省你大量时间。本书所覆盖的主题在互联网上都可以找到，网上有很多关于Spark的博客、PPT和视频。事实上，Spark的资料浩如烟海，你可能需要在网络上不同地方花费数月
日期 2023-09-21 09:21:02
《Spark大数据处理：技术、应用与性能优化》——3.2　弹性分布式数据集
本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第3章，第3.2节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.2 弹性分布式数据集本节简单介绍RDD，并介绍RDD与分布式共享内存的异同。3.2.1 RDD简介在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（resilient distributed dataset，R
日期 2023-09-21 09:21:02
Spark（十六）DataSet
Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。本文主要讲解Apache Spark 2.0中RDD，DataFrame和Dataset三种API；它们各自适合的使用场景；它们的性能和优化；列举使用DataFrame和DataSet代替RDD的场景。本文聚焦DataFrame和Dataset，因为这是Apache Sp
日期 2023-09-21 09:21:02
《Spark与Hadoop大数据分析》一一3.5　持久化与缓存
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.5节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.5 持久化与缓存 Spark 的一个独特功能是在内存中持久化 RDD。你可以使用 persist 或 cache 变换来持久化 RDD，如下所示：上述两个语句都是相同的，并且会在 MEMORY_
日期 2023-09-21 09:21:02
Spark Streaming集成Kafka调优
调优 Spark Streaming集成Kafka时，当数据量较小时默认配置一般都能满足我们的需要，但是当数据量大的时候，就需要进行一定的调整和优化。合理的批处理时间（batchDuration）几乎所有的Spark Streaming调优文档都会提及批处理时间的调整，在StreamingContext初始化的时候，有一个参数便是批处理时间的设定。如果这个值设置的过短，即个batchD
日期 2023-09-21 09:21:02
在idea运行spark程序报错：The root scratch dir: /tmp/hive on HDFS should be writable
故障现象 win10 个人电脑，在idea运行spark程序【连接了hive】，代码类似如下： spark = SparkSession.builder()
日期 2023-09-21 09:21:02
Spark-----Spark 与 Hadoop 对比，Spark 集群搭建与示例运行，RDD算子简单入门
目录一、Spark 概述 1.1. Spark是什么 1.2. Spark的特点(优点) 1.3. Spark组件 1.4. Spark和Hadoop的异同二、Spark 集群搭建 2.1. Spark 集群结构 2.2. Spark 集群搭建 2.3. Spark 集群高可用搭建 2.4. 第一个应用的运行三、 Spar
日期 2023-09-21 09:21:02
Apache Spark机器学习3.5　模型评估
在上一节，我们完成了模型估计任务。现在，对我们来讲是时候评估模型是否满足模型质量标准，以决定我们进行下一步的结果解释还是回到前面的阶段改善模型。本节，我们将使用均方根误差（Root-Mean-Square Error，RMSE）和受试者工作特征（Receiver Operating Characteristic，ROC）曲线来评估我们模型的质量。计算RMSE和ROC曲线，我们需要使用测试数
日期 2023-09-21 09:21:02
《Spark官方文档》集群模式概览
集群模式概览本文简要描述了Spark在集群中各个组件如何运行。想了解如何在集群中启动Spark应用，请参考application submission guide 。 Spark应用在集群上运行时，包括了多个独立的进程，这些进程之间通过你的主程序（也叫作驱动器，即：driver）中的SparkContext对象来进行协调。特别要指出的是，SparkContext能与多种集群管理器通信
日期 2023-09-21 09:21:02
spark 安装
安装Spark 1、解压 tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C /opt/program/ ln -s /opt/program/spark-2.1.0-bin-hadoop2.7 /opt/spark 2、修改配置文件修改 .bashrc 追加内容
日期 2023-09-21 09:21:02
7种最常见的Hadoop和Spark项目
有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做一些与这些新的大数据技术相关的事情，但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同，但根据我的经验，以下所列的是最常见的七种项目。项目一：数据整合称之为“企业级数据中心”或“数据湖”
日期 2023-09-21 09:21:02
Spark-----RDD五大属性剖析、Action 和 Transformations 算子
目录一、RDD简介 1.1. 案例 1.2. 再谈 RDD 1.2.1. RDD 为什么会出现? 1.2.2. RDD 1.2.3. 什么叫做弹性分布式数据集总结: RDD 的五大属性二、RDD 的算子 2.1. Transformations 算子 2.2. Action 算子 2.3. RDD 对不同类型数据的支
日期 2023-09-21 09:21:02
182 Spark RDD概述
RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集
日期 2023-09-21 09:21:02
实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重
http://lxw1234.com/archives/2018/02/901.htm
日期 2023-09-21 09:21:02
通过Spark读写Hudi
这个更全：Spark 增删改查 Hudi代码一、使用Hudi环境准备 1.安装HDFS分布式文件系统：存储Hudi数据 Hadoop 2.8.0 首次格式化：hdfs namenode -format ./hadoop-daemon.sh start namenode
日期 2023-09-21 09:21:02
ERROR: Timeout on the Spark engine during the broadcast join
执行 spark 查询的时候报错如下 When the Spark engine runs applications and broadcast join is enabled, the Spark driver broa
日期 2023-09-21 09:21:02
[Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子
[Spark][Python][DataFrame][SQL]Spark对DataFrame直接执行SQL处理的例子 $cat people.json {"name":"Alice","pcode":"94304"}{"name":"Brayden","age":30,"pcode":"94304"}{"name":"Carla","age":19,"pcoe":"10036"}{"name"
日期 2023-09-21 09:21:02
Windows上搭建Standalone模式的Spark环境
安装Java8，设置JAVA_HOME，并添加 %JAVA_HOME%\bin 到环境变量PATH中 E:\java -version java version "1.8.0_60" Java(TM) SE Runtime Environment (build 1.8.0_60-b27) Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23,
日期 2023-09-21 09:21:02
spark 写 hbase 数据库，遇到Will not attempt to authenticate using SASL (unknown error)
今日在windows上用spark写hbase的函数 saveAsHadoopDataset 写hbase数据库的时候，遇到Will not attempt to authenticate using SASL (unkno
日期 2023-09-21 09:21:02
记一次运行spark程序遇到的权限问题
设置回滚点在本地运行时正常，在集群时就报错，后来是发现ceshi这个目录其他用户没有写的权限，修改其他用户的权限就好了 hdfs dfs -chmod 777 /ceshi
日期 2023-09-21 09:21:02
用SBT编译Spark的WordCount程序
问题导读： 1.什么是sbt？ 2.sbt项目环境如何建立？ 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具，是scala界的mvn，可以编译scala，java等，需要java1.6以上。 sbt项目环境建立 sbt编译需要固定的目录格式，并且需要联网，sbt会将依赖的jar包下载到用户home的.ivy2下面，目录结构如下： |--bui
日期 2023-09-21 09:21:02
解决Spark数据倾斜（Data Skew）的 N 种姿势与问题定位
Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势本文结合实例详细阐明了Spark数据倾斜的问题定位和几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧
日期 2023-09-21 09:21:02
Apache Spark源码走读之1 -- Spark论文阅读笔记
转自：http://www.cnblogs.com/hseagle/p/3664933.html 楔子源码阅读是一件非常容易的事，也是一件非常难的事。容易的是代码就在那里，一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计，设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前，如果想要快速对Spark的有一个整体性的认识，阅读Matei Zahar
日期 2023-09-21 09:21:02
apache-spark导入eclipse环境
工作中用到了apache-spark，想深入了解一下，决定从源码开始。先导入到常用的ide，eclipse吧：准备工作　1. 下载Eclipse：http://scala-ide.org/ 　2. 从github上下载源码：https://github.com/apache/spark 第一个实验品是Spark-Core项目　　1. exist ma
日期 2023-09-21 09:21:02
深入理解Spark：核心思想与源码分析. 3.12　Spark环境更新
3.12 Spark环境更新在SparkContext的初始化过程中，可能对其环境造成影响，所以需要更新环境，代码如下。 postEnvironmentUpdate() postApplicationStart() SparkContext初始化过程中，如果设置了spark.jars属性， spark.jars指定的jar包将由addJar方法加入httpFileServer的jarD
日期 2023-09-21 09:21:02
[Spark][Python]获得 key,value形式的 RDD
[Spark][Python]获得 key,value形式的 RDD [training@localhost ~]$ cat users.txtuser001 Fred Flintstoneuser090 Bugs Bunnyuser111 Harry Potter[training@localhost ~]$ hdfs dfs -put users.txt[training@localhost
日期 2023-09-21 09:21:02
颠覆大数据分析之Spark弹性分布式数据集
Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写，而在Spark中则要简单得多。它仅需从HDFS到Spark中的分布式共享对象空间的一次读入——从HDFS文件中创建RDD。RDD可以重用，在机器学习的各个迭代中它都会驻留在内存里，这样能显著地提升性能。当
日期 2023-09-21 09:21:02
Spark源码分析
名词解释 RDD全称为ResilientDistributedDataset，弹性分布式数据集。就是分布在集群节点上的数据集，这些集合可以用来进行各种操作。最重要的一点是，某个操作计算后的数据集可以缓存在内存中，然后给其他计算使用，这种在迭代计算中很常见。比如：我们可以从hdfs文件里创建一个数据集，然后经过filter后，会生成一个新的数据集，还可以进行groupby,map函数等操作，得到另
日期 2023-09-21 09:21:02
spark中的广播变量broadcast
Spark中的Broadcast处理首先先来看一看broadcast的使用代码: val values = List[Int](1,2,3) val broadcastValues = sparkContext.broadcast(values) rdd.mapPartitions(iter => { &
日期 2023-09-21 09:21:02