【Spark】--后端、前端、移动开发、大数据、Java、Python、Vue开发经验分享

【Spark】

关于用户路径分析模型_spark用户行为路径
大家好，又见面了，我是你们的朋友全栈君。在网页或者营销渠道中，用户行为模型有比较多，基于渠道的，笔者觉得有：渠道类型渠道重要性渠道跳转与流失单渠道，多节点路径分析，漏斗功能多渠道归因分析这里多渠道指的是，单渠道多节点的场景比较好理解，就是进入某个web \ 小程序，在不同页面之间进行跳转，多渠道这里比较多的就是，同一用户在不同的较大的场景下的流转，比如在小红书种草 -> 微信好友推
日期 2023-06-12 10:48:40
sparkWebUI-之HTTP ERROR 500
客户提供的报错截图1）在 spark-env.sh 中设置 SPARK_DAEMON_MEMORY=2g 来解决该问题，此处画个图来了解一下shs:2）原理剖析：Spark History Server 是spark内置的一个http服务，通过 /sbin/start-history-server.sh启动。History Server启动后，会监听一个端口，同时启动两个定时任务线程，分别用来解析
日期 2023-06-12 10:48:40
【Spark】Spark基础教程
大家好，又见面了，我是你们的朋友全栈君。 Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点：运行速度快：Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比Ha
日期 2023-06-12 10:48:40
华为云SparkRTC面向低时延、大通量传输业务的技术探索
// 编者按：网络和移动设备高速发展的今天，人们开始思考如何用更短的时间下载更大的文件，追求更快的速度。当下在稳定的基础上有什么方法可以提升速度呢？2022 LiveVideoStackCon音视频技术大会上海站邀请到了华为云的吴治宗老师，为我们分享华为云SparkRTC面向低时延、大通量传输业务的技术探索。文/吴治宗整理/LiveVideoStack下午好，我今天演讲的课题叫“华为云Spa
日期 2023-06-12 10:48:40
Spark UI基本介绍
Spark UI是反映一个Spark作业执行情况的web页面, 用户可以通过Spark UI观察Spark作业的执行状态, 分析可能存在的问题.。本文会介绍Spark UI的相关内容和常用的分析方法, 帮助大家更快看懂Spark究竟是如何执行代码以及通过Spark UI定位常见的作业问题.以一个常见的Spark任务为例, Spark UI如图:后续文章将从下面7个模块依次介绍。序号标签页说明文档1
日期 2023-06-12 10:48:40
大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂]
大家好，又见面了，我是你们的朋友全栈君。整理的答案后面继续更新：(1)spark运行流程、源码架构 https://blog.csdn.net/sghuu/article/details/103547937(2)Hbase主键设计、hbase为何这么快？主键设计： 1.生成随机数、hash、散列值 2.字符串反转 3.字符串拼接 hbase为何快：https://blog.c
日期 2023-06-12 10:48:40
大数据ClickHouse（十八）：Spark 写入 ClickHouse API
Spark 写入 ClickHouse APISparkCore写入ClickHouse，可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。在ClickHouse中需要预先创建好对应的结果表。一、导入依赖 <dependency> <groupId>ru.yand
日期 2023-06-12 10:48:40
【Spark Streaming】Spark Streaming的使用
大家好，又见面了，我是你们的朋友全栈君。一、Spark Streaming引入集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等Spark Streaming介绍官网：http://spar
日期 2023-06-12 10:48:40
Spark面对OOM问题的解决方法及优化总结
Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。后面先总结一下我对Spark内存模型的理解，再总结各种OOM的情况相对应的解决
日期 2023-06-12 10:48:40
zabbix监控spark之wbUI
创建web场景：配置场景：添加步骤：查看最新数据:
日期 2023-06-12 10:48:40
SparkSql序列化时列的ID是在哪里生成的呢？
面向群友写文，哈哈有点抽象，但群友们一定知道我在写什么（原谅我，喜欢晒截图）分享课上没有trace详细代码，这篇顺一下这块的代码。sparksql生成解析后的逻辑执行计划时，会通过catalog把各个字段和元数据库绑定，也就说在ResolveLogical的阶段的字段是带了id的：SELECT A,B FROM TESTDATA2 == Parsed Logical Plan ==
日期 2023-06-12 10:48:40
SparkSql全代码生成规则梳理-CollapseCodegenStages
WholeStageCodeGeneration，全阶段代码生成，简称WSCG。在理解WSCG之前，我们需要弄清楚为啥需要WSCG。1、为啥需要WSCG? 1.1、火山迭代模型火山模型（迭代器模型），是1994年 Goetz Graefe 在他的论文《Volcano, An Extensible and Parallel Query Evaluation System》中提出的概念。该模型
日期 2023-06-12 10:48:40
Spark编程技巧
Spark是一种强烈依赖内存的计算框架，结合其运行流程，可以有很多可以调优的地方用reduceByKey 替代groupByKey这两个转换都有shuffle过程发生，且都类似map reduce，但是reduceByKey会在map阶段会对相同的key进行聚合，极大的减少了map产生的数据量，进而减少了shuffle的数据量，提高了程序的执行效率避免shuffleshuffle类算子会将多
日期 2023-06-12 10:48:40
如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效？
小编有话说市场的变幻，政策的完善，技术的革新……种种因素让我们面对太多的挑战，这仍需我们不断探索、克服。今年，网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」等，聚集数帆及合作伙伴的数字化转型专家天团，聚焦大数据、云原生、人工智能等科创领域，带来深度技术解读及其在各行业落地应用等一系列知识分享，为企业数字化转型成功提供有价值的参考。今天是第5期，由网易数帆大数据离线技术专家尤夕多
日期 2023-06-12 10:48:40
k8s安装spark
这段时间已经基本实现了产品应用层从原生的springboot微服务架构迁移到k8s上，过程可谓是瞎子过河一步一个坑，但是好在系统总体能跑起来了；今天研究了下产品计算层（spark集群）如何基于k8s部署操作，过程有些取巧了，但总的来说有些进展。本次部署spark on k8s集群，基于kubeapps，简单便捷且一步到胃：提示Client启动一个 pod 运行Spark Driver Spark
日期 2023-06-12 10:48:40
hadoop+spark分布式集群搭建
hadoop+spark分布式集群部署1.环境准备环境的准备基于我写的初始化脚本,自用7.x系列的CentOS,老版本的就支持CentOS/Redhat6,7,8但是有点不完善，需要可以邮箱或者博客留言。 os\iphostnameblockcentos7.9 192.168.222.226masterrsmanager,datanode,namenode.snamenode,nmanager
日期 2023-06-12 10:48:40
spark 入门_新手入门
大家好，又见面了，我是你们的朋友全栈君。一 Spark概述 1 11 什么是Spark2 Spark特点3 Spark的用户和用途二 Spark集群安装 1 集群角色2 机器准备3 下载Spark安装包4 配置SparkStandalone5 配置Job History ServerStandalone6 配置Spark HAStandalone7 配置SparkYarn三执行Spark程序
日期 2023-06-12 10:48:40
解决spark sql读取hudi表出现偶然读不出来数据问题
相关版本hadoop 3.2.0spark 3.3.0hudi 0.12.0问题分析用beeline连接spark thriftserver或者kyuubi（spark 3.3.0）查询hudi mor表，发现对于同一个spark SQL在同一个beeline session里面不同时间查到的东西都是一样的。比如我用select count(*) from xxx。除此之外还有个问题就是，在同一个
日期 2023-06-12 10:48:40
一文搞懂Spark的Task调度器（TaskScheduler）[通俗易懂]
TaskScheduler的核心任务是提交TaskSet到集群运算并汇报结果。为TaskSet创建和维护一个TaskSetManager, 并追踪任务的本地性及错误信息。遇到Straggle任务会放到其他结点进行重试。向DAGScheduler汇报执行情况，包括在Shuffle输出丢失时报告fetch failed错误等信息。TaskScheduler底层调度器1. TaskSchedul
日期 2023-06-12 10:48:40
spark隐式转换 toDf_隐式转换是什么
文章目录一. 生产问题背景二. 隐式转换开荒 2.1 隐式转换函数参数 RichFile2.2 隐式类2.3 隐式解析机制三.回归主题一. 生产问题背景如上就是此blog产生的背景，Spark SQL 中， DF.select() select 报错不能导入 spark sql Cannot resolve overloaded method 'select'
日期 2023-06-12 10:48:40
spark知识整理
什么是spark？Spark是基于内存计算大数据分析引擎，提高了在大数据环境下数据处理的实时性。Spark目前来说仅仅只涉及到数据的计算，并没有涉及到数据的存储。spark的优点以及多余MapReduce的优势 MapReduce存在的问题1. MapReduce框架局限性　　1）仅支持Map和Reduce两种操作　　2）处理效率低效。　　　　a）Map中间结果写磁盘，Reduce写HDFS，多个
日期 2023-06-12 10:48:40
pyspark在windows的安装和使用（超详细）
本文主要介绍在win10上如何安装和使用pyspark，并运行经典wordcount示例，以及分享在运行过程中遇到的问题。1. java安装和配置1.1 java安装jdk下载链接,建议按照1.8版本，高版本会出现兼容性问题。https://www.oracle.com/java/technologies/downloads/#java8-windows我安装在C:\Program Files\
日期 2023-06-12 10:48:40
PyCharm远程连接Spark【本地虚拟机或云主机】
环境说明：1、本地虚拟机版本是 CentOS6.9 | 连接的云主机是 Ubuntu18.04。【两个都连接成功了，方法步骤一样】2、保证虚拟机上的 Spark 能正常运行，并且启动了Spark。3、Spark 版本 2.4.5 。连接步骤：1、在虚拟机上安装 py4j 安装包。 pip install py4j 2、对本地 PyCharm 设置，依次找到以下。Tools -> Deplo
日期 2023-06-12 10:48:40
Spark SQL报错：org.apache.spark.sql.catalyst.errors.package$TreeNodeException 排查记录
注：使用的是腾讯云EMR 3.3.0 版本，其中spark为3.0.2版本。排查过程：在EMR集群上按小时跑的spark sql 任务有时会失败，在driver端的日志中可以看到报错： org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree 对应的yarn上的application的日志中可以看到在
日期 2023-06-12 10:48:40
大数据Kudu（九）：Spark操作Kudu
Spark操作Kudu一、添加Maven依赖使用SparkSQL操作Kudu，这里需要导入Kudu与SparkSQL整合的包和SparkSQL的包，在Maven中导入如下依赖： <dependency> <groupId>org.apache.kudu</groupId>
日期 2023-06-12 10:48:40
Kyuubi集成spark场景
客户端启动方式基于kyuubi-server启动${kyport}默认10009kyuubi-beeline -u "jdbc:hive2://kyuubiserver:kyport/;user=hadoop"复制基于zk-server启动${zkport} 默认2181，推荐使用方式kyuubi-beeline -u "jdbc:hive2://zkserver:
日期 2023-06-12 10:48:40
【ES三周年】ElasticSearch 简要技术总结与Spark结合使用实践
ElasticSearch 简要技术总结1. 总览ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它是一个实时的分布式搜索和分析引擎。它可以帮助你用几秒钟内搜索百万级别的数据。ES是高度可伸缩
日期 2023-06-12 10:48:40
Python小案例（十）利用PySpark循环写入数据
Python小案例（十）利用PySpark循环写入数据在做数据分析的时候，往往需要回溯历史数据。但有时候构建历史数据时需要变更参数重复跑数，公司的数仓调度系统往往只支持日期这一个参数，而且为临时数据生产调度脚本显得有点浪费。这个时候就可以结合python的字符串格式化和PySpark的Hive写入，就可以完成循环写入临时数据。⚠️注意：以下需要在企业服务器上的jupyter上操作，本地jupyte
日期 2023-06-12 10:48:40
Spark整体架构
1.png1.YarnApache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。2.MesosMesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统
日期 2023-06-12 10:48:40
Spark Streaming简介
Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window。处理后的数据可以被保存到文件系统、数据库
日期 2023-06-12 10:48:40
Spark 操作练习
# coding=utf-8 from pyspark import SparkConf, SparkContext from pyspark import Row from pyspark.sql import SparkSession # 初始化spark，生成一个sparkcontext sc = SparkContext() print "=================
日期 2023-06-12 10:48:40