zl程序教程

spark入门(1)

  • Spark快速入门系列(三)深入理解RDD

    Spark快速入门系列(三)深入理解RDD

    大家好,又见面了,我是你们的朋友全栈君。这里写目录标题深入 RDD案例再谈 RDDRDD 为什么会出现?RDD 的特点什么叫做弹性分布式数据集总结: RDD 的五大属性深入 RDD目标深入理解 RDD 的内在逻辑, 以及 RDD 的内部属性(RDD 由什么组成)复制案例需求给定一个网站的访问记录, 俗称 Access log 计算其中出现的独立 IP, 以及其访问的次数复制创建个数据文件acces

    日期 2023-06-12 10:48:40     
  • Spark 读写 Ceph S3入门学习总结

    Spark 读写 Ceph S3入门学习总结

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住给大家分享一下。点击跳转到网站:https://www.captainai.net/dongkelun前言首先安装好Ceph,可以参考我上篇文章Ceph分布式集群安装配置版本spark: 2.4.5 hadoop: hdp版本 3.1.1.3.1.0.0-78spark-shell读写S3jar包配置hadoop-aws-3.1.1

    日期 2023-06-12 10:48:40     
  • spark 入门_新手入门

    spark 入门_新手入门

    大家好,又见面了,我是你们的朋友全栈君。 一 Spark概述 1 11 什么是Spark2 Spark特点3 Spark的用户和用途二 Spark集群安装 1 集群角色2 机器准备3 下载Spark安装包4 配置SparkStandalone5 配置Job History ServerStandalone6 配置Spark HAStandalone7 配置SparkYarn三 执行Spark程序

    日期 2023-06-12 10:48:40     
  • 倾情大奉送–Spark入门实战系列详解大数据

    倾情大奉送–Spark入门实战系列详解大数据

    此页面是否是列表页或首页?未找到合适正文内容。

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–2.Spark编译与部署(上)–基础环境搭建详解大数据

    Spark入门实战系列–2.Spark编译与部署(上)–基础环境搭建详解大数据

    1、该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取; 2、Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建、Hadoop编译安装和Spark编译安装,该环境作为后续实验基础; 3、文章演示了Hadoop、Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–2.Spark编译与部署(中)–Hadoop编译安装详解大数据

    Spark入门实战系列–2.Spark编译与部署(中)–Hadoop编译安装详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下 http://mirror.bit.edu.cn/apache/maven/

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–4.Spark运行架构详解大数据

    Spark入门实战系列–4.Spark运行架构详解大数据

     【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取  1、 Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Execut

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–5.Hive(下)–Hive实战详解大数据

    Spark入门实战系列–5.Hive(下)–Hive实战详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步  启动HDFS、YARN和Hive,启动完毕后创建Hive数据库 hive create database hive; hive show databases; hive use hiv

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–6.SparkSQL(中)–深入了解SparkSQL运行计划及调优详解大数据

    Spark入门实战系列–6.SparkSQL(中)–深入了解SparkSQL运行计划及调优详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1.1  运行环境说明 1.1.1 硬软件环境 l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-812388 l  虚拟机操作系统:

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–6.SparkSQL(下)–Spark实战应用详解大数据

    Spark入门实战系列–6.SparkSQL(下)–Spark实战应用详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、运行环境说明 1.1 硬软件环境 l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-812388 l  虚拟机操作系统:CentOS 64位

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–8.Spark MLlib(下)–机器学习库SparkMLlib实战详解大数据

    Spark入门实战系列–8.Spark MLlib(下)–机器学习库SparkMLlib实战详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列–9.Spark图计算GraphX介绍及实例详解大数据

    Spark入门实战系列–9.Spark图计算GraphX介绍及实例详解大数据

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送 Spark入门实战系列》获取 1、GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微

    日期 2023-06-12 10:48:40     
  • spark入门之二 spark作业提交流程详解大数据

    spark入门之二 spark作业提交流程详解大数据

    spark作业提交流程   在运行Spar应用程序时,会将Spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下: ./bin/spark-submit examples/src/main/r/dataframe. 1.1为弄清楚整个流程,我们先来分析一下spark-submit脚本,spark-submit脚本内容主要功能如下: 脚本中

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(进阶篇)——Spark入门到精通:第九节 Spark SQL运行流程解析

    Spark修炼之道(进阶篇)——Spark入门到精通:第九节 Spark SQL运行流程解析

    使用下列代码对SparkSQL流程进行分析,让大家明白LogicalPlan的几种状态,理解SparkSQL整体执行流程 // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // this is used to implic 使用下列代码对SparkSQL流程

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(进阶篇)——Spark入门到精通:第十六节 Spark Streaming与Kafka

    Spark修炼之道(进阶篇)——Spark入门到精通:第十六节 Spark Streaming与Kafka

    Spark Streaming与Kafka版的WordCount示例(一) Spark Streaming与Kafka版的WordCount示例(二) 1. Spark Streaming与Kafka版本的WordCount示例 (一) root@sparkslave02:/hadoopLearning/kafka_2.10-0.8.2.1# bin/kafka-server-start.s

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(进阶篇)——Spark入门到精通:第十四节 Spark Streaming 缓存、Checkpoint机制

    Spark修炼之道(进阶篇)——Spark入门到精通:第十四节 Spark Streaming 缓存、Checkpoint机制

    通过前面一系列的课程介绍,我们知道DStream是由一系列的RDD构成的,它同一般的RDD一样,也可以将流式数据持久化到内容当中,采用的同样是persisit方法,调用该方法后DStream将持久化所有的RDD数据。这对于一些需要重复计算多次或数据需要反复被使用的DStream特别有效。像reduceByWindow、reduceByKeyAndWindow等基于窗口操作的方法,它们默认都是有pe

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(进阶篇)——Spark入门到精通:第十三节 Spark Streaming—— Spark SQL、DataFrame与Spark Streaming

    Spark修炼之道(进阶篇)——Spark入门到精通:第十三节 Spark Streaming—— Spark SQL、DataFrame与Spark Streaming

    源码直接参照:https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/stre 源码直接参照:https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/e

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(进阶篇)——Spark入门到精通:第十二节 Spark Streaming—— DStream Window操作

    Spark修炼之道(进阶篇)——Spark入门到精通:第十二节 Spark Streaming—— DStream Window操作

    Spark Streaming提供窗口操作(Window Operation),如下图所示: 上图中,红色实线表示窗口当前的滑动位置,虚线表示前一次窗口位置,窗口每滑动一次,落在该窗口中的RDD被一起同时处理,生成一个窗口DStream(windowed DStream),窗口操作需要设置两个参数: (1)窗口长度(window length),即窗口的持续时间,上图中的窗口长度为3

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)

    Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)

    Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐、实时网站性能分析等,流式计算可以解决这些问题。目前有三种比较常用的流式计算框架,它们分别是Storm,Spark Streaming和Samza,各个框架的比较及使用情况,可以参见:http://www.csdn.net/article/2015-03-09/2824135。本节

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(基础篇)——Linux大数据开发基础:第十三节:Shell编程入门(五)

    Spark修炼之道(基础篇)——Linux大数据开发基础:第十三节:Shell编程入门(五)

    root@sparkslave02:~/ShellLearning/Chapter13# chmod a+x whileLoop.sh root@sparkslave02:~/ShellLearning/Chapter13# ./whileLoop.sh root@sparkslave02:~/ShellLearning/Chapter13# chmod a+x flagWhileLo

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(基础篇)——Linux大数据开发基础:第十节:Shell编程入门(二)

    Spark修炼之道(基础篇)——Linux大数据开发基础:第十节:Shell编程入门(二)

    root@sparkmaster:~/ShellLearning/chapter09# first=1 root@sparkmaster:~/ShellLearning/chapter09# second=2 //并不会进行加法操作,而是两个字符串拼接 root@sparkmaster:~/ShellLearning/chapter09# $first+$second 1+2: comma

    日期 2023-06-12 10:48:40     
  • Spark修炼之道(进阶篇)——Spark入门到精通:第六节 Spark编程模型(三)

    Spark修炼之道(进阶篇)——Spark入门到精通:第六节 Spark编程模型(三)

    (1)repartitionAndSortWithinPartitions(partitioner) repartitionAndSortWithinPartitions函数是repartition函数的变种,与repartition函数不同的是,repartitionAndSortWithinPartitions在给定的partitioner内部进行排序,性能比repartition要高。

    日期 2023-06-12 10:48:40     
  • Spark Operator 部署及入门示例

    Spark Operator 部署及入门示例

    关于存算分离 目前企业级的大数据应用主流还是采用Yarn或者Mesos来进行资源分配和运行调度的,例如我行目前采用Yarn来进行作业调度,并使用HDFS作为大数据的存储平台,这是典

    日期 2023-06-12 10:48:40     
  • pyspark入门教程(比较全面)

    pyspark入门教程(比较全面)

    from pyspark import SparkContext sc = SparkContext("local", "count app") words = sc.para

    日期 2023-06-12 10:48:40     
  • Spark入门,概述,部署,以及学习(Spark是一种快速、通用、可扩展的大数据分析引擎)

    Spark入门,概述,部署,以及学习(Spark是一种快速、通用、可扩展的大数据分析引擎)

    1:Spark的官方网址:http://spark.apache.org/ 1:Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spar

    日期 2023-06-12 10:48:40     
  • 【Spark NLP】第 1 章:入门

    【Spark NLP】第 1 章:入门

      🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞

    日期 2023-06-12 10:48:40     
  • 实时计算框架:Spark集群搭建与入门案例

    实时计算框架:Spark集群搭建与入门案例

    一、Spark概述 1、Spark简介 Spark是专为大规模数据处理而设计的,基于内存快速通用,可扩展的集群计算引擎,实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流,运算速度相比于MapReduce得到了显著的提高。 2、运行结构 Driver 运行Spark的Applicaion中main()函数,会创建SparkContext,SparkContext负责和Cluster-

    日期 2023-06-12 10:48:40     
  • 《Spark 官方文档》Spark快速入门

    《Spark 官方文档》Spark快速入门

    本教程是对Spark的一个快速简介。首先,我们通过Spark的交互式shell介绍一下API(主要是Python或Scala),然后展示一下如何用Java、Scala、Python写一个Spark应用。更完整参考看这里:programming guide 首先,请到Spark website下载一个Spark发布版本,以便后续方便学习。我们暂时还不会用到HDFS,所以你可以使用任何版本的Hado

    日期 2023-06-12 10:48:40     
  • Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

    Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白

    日期 2023-06-12 10:48:40