zl程序教程

Spark技术栈

  • Apache Spark技术实战(三)利用Spark将json文件导入Cassandra &SparkR的安装及使用

    Apache Spark技术实战(三)利用Spark将json文件导入Cassandra &SparkR的安装及使用

    将存在于json文件中的数据导入到cassandra数据库,目前由cassandra提供的官方工具是json2sstable,由于对cassandra本身了解不多,这个我还没有尝试成功。 但想到spark sql中可以读取json文件,而spark-cassadra-connector又提供了将RDD存入到数据库的功能,我想是否可以将两者结合一下。 创建KeySpace和Table 为了减少

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一 第1章 大数据技术一览

    《Spark大数据分析:核心概念、技术及实践》一 第1章 大数据技术一览

     本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.1节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第1章 大数据技术一览 我们正处在大数据时代。数据不仅是任何组织的命脉,而且在指数级增长。今天所产生的数据比过去几年所产生的数据大好几个数量级。挑战在于如何从数据中获取商业价

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一1.4 消息系统

    《Spark大数据分析:核心概念、技术及实践》一1.4 消息系统

      本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.4节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.4 消息系统 数据通常从一个应用流向另一个。一个应用产生数据,而后被一个或多个其他应用使用。一般来讲,生成或发送数据的应用叫作生产者,接收数据的则叫作消费者。 有时候,

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一1.6 分布式SQL查询引擎

    《Spark大数据分析:核心概念、技术及实践》一1.6 分布式SQL查询引擎

      本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.6节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.6 分布式SQL查询引擎 如前所述,SQL是最常用来查询和分析数据的语言之一。它易学且有群众基础(了解SQL的人远比了解编程语言如Java的人多)。基本上,Hive就是因

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一1.7 总结

    《Spark大数据分析:核心概念、技术及实践》一1.7 总结

      本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.7节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.7 总结 近年来数据的指数级增长给许多大数据技术带来了机会。传统的专有产品要么无法处理大数据,要么代价太昂贵。这就为开源大数据技术打开了一扇门。仅仅在过去几年里,这个领域

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一2.3 一个单独的Scala应用程序

    《Spark大数据分析:核心概念、技术及实践》一2.3 一个单独的Scala应用程序

     本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第2章,第2.3节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 一个单独的Scala应用程序 到目前为止,你看到不少Scala代码片段。在这一节,我们将会编写一个完整的Scala应用程序,你可以编译它,运行它。 一个单独的Scal

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一3.3 应用运行

    《Spark大数据分析:核心概念、技术及实践》一3.3 应用运行

    本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.1节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.3 应用运行  本节主要描述数据处理代码是怎么在Spark集群中执行的。 3.3.1 术语 先来看看几个术语的定义。 shuffle操作。shuffle操作是指在集群节

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一3.7 缓存

    《Spark大数据分析:核心概念、技术及实践》一3.7 缓存

     本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.7节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.7 缓存 除了将数据驻留在内存中以外,缓存在RDD中也扮演了另外一个重要的角色。就像之前所说的,创建RDD有两种方式,从存储系统中读取数据或者应用其他现存RDD的转换操作。

    日期 2023-06-12 10:48:40     
  • 《Spark大数据分析:核心概念、技术及实践》一导读

    《Spark大数据分析:核心概念、技术及实践》一导读

    前 言  Preface 本书是大数据和Spark方面的一本简明易懂的手册。它将助你学习如何用Spark来完成很多大数据分析任务。它覆盖了高效利用Spark所需要知道的一切内容。 购买本书的好处之一就是:帮你高效学习Spark,节省你大量时间。本书所覆盖的主题在互联网上都可以找到,网上有很多关于Spark的博客、PPT和视频。事实上,Spark的资料浩如烟海,你可能需要在网络上不同地方花费数月

    日期 2023-06-12 10:48:40     
  • 《Spark大数据处理:技术、应用与性能优化》——1.3 Spark架构

    《Spark大数据处理:技术、应用与性能优化》——1.3 Spark架构

    本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.3节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 Spark架构 从上文介绍可以看出,Spark是整个BDAS的核心。生态系统中的各个组件通过Spark来实现对分布式并行任务处理的程序支持。1.Spark的代码结构图1-3展示了Spark-1.0的代码结构和代码量(不包含

    日期 2023-06-12 10:48:40     
  • 《Spark大数据处理:技术、应用与性能优化》——3.2 弹性分布式数据集

    《Spark大数据处理:技术、应用与性能优化》——3.2 弹性分布式数据集

    本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第3章,第3.2节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.2 弹性分布式数据集 本节简单介绍RDD,并介绍RDD与分布式共享内存的异同。3.2.1 RDD简介在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilient distributed dataset,R

    日期 2023-06-12 10:48:40