Spark技术栈--后端、前端、移动开发、大数据、Java、Python、Vue开发经验分享

Spark技术栈

Apache Spark技术实战（三）利用Spark将json文件导入Cassandra &SparkR的安装及使用
将存在于json文件中的数据导入到cassandra数据库，目前由cassandra提供的官方工具是json2sstable，由于对cassandra本身了解不多，这个我还没有尝试成功。但想到spark sql中可以读取json文件，而spark-cassadra-connector又提供了将RDD存入到数据库的功能，我想是否可以将两者结合一下。创建KeySpace和Table 为了减少
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一第1章大数据技术一览
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第1章，第1.1节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。第1章大数据技术一览我们正处在大数据时代。数据不仅是任何组织的命脉，而且在指数级增长。今天所产生的数据比过去几年所产生的数据大好几个数量级。挑战在于如何从数据中获取商业价
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一1.4　消息系统
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第1章，第1.4节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.4 消息系统数据通常从一个应用流向另一个。一个应用产生数据，而后被一个或多个其他应用使用。一般来讲，生成或发送数据的应用叫作生产者，接收数据的则叫作消费者。有时候，
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一1.6　分布式SQL查询引擎
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第1章，第1.6节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.6 分布式SQL查询引擎如前所述，SQL是最常用来查询和分析数据的语言之一。它易学且有群众基础（了解SQL的人远比了解编程语言如Java的人多）。基本上，Hive就是因
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一1.7　总结
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第1章，第1.7节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.7 总结近年来数据的指数级增长给许多大数据技术带来了机会。传统的专有产品要么无法处理大数据，要么代价太昂贵。这就为开源大数据技术打开了一扇门。仅仅在过去几年里，这个领域
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一2.3　一个单独的Scala应用程序
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第2章，第2.3节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 一个单独的Scala应用程序到目前为止，你看到不少Scala代码片段。在这一节，我们将会编写一个完整的Scala应用程序，你可以编译它，运行它。一个单独的Scal
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一3.3　应用运行
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第3章，第3.1节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.3 应用运行本节主要描述数据处理代码是怎么在Spark集群中执行的。 3.3.1 术语先来看看几个术语的定义。 shuffle操作。shuffle操作是指在集群节
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一3.7　缓存
本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第3章，第3.7节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.7 缓存除了将数据驻留在内存中以外，缓存在RDD中也扮演了另外一个重要的角色。就像之前所说的，创建RDD有两种方式，从存储系统中读取数据或者应用其他现存RDD的转换操作。
日期 2023-06-12 10:48:40
《Spark大数据分析：核心概念、技术及实践》一导读
前言 Preface 本书是大数据和Spark方面的一本简明易懂的手册。它将助你学习如何用Spark来完成很多大数据分析任务。它覆盖了高效利用Spark所需要知道的一切内容。购买本书的好处之一就是：帮你高效学习Spark，节省你大量时间。本书所覆盖的主题在互联网上都可以找到，网上有很多关于Spark的博客、PPT和视频。事实上，Spark的资料浩如烟海，你可能需要在网络上不同地方花费数月
日期 2023-06-12 10:48:40
《Spark大数据处理：技术、应用与性能优化》——1.3　Spark架构
本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第1章，第1.3节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 Spark架构从上文介绍可以看出，Spark是整个BDAS的核心。生态系统中的各个组件通过Spark来实现对分布式并行任务处理的程序支持。1．Spark的代码结构图1-3展示了Spark-1.0的代码结构和代码量（不包含
日期 2023-06-12 10:48:40
《Spark大数据处理：技术、应用与性能优化》——3.2　弹性分布式数据集
本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第3章，第3.2节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.2 弹性分布式数据集本节简单介绍RDD，并介绍RDD与分布式共享内存的异同。3.2.1 RDD简介在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（resilient distributed dataset，R
日期 2023-06-12 10:48:40