zl程序教程

您现在的位置是:首页 >  其他

当前栏目

《Spark大数据分析:核心概念、技术及实践》一1.7 总结

概念技术Spark数据分析 总结 实践 核心 1.7
2023-09-11 14:16:10 时间
  本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.7节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。


1.7 总结

近年来数据的指数级增长给许多大数据技术带来了机会。传统的专有产品要么无法处理大数据,要么代价太昂贵。这就为开源大数据技术打开了一扇门。仅仅在过去几年里,这个领域的快速创新已经催生出很多新产品。大数据领域如此之大,以至于可以写一本书专门来介绍各种各样的大数据技术。

本章仅讨论了几项与Spark相关的大数据技术,也介绍了Hadoop及其生态系统中的关键技术。Spark也是这个生态系统中的一部分。

Spark将在第3章介绍。第2章会先讨论Scala,一种集函数式编程和面向对象编程于一体的编程语言。理解Scala非常重要,因为本书中所有示例代码都用Scala编写。另外,Spark本身用Scala所写,但也支持其他语言,如Java、Python和R。


模拟IDC spark读写MaxCompute实践 现有湖仓一体架构是以 MaxCompute 为中心读写 Hadoop 集群数据,有些线下 IDC 场景,客户不愿意对公网暴露集群内部信息,需要从 Hadoop 集群发起访问云上的数据。本文以 EMR (云上 Hadoop)方式模拟本地 Hadoop 集群访问 MaxCompute数据。
【小白视角】大数据基础实践(七) Spark的基本操作 1. Spark概述 1.1 背景 1.2 特点 1.3 使用趋势 2. Spark生态系统 2.1 Spark与Hadoop的对比。 2.2 Job 2.3 容错率 2.4 通用性 2.5 实际应用 2.6 Spark生态系统组件的应用场景 2.7 Spark组件 2.7.1 Spark Core 2.7.2 Spark SQL 2.7.3 Spark Streaming 2.7.4 MLlib 2.7.5 Graphx 2.7.6 Cluster Managers 3. Spark运行架构 3.1 基本概念 3.2 架构设计 3.3 Spark 运行基本流程 3.4 Spark 运行
阿里云天池Apache Spark落幕:AI医疗进入落地实践深水期,达摩院如何用生态破局? 一次疫情,让阿里达摩院医疗 AI 团队一战成名。 他们利用整个假期,疫情爆发初期迅速将技术落地,率先在「郑州小汤山」落地的第一套 CT 影像识别系统代码和图片已经被分别收藏在中国国家博物馆和中国科技馆。 疫情之后,达摩院医疗 AI 产品迅速进入落地阶段,成长与痛点并存。 面对技术落地面临的普遍困境,达摩院以「数字人体」系列比赛为抓手,逐渐搭建起行业生态。