Hadoop、spark--后端、前端、移动开发、大数据、Java、Python、Vue开发经验分享

Hadoop、spark

搭建Hadoop2.7.2和Hive2.3.3以及Spark3.1.2
Hadoop 简介Hadoop是一个用Java编写的Apache开源框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个机器，每个都提供本地计算和存储。Hive简介Apache Hive是一个构建于Hadoop顶层的数据仓库，可以将结构化的数据文件映射为一张数据库表，并提
日期 2023-06-12 10:48:40
hadoop+spark+zookeeper+hive的大数据分布式集群搭建
hadoop+spark+zookeeper分布式集群部署这里的排版可能不太好看因为本是我直接写在博客上的外挂标签修剪的，如果想要获得更好的阅读体验建议在我的博客中浏览1.环境准备环境的准备基于我写的初始化脚本,自用7.x系列的CentOS,老版本的就支持CentOS/Redhat6,7,8但是有点不完善，需要可以邮箱或者博客留言。os\ip hostnameblock
日期 2023-06-12 10:48:40
hadoop+spark分布式集群搭建
hadoop+spark分布式集群部署1.环境准备环境的准备基于我写的初始化脚本,自用7.x系列的CentOS,老版本的就支持CentOS/Redhat6,7,8但是有点不完善，需要可以邮箱或者博客留言。 os\iphostnameblockcentos7.9 192.168.222.226masterrsmanager,datanode,namenode.snamenode,nmanager
日期 2023-06-12 10:48:40
Hadoop/Spark 太重，esProc SPL 很轻
随着大数据时代的来临，数据量不断增长，传统小机上跑数据库的模式扩容困难且成本高昂，难以支撑业务发展。很多用户开始转向分布式计算路线，用多台廉价的 PC 服务器组成集群来完成大数据计算任务。Hadoop/Spark 就是其中重要的软件技术，由于开源免费而广受欢迎。经过多年的应用和发展，Hadoop 已经被广泛接受，不仅直接应用于数据计算，还发展出很多基于它的新数据库，比如 Hive、Impala 等
日期 2023-06-12 10:48:40
CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装详解大数据
本文档主要记录了Hadoop+Hive+Spark集群安装过程，并且对NameNode与ResourceManager进行了HA高可用配置，以及对NameNode的横向扩展（Federation联邦） 1 VM网络配置将子网IP设置为192.168.1.0：将网关设置为192.168.1.2：并禁止DHCP 当经过上面配置后
日期 2023-06-12 10:48:40
Spark修炼之道（进阶篇）——Spark入门到精通：第二节 Hadoop、Spark生成圈简介
原文地址：http://os.51cto.com/art/201508/487936_all.htm#rd?sukey=a805c0b270074a064cd1c1c9a73c1dcc953928bfe4a56cc94d6f67793fa02b3b983df6df92dc418df5a1083411b53325 下图给出了Hadoop生态圈中的重要产品：图片来源：http://www.3
日期 2023-06-12 10:48:40
hadoop spark端口整理
50070：HDFSwebUI的端口号 8485:journalnode默认的端口号 9000：非高可用访问数rpc端口 8020：高可用访问数据rpc 8088࿱
日期 2023-06-12 10:48:40
Hadoop Spark 集群简便安装总结
本人实际安装经验，目的是为以后高速安装。仅供自己參考。一、Hadoop 1、操作系统一如既往：①setup关掉防火墙、②vi /etc/sysconfig/selinux，改SELINUX=disabled 。(3)安装时自己定义不要JAVA。④系统安装后，直接创建用户hadoop，password同username。 2、ssh。①在master上以hadoop用户运
日期 2023-06-12 10:48:40
大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看
简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术语，本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从
日期 2023-06-12 10:48:40
大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）
文章目录一、概述二、Hudi CLI三、Spark 与 Hudi 整合使用1）Spark 测试2）Spark 与 Hudi 整合使用1、启动spark-shell2、导入park及
日期 2023-06-12 10:48:40
大数据Hadoop之——Spark Streaming原理
文章目录一、概述二、Spark Streaming基本原理1）官方文档对Spark Streaming的原理解读2）框架执行流程三、Spark Streaming核心AP
日期 2023-06-12 10:48:40
大数据Hadoop之——Spark SQL+Spark Streaming
文章目录一、Spark SQL概述二、SparkSQL版本1）SparkSQL的演变之路2）shark与SparkSQL对比3）SparkSession 三、
日期 2023-06-12 10:48:40
Hadoop与Spark是什么？
大数据本身是一个抽象的概念。从一般意义上讲，大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。 C语言中文网目前，业界对大数据还没有一个统一的定义，
日期 2023-06-12 10:48:40
hadoop和spark超大矩阵点乘思路在多源数据POI融合中应用
最近碰到一个奇葩需求，需要通过各种特征做多数据源poi数据融合。说白了就是要把各家图商以及网路上扒下来数据合成到一张表里，去掉冗余数据，增加各图商特性数据。这个问题乍看起来不难，里面其实挺大坑。首先，需要找到一个在个数据源都可行的唯一ID，作为数据挂接的唯一标识࿰
日期 2023-06-12 10:48:40
hadoop/spark/flink/hdfs/mapreduce/yarn
上面的介绍，基本就是一个数据仓库的构架了。底层HDFS，上面跑MapReduce／Tez／Spark，在上面跑Hive，Pig。或者HDFS
日期 2023-06-12 10:48:40
如何选择满足需求的SQL on Hadoop/Spark系统
在批处理时代，Hive一枝独秀；在实时交互式查询时代，呈现出的是百花齐放的局面。Hive onTez, Hive on Spark, Spark SQL, Impala等等，目前看也没有谁干掉谁的趋势。引用今年图灵奖得主Michael Stonebraker的话说，现在的数据库领域已经不是”one size fit all”的时代了。那么面对这么多系统，我们改如何选择呢？这里谈谈这些系统的区别和优
日期 2023-06-12 10:48:40
Hadoop Spark太重，esProc SPL很轻
作者：石臻臻, CSDN博客之星Top5、Kafka Contributor 、nacos Contributor、华为云 MVP ,腾讯云TVP, 滴滴Kafka技术专家、 LogiKM PMC(改名
日期 2023-06-12 10:48:40
Hadoop和Spark的统一部署

日期 2023-06-12 10:48:40
在Hadoop集群中用PySpark处理数据的知识详解
当下是数据信息时代，数据规模往往无法在单台计算机上处理。但是可以应用 Apache Spark、Hadoop 等技术可以解决这种问题。Python 也可以使用 PySpark 进行相关操作。整套学习自学教程中应用的数据都
日期 2023-06-12 10:48:40
从Hadoop到Spark的架构实践
当下，Spark已经在国内得到了广泛的认可和支持：2014年，Spark Summit China在北京召开，场面火爆；同年，Spark Meetup在北京、上海、深圳和杭州四个城市举办，其中仅北京就成功举办了5次，内容更涵盖Spark Core、Spark Streaming、Spark MLlib、Spark SQL等众多领域。而作为较早关注和引入Spark的移动互联网大数据综合服务公司，T
日期 2023-06-12 10:48:40
《Spark与Hadoop大数据分析》一一第2章 Apache Hadoop和Apache Spark入门
第2章 Apache Hadoop和Apache Spark入门在本章，我们将学习 Hadoop 和 Spark 的基本知识，了解 Spark 与 MapReduce 有哪些不同，并开始安装集群和设置分析所需的工具。本章分为以下几个子主题：介绍 Apache Hadoop介绍 Apache Spark讨论为什么要配套使用 Hadoop 和 Spark安装 Hadoop 和 Spark 集群
日期 2023-06-12 10:48:40
《Spark与Hadoop大数据分析》一一2.3　为何把 Hadoop 和 Spark 结合使用
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章，第2.3节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 为何把 Hadoop 和 Spark 结合使用 Apache Spark 与 Hadoop 结合使用时表现更好。为了理解这一点，让我们来看看 Hadoop 和 Spark 的特性。2.3.1 H
日期 2023-06-12 10:48:40
《Spark与Hadoop大数据分析》一一第3章深入剖析Apache Spark
第3章深入剖析Apache Spark Apache Spark 的技术、社区和用户群都在快速增长。2015 年推出了两个新的API：DataFrame API 和 DataSet API。这两个 API 构建在基于 RDD 的核心 API 之上。我们有必要了解 RDD 的更深层概念，包括运行时的架构和它在 Spark 各种资源管理器上的表现。本章分为以下子主题：启动 Spark 守护进程Sp
日期 2023-06-12 10:48:40
企业拥抱大数据，Hadoop 和Spark渐受欢迎
虽然国内大数据相较国外起步较晚，但增长态势却一路上扬，完美诠释了典型的“中国速度”，不仅是企业和政府用户对于大数据的认知在提升，而且在搭建平台和提供数据服务方面，企业用户也开始了更为深入的探索。来自中国信通院的数据显示：2016年中国大数据市场规模将达到16.8亿元人民币，增速为45%，预计未来3年（2017～2020年），增速将稳步保持在30%以上。市场风生水起，离不开政府层面的扶持。国
日期 2023-06-12 10:48:40