Hadoop详解
Hadoop学习:Map/Reduce初探与小Demo实现详解大数据
一、 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行 处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。 Hadoop MapReduce基于“分而治之”的思想,将计算任务
日期 2023-06-12 10:48:40hadoop处理Excel通话记录详解大数据
前面我们所写mr程序的输入都是文本文件,但真正工作中我们难免会碰到需要处理其它格式的情况,下面以处理excel数据为例 1、项目需求 有刘超与家庭成员之间的通话记录一份,存储在Excel文件中,如下面的数据集所示。我们需要基于这份数据,统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件 下面是部分数据,数据格式:编号 联系人
日期 2023-06-12 10:48:40Hadoop(一)之初识大数据与Hadoop详解大数据
前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一、引言(大数据时代) 1.1、从数据中得到信息 我们看一张图片: 我们知道这个图片上的人叫张小妹,年龄20岁,职业模特。但是如果只有数据没有
日期 2023-06-12 10:48:40Hadoop(二)搭建伪分布式集群详解大数据
前言 前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode) -默认情况下,Hadoop即处于该模式,用于开发和调式。 -不对配置文件进行修改。 -使用本地文件
日期 2023-06-12 10:48:40Hadoop(九)Hadoop IO之Compression和Codecs详解大数据
前言 前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了!接下来我分享的是Hadoop的I/O操作。 在Hadoop中为什么要去使用压缩(Compression)呢?接下来我们就知道了。 一、压缩(Compression)概述 1.1、压缩的好处 减少储存文件所需要的磁盘空间,并加速数据在网络和磁盘上的传输。这两个在大数据处理大龄数据
日期 2023-06-12 10:48:40Hadoop(十)Hadoop IO之数据完整性详解大数据
前言 上一篇我分享了Hadoop的压缩和编解码器,在我们开发的过程中其实是经常会用到的,所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性! Hadoop用户在使用HDFS储存和处理数据不会丢失或者损坏,在磁盘或者网络上的每一个I/O操作不太可能将错误引入自己正在读/写的数据中,但是如果 在处理的数据量非常大到Hadoop的处理极限时,数据被损坏的概率还是挺大的。 一、数
日期 2023-06-12 10:48:40Hadoop(十三)分析MapReduce程序详解大数据
前言 刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受!想哭,但是没有办法继续站起来。 前面的一篇博文中介绍了什么是MapReduce,这一篇给大家详细的分享一下MapReduce的运行原理。 一、写一个MapReduce程序例子 1.1、数据准备 准备要处理的数据(假定数据已经存放在hdfs的/data目录下) $ hd
日期 2023-06-12 10:48:40Hadoop(十六)之使用Combiner优化MapReduce详解大数据
前言 前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述 1.1、为什么需要Combiner 我们map任务处理的结果是存放在运行map任务的节点上。 map处理的数据的结果在进入reduce的时候,reduce会通过远程的方式去获取数据。 在map处理完数据之后,数
日期 2023-06-12 10:48:40Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类详解大数据
前言 前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置 MapReduce程序的默认配置 1)概述 在我们的MapReduce程序中有一些默认的配置。所以说当我们程序如果要使用这些默认配置时,可以不用写。 我们的一个MapReduce程序一定会有Mapper和Reduc
日期 2023-06-12 10:48:40Hadoop 2.8集群安装及配置记录详解大数据
第一部分:环境配置(含操作系统、防火墙、SSH、JAVA安装等) Hadoop 2.8集群安装模拟环境为: 主机:Hostname:Hadoop-host,IP:10.10.11.225 节点1:Hostname:Hadoopnode1,IP:10.10.11.254 两台机器均为Centos 7.*,64位版本。 主机操作系统安装时采用界面化形式,节点1采用最小化安装。安装完成后,首先
日期 2023-06-12 10:48:40hadoop安装教程详解大数据
hadoop的核心 Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。 HDFS HDFS(Hadoop Distributed File Syste
日期 2023-06-12 10:48:40hadoop之wordCount详解大数据
图解MapReduce
日期 2023-06-12 10:48:40Hadoop综合练习第四节–MapReduce计算气象温度等例子详解大数据
2.1 书面作业1内容 4 2.2 回答 5 3 书面作业2:使用MapReduce求每年最低温度 6 3.1 书面作业2内容 6 3.2 运行代码 6 3.2.1 MinTemperature. 6 3.2.2 MinTemperatureMapper6 3.2.3 MinTempera
日期 2023-06-12 10:48:40Hadoop综合练习第五节–在Eclipse中安装Hadoop插件及测试(Linux操作系统)详解大数据
1运行环境说明 1.1 硬软件环境 l 主机操作系统:Windows 64 bit,双核4线程,主频2.2G,6G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统:CentOS 64位,单核,1G内存 l JDK:1.7.0_55 64 bit l
日期 2023-06-12 10:48:40Hadoop综合练习第十一节–HBase作业详解大数据
1书面作业1:举例子说明HBase相对简单 1.1 书面作业题目1 请举出一例子,使用关系型数据库较难进行数据建模,而采用HBase则相对简单 1.2 回答 HBase的应用场景 l 存储大量的数据(100s TB级数据) l 需要很高的写吞吐量 l 在大规模数据集中进行很好性能的随机访问(按列) l 需要进行
日期 2023-06-12 10:48:40Hadoop入门进阶课程1–Hadoop1.X伪分布式安装详解大数据
【注】该系列所使用到安装包、测试文件和代码可以在百度网盘下载,具体地址为 http://pan.baidu.com/s/10PnDs ,下载该PDF文件 1、Hadoop介绍 1.1Hadoop简介 Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存
日期 2023-06-12 10:48:40Hadoop入门进阶课程7–Pig介绍、安装与应用案例详解大数据
【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载,具体地址为 http://pan.baidu.com/s/10PnDs,下载该PDF文件 1、搭建环境 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须
日期 2023-06-12 10:48:40Hadoop入门进阶课程9–Mahout介绍、安装与应用案例详解大数据
【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载,具体地址为 http://pan.baidu.com/s/10PnDs,下载该PDF文件 1、搭建环境 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须
日期 2023-06-12 10:48:40Hadoop文件存储系统-HDFS详解以及java编程实现大数据
Hadoop基本概念指南 Eclipse搭建Hadoop开发环境二三事 IntelliJ IDEA搭建Hadoop开发环境 Hadoop文件存储系统-HDFS详解以及java编程实现 我们在本系列的第一篇文章的时候就谈到过,面对海量数据,我们最为缺乏的就是对大数据量的存储能力以及处理能力。而这两种能力在Hadoop的体现分别就是HDFS以及map-reduce。今天,我们就来看
日期 2023-06-12 10:48:40搭建maven开发环境测试Hadoop组件HDFS文件系统的一些命令详解大数据
1.PC已经安装Eclipse Software,测试平台windows10及Centos6.8虚拟机 2.新建maven project 3.打开pom.xml,maven工程项目的pom文件加载以下内容 1 project xmlns="http://maven.apache.org/POM/4.0.0" xmln
日期 2023-06-12 10:48:40Hadoop之MapReduce详解大数据
摘要:MapReduce是Hadoop的又一核心模块,从MapReduce是什么,MapReduce能做什么以及MapReduce的工作机制三方面认识MapReduce。 关键词:Hadoop MapReduce 分布式处理 面对大数据,大数据的存储和处理,就好比一个人的左右手,显得尤为重要。Hadoop比较适合解决大数据问题,很大程度上依赖其
日期 2023-06-12 10:48:40Linux 下 Hadoop 2.6.0 集群环境的搭建详解大数据
本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用。 JDK的安装与配置 现在直接到Oracle官网(http://www.oracle.com/)寻找JDK7的安装包不太容易,因为现在官方推荐JDK8。找了半天才找到JDK下载列表页的地址(http://www.oracle.com/technetwork/java/
日期 2023-06-12 10:48:40Hadoop学习总结之四:Map-Reduce的过程解析详解大数据
Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClient jc = new Job
日期 2023-06-12 10:48:40Notes for Hadoop the definitive guide详解大数据
1. Introduction to HDFS 1.1. HDFS Concepts 1.1.1. Blocks l HDFS too has the concept of a block, but it is a much larger unit 64 MB by default. l Like in a filesystem
日期 2023-06-12 10:48:40Maven引入Hadoop依赖报错:Missing artifact jdk.tools:jdk.tools:jar:1.6详解大数据
Maven引入Hadoop依赖报错:Missing artifact jdk.tools:jdk.tools:jar:1.6 原因是缺少tools.jar的依赖,tools.jar在jdk的安装目录中提供了,所以改成如下形式解决此问题:添加依赖 dependency groupId org.apache.hadoop /groupId artifactId hadoop-mapr
日期 2023-06-12 10:48:40Hadoop2.7.6_04_HDFS的Shell操作与常见问题详解大数据
1 [[email protected] zhangliang]$ hadoop fs 2 Usage: hadoop fs [generic options] 3 [-appendToFile localsrc ... dst ] 4 [-cat [-ignoreCrc] src ...] 5 [-checksum src ...] 6 [-chgrp [-R]
日期 2023-06-12 10:48:40Hadoop2.7.6_01_部署详解大数据
添加hosts信息,保证每台都可以相互ping通 [[email protected] ~]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain l
日期 2023-06-12 10:48:40大数据Hadoop的HA高可用架构集群部署详解大数据
1 概述 在Hadoop 2.0.0之前,一个Hadoop集群只有一个NameNode,那么NameNode就会存在单点故障的问题,幸运的是Hadoop 2.0.0之后解决了这个问题,即支持NameNode的HA高可用,NameNode的高可用是通过集群中冗余两个NameNode,并且这两个NameNode分别部署到不同的服务器中,其中一个NameNode处于Active状态,另外一个
日期 2023-06-12 10:48:40Hadoop故障处理全分布下,DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空详解大数据
DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空。 /etc/hosts 的ip和hostname配置正常,各个机器之间能够ping通。 【日志错误信息】 2018-06-11 17:29:08,165 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool BP-5
日期 2023-06-12 10:48:40Hadoop体系结构详解大数据
HDFS和Mapreduce是Hadoop的两大核心。整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持,MapReduce来实现分布式并行任务处理的程序支持。 HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中 NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群
日期 2023-06-12 10:48:40dinfo-oec hadoop部署方案详解大数据
三台机器Linux机器,这里使用CentOS-6.5-x86_64: 192.168.1.120 master 192.168.1.121 slave1 192.168.1.122 slave2 安装包准备 jdk-7u79-linux-x64.tar.gz hado
日期 2023-06-12 10:48:40