hadoop笔记一
Hadoop代码笔记Hadoop作业提交之客户端作业提交详解大数据
一、概要描述 仅仅描述向Hadoop提交作业的第一步,即调用Jobclient的submitJob方法,向Hadoop提交作业。 二、 流程描述 Jobclient使用内置的JobSubmissionProtocol 实例jobSubmitClient 和JobTracker交互,最主要是提交作业、获取作业执行信息等。 在JobClient中作业提交的主要过程如下: 1)通过调用Jo
日期 2023-06-12 10:48:40Hadoop 2.2.0部署安装(笔记,单机安装)详解大数据
具体配置步骤: ◎ 在root根目录下创建.ssh目录 (必须root用户登录) cd /root mkdir .ssh chmod 700 .ssh cd .ssh ◎ 创建密码为空的 RSA 密钥对: ssh-keygen -t
日期 2023-06-12 10:48:40hadoop学习笔记之-hbase完全分布模式安装-5
http://blog.csdn.net/lichangzai/article/details/8441975 http://blog.csdn.net/jpiverson/article/details/9130447 http://linux.it.net.cn/m/view.php?aid=11973 ---讲解很详细
日期 2023-06-12 10:48:40hadoop笔记一
是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员 Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System[3](HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapRed
日期 2023-06-12 10:48:40《数据算法:Hadoop_Spark大数据处理技巧》艾提拉笔记.docx 第1章二次排序:简介 19 第2章二次排序:详细示例 42 第3章 Top 10 列表 54 第4章左外连接 96 第5
《数据算法:Hadoop_Spark大数据处理技巧》艾提拉笔记.docx 第1章二次排序:简介 19 第2章二次排序:详细示例 42 第3章 Top 10 列表 54 第4章左外连接 96 第5章反转排序 127 第6章移动平均 137 第7章购物篮分析 155 第8章共同好友 182 第
日期 2023-06-12 10:48:40Hadoop读书笔记(二)HDFS的shell操作
Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 1.shell操作 1.1全部的HDFS shell操作命名能够通过hadoop fs获取: [root@hadoop ~]# hadoop fs Usage: java FsShell
日期 2023-06-12 10:48:40Hadoop阅读笔记(七)——代理模式
关于Hadoop已经小记了六篇,《Hadoop实战》也已经翻完7章。仔细想想,这么好的一个框架,不能只是流于应用层面,跑跑数据排序、单表链接等,想得其精髓,还需深入内部。 按照《Hadoop阅读笔记(五)——重返Hadoop目录结构》中介绍的hadoop目录结构,前面已经介绍了MapReduce的内部运行机制,今天准备入手Hadoop RPC,它是hadoop一种通信机制。 RPC(
日期 2023-06-12 10:48:40Hadoop阅读笔记(六)——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量。今天参加了公司的年会,主题就是吃、喝、吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑海,有郁闷抓狂的,有出成果喜极而涕的,有不知前途在哪儿的迷茫与不安……总的来说,近一年来,不白活,不虚度,感触良多,不是一言两语能说得清道的明的,有时间可以做个总结,下面还是言归正传谈技术吧。
日期 2023-06-12 10:48:40Hadoop阅读笔记(五)——重返Hadoop目录结构
常言道:男人是视觉动物。我觉得不完全对,我的理解是范围再扩大点,不管男人女人都是视觉动物。某些场合(比如面试、初次见面等),别人没有那么多的闲暇时间听你诉说过往以塑立一个关于你的完整模型。所以,第一眼,先走外貌协会的路线,打量一番,再通过望闻问切等各种手段获取关于你的大量信息(如谈吐、举止等),以快速建立起对于你的认识。 待人接物如此,搞技术也不例外,起码我是这样的。把玩了一番Hadoo
日期 2023-06-12 10:48:40Hadoop阅读笔记(四)——一幅图看透MapReduce机制
时至今日,已然看到第十章,似乎越是焦躁什么时候能翻完这本圣经的时候也让自己变得更加浮躁,想想后面还有一半的行程没走,我觉得这样“有口无心”的学习方式是不奏效的,或者是收效甚微的。如果有幸能有大牛路过,请指教如何能以效率较高的方式学习Hadoop。 我已经记不清圣经《hadoop 实战2》在我手中停留了多久,但是每一页每一章的翻过去,还是在脑壳里留下了点什么。 一段时间以来,我还是通过
日期 2023-06-12 10:48:40Hadoop阅读笔记(三)——深入MapReduce排序和单表连接
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法。在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算方法,更是一种解决问题的新思维、新思路。将原先看似可以一条龙似的处理一刀切成两端,一端是Map、一端是Reduce,Map负责分,Reduce负责合。 1.MapReduce排序 问题模型
日期 2023-06-12 10:48:40Hadoop阅读笔记(二)——利用MapReduce求平均数和去重
前言:圣诞节来了,我怎么能虚度光阴呢?!依稀记得,那一年,大家互赠贺卡,短短几行字,字字融化在心里;那一年,大家在水果市场,寻找那些最能代表自己心意的苹果香蕉梨,摸着冰冷的水果外皮,内心早已滚烫。这一年……我在博客园-_-#,希望用dt的代码燃烧脑细胞,温暖小心窝。 上篇《Hadoop阅读笔记(一)——强大的MapReduce》主要介绍了MapReduce的在大数据集上处理的优势以及运行机制,通
日期 2023-06-12 10:48:40Hadoop阅读笔记(一)——强大的MapReduce
前言:来园子已经有8个月了,当初入园凭着满腔热血和一脑门子冲动,给自己起了个响亮的旗号“大数据 小世界”,顿时有了种世界都是我的,世界都在我手中的赶脚。可是......时光飞逝,岁月如梭~~~随手一翻自己的博客,可视化已经快占据了半壁江山,思来想去,还是觉得把一直挂在嘴头,放在心头的大数据拿出来说说,哦不,是拿过来学学。入园前期写了有关Nutch和Solr的自己的一些阅读体会和一些
日期 2023-06-12 10:48:40hadoop 集群常用命令(学习笔记) —— 筑梦之路
概念介绍 #HDFS 概述 Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。 (1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性&
日期 2023-06-12 10:48:40Hadoop学习笔记(一)从官网下载安装包
Hadoop是一个分布式系统基础架构,由Apache基金会所开发。用户能够在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行快速运算和存储。要学习Hadoop从下载安装包開始打开Hadoop的官方站点,点击Download Hadoop或点击“Getting Started”节中的Download Hadoop from the release page.点击D
日期 2023-06-12 10:48:40Hadoop学习笔记(1)(转)
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: 【百度百科】一个分布式系统基础架构,由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署
日期 2023-06-12 10:48:40Hadoop笔记
# Hadoop01-入门&集群环境搭建 #### 今日内容 Hadoop的介绍 集群环境搭建准备工作 Linux命令和Shell脚本增强 集群环境搭建 ### 大数据概述 大数据: 就是对海量数据进行分析处理,得到一些有价值的信息,然后帮助企业做出判断和决策. 处理流程: 1:获取数据 2:处理数据 3:展示结果 ## 1:Hadoop
日期 2023-06-12 10:48:40Hadoop自学笔记(一)常见Hadoop相关项目一览
本自学笔记来自于Yutube上的视频Hadoop系列。网址: https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个) 以后不再赘述 自学笔记,难免有各类错误纰漏。请看者谨慎。 Hadoop的使用还有大数据时代什么的就不说了。Hadoop不是一个单独的工具,而是一整个生态系统。包括一系列工具。所以首先要先介绍一下Hadoop相关的工具和各类
日期 2023-06-12 10:48:40Hadoop学习笔记(一)——编译安装和配置
近期工作调动。打算补一下大数据处理的知识。可能会陆续涉及hadoop、mongodb、ddbs等。首先Apache提供二进制的Hadoop版本号是32位的。在启动时总是有警告,所以想自己编译一遍。部分内容来源于网络。 0、环境说明: 操作系统环境: ububtu 14.04 LTS 64位操作系统 JDK环境: java version "1.7.0_55" Java(TM) SE Run
日期 2023-06-12 10:48:40Hadoop- The Definitive Guide 笔记二
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing, including:Hadoop Core , our flagship sub-project, provides a distributed filesystem (HDFS) and su
日期 2023-06-12 10:48:40Hadoop学习笔记—HDFS的API操作
1. 配置Windows下Hadoop环境 在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题: 缺少winutils.exe Could not locate execut
日期 2023-06-12 10:48:40hadoop学习笔记(四)——eclipse+maven+hadoop2.5.2源代码
Eclipse同maven进口hadoop源代码 1) 安装和配置maven环境变量 M2_HOME: D:\profession\hadoop\apache-maven-3.3.3 PATH: %M2_HOME%\bin; 2) 验证:mvn –version 3) 下载protobuf-2.5.0.tar.gz 和 protoc-2.5.0
日期 2023-06-12 10:48:40