zl程序教程

Hadoop学习:

  • Hadoop 学习总结之一:HDFS简介详解大数据

    Hadoop 学习总结之一:HDFS简介详解大数据

    HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 1.2、元数据节点(Namenode)和数据节点(datanode) 元数据节点用来管理文件系统的

    日期 2023-06-12 10:48:40     
  • Hadoop学习总结之四:Map-Reduce的过程解析详解大数据

    Hadoop学习总结之四:Map-Reduce的过程解析详解大数据

    Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static RunningJob runJob(JobConf job) throws IOException {   //首先生成一个JobClient对象   JobClient jc = new Job

    日期 2023-06-12 10:48:40     
  • Hadoop学习总结之二:HDFS读写过程解析详解大数据

    Hadoop学习总结之二:HDFS读写过程解析详解大数据

    1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSize) throws IOException {   return new DFSClient.DFSDataInp

    日期 2023-06-12 10:48:40     
  • Hadoop学习路线图

    Hadoop学习路线图

    Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起

    日期 2023-06-12 10:48:40     
  • 阿里封神谈hadoop生态学习之路

    阿里封神谈hadoop生态学习之路

    在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。 当前,越来越多的同学进入大数据行业,有的是底层的技术,有的是工程,有的是算法,有的是业务。每个产品、都需要工程化的实现,以前,工

    日期 2023-06-12 10:48:40     
  • Linux学习笔记(Ubuntu操作系统)之hadoop学习之路

    Linux学习笔记(Ubuntu操作系统)之hadoop学习之路

    1:检查虚拟机的ip命令:ifconfig 2:普通用户切换root用户命令:su 3:root用户切换普通用户命令:su 用户名 4:普通用户执行系统执行前面加命令:sudo 5:查询主机名命令:hostname或uname –n 6:修改主机名命令:vi /etc/hostname(hostname master立即生效,不用重启,---》exit,---》su即可) centos操作系统

    日期 2023-06-12 10:48:40     
  • Hadoop 学习总结之一:HDFS简介

    Hadoop 学习总结之一:HDFS简介

    转自:http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html   一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储

    日期 2023-06-12 10:48:40     
  • Hadoop学习-生态体系(ecosystem)概览

    Hadoop学习-生态体系(ecosystem)概览

    0. 大背景 全球No.1搜索引擎公司谷歌(Google)面临每天海量搜索引擎数据的问题,经过长时间的实践积累, 谷歌形成了自己的大数据框架,但是并没有开源,而是发表了一篇论文,阐述了自己的思想,在论文中 提到了MapReduce的方法。这篇论文,被Doug Cutting也就是后来的Hadoop之父所关注,引起了他极大的兴趣。 因为,这个时候,他正在致力于一个项目,该项目需要多任务并行处理大量

    日期 2023-06-12 10:48:40     
  • 【hadoop学习项目】7. 实现自定义局部排序和全局排序

    【hadoop学习项目】7. 实现自定义局部排序和全局排序

    0. 项目结构 domain中存储的是继承WritableComparable的数据对象; sort中实现的是局部排序; totalsort中实现的是全局排序。 数据内容 sort1.txt

    日期 2023-06-12 10:48:40     
  • 【hadoop学习项目】5. 自定义序列化数据对象Bean进行处理

    【hadoop学习项目】5. 自定义序列化数据对象Bean进行处理

    0. 项目结构 训练数据 phone address name consum 13877779999 bj zs 2145 13766668888 sh ls 1028 13766668888 sh ls 9987

    日期 2023-06-12 10:48:40     
  • 【Hadoop学习项目】4. 求最大最小值

    【Hadoop学习项目】4. 求最大最小值

    0. 项目结构 1. MaxDriver package hadoop_test.min_max_demo_04; import org.apache.hadoop.conf.Configuration; impo

    日期 2023-06-12 10:48:40     
  • Hadoop学习---CentOS中hadoop伪分布式集群安装

    Hadoop学习---CentOS中hadoop伪分布式集群安装

    注意:此次搭建是在ssh无密码配置、jdk环境已经配置好的情况下进行的 可以参考: Hadoop完全分布式安装教程 CentOS环境下搭建hadoop伪分布式集群 1.更改主机名 执行命令:vi  /etc/sysconfig/network 2.设置hosts中ip与主机名的绑定 执行命令 vi  /etc/hosts 在里面添加选项设置你的主机名与ip的对应关系 3.

    日期 2023-06-12 10:48:40