zl程序教程

您现在的位置是:首页 >  工具

当前栏目

《MapReduce 2.0源码分析与编程实战》一第2章 入门

源码编程入门 分析 实战 2.0 MapReduce 一第
2023-09-11 14:17:45 时间

本节书摘来异步社区c书中的第2章,第2.1节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

第2章 入门

HBase实战
本章涵盖的内容

连接到HBase和定义表 与HBase交互的基本命令 HBase的物理数据模型和逻辑数据模型 基于复合行键的查询

下面几章的一个目标是教你如何使用HBase。作为一名应用开发人员,首先你要适应HBase的特性。你将学习HBase的逻辑数据模型(logical data model),访问HBase的各种方式,以及如何使用这些API的细节。另外一个目标是教你进行HBase模式(schema)设计。HBase有着和以往关系型数据库不同的物理数据模型(physical data model)。我们将介绍一些HBase物理模型的基本原理,以便设计数据模型时你能够利用它对自已的应用系统进行优化。

为了完成这些目标,你将从头开始搭建一个应用系统。请允许我们给你介绍一下完全建立在HBase上的TwitBase,它是社交网络Twitter的简化克隆版。我们不会实现Twitter的所有功能,而且这也不是一个准备投入使用的系统。我们只是把TwitBase看做Twitter的初级原型产品。TwitBase和Twitter早期版本的主要区别是,TwitBase设计中考虑了可扩展性,因此需要依赖数据存储来实现这一点。

本章从基本原理开始讲起。你会看到如何创建HBase表,如何导入数据和读取数据。我们将介绍HBase处理数据的基本操作,以及数据模型的基本组件。同时,你会学到一些HBase的内部工作机制。这些知识可以帮助你在模式设计时作出正确决定。本章是学习HBase和其余章节的起点。

要获取本章及全书的代码,请访问 https://github.com/hbaseinaction/twitbase


hive在E-MapReduce集群的实践(一)hive异常排查入门 hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。