Hadoop中Hive原理及安装
Hive是什么(官网概念)
Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。
- Hive是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;
- 一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;
- Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;
- 允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;
- Hive没有专门的数据格式(分隔符等可以自己灵活的设定);
适用场景
- Hive不适用于在线事务处理。 它最适用于传统的数据仓库任务
- Hive的执行延迟比较高,因为hive常用于数据分析的,对实时性要求不高;
- Hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高。
![](https://s2.51cto.com/oss/201809/18/28557f30566d96fcf48b853847c07663.png)
1 Execute Query
Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。
2 Get Plan
在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。
3 Get Metadata
编译器发送元数据请求到Metastore(任何数据库)。
4 Send Metadata
Metastore发送元数据,以编译器的响应。
5 Send Plan
编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。
6 Execute Plan
驱动程序发送的执行计划到执行引擎。
7 Execute Job
在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。
7.1 Metadata Ops
与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。
8 Fetch Result
执行引擎接收来自数据节点的结果。
9 Send Results
执行引擎发送这些结果值给驱动程序。
10 Send Results
驱动程序将结果发送给Hive接口。
Hadoop中实际应用
通过上面流程解释,要想在hadoop中使用hive,至少需要安装hive和Metastore(任何数据库)本文安装mysql 。
1 , 安装mysql
下载linux环境下的mysql安装包,需要两个,一个是server端的,一个是client端的。
查询linux机器上默认安装的mysql或者你以前安装的mysql, 暴力卸载之 。
- rpm -e mysql-libs-5.xxxxxx_i686 --nodeps
执行安装命令
- rpm -ivh Mysql-server-xxx.i386.rpm
- rpm -ivh Mysql-client-xxx.i386.rpm
执行命令初始化设置mysql
- /usr/bin/mysql_secure_installation
![](https://s2.51cto.com/oss/201809/18/b2e7970d12e6dc25c52e19808fe851b4.png)
使用客户端登陆
- mysql -uroot -proot
登陆成功后输入命令:(授予mysql远程用户连接的权限)
- GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
使用远程客户端连接(navicat 或Advanced Query Tools等等工具 )我用的navicat, 如图自行领悟。
![](https://s3.51cto.com/oss/201809/18/e0e2635a9f29a4c5c21b715ca38cd368.png)
到这里hive就安装搭建完成了!
相关文章
- 用Python做疫情数据分析,多维度解析传播率和趋势,未来是乐观的
- Python的import语句笔记
- 这4种统计代码执行耗时,才足够优雅!
- GreenPlum的那些事《五》——浅谈GPDB中的资源队列
- 前后端分离 Vue + Egg.js + Mysql 的 JS全栈实践。动态菜单,RBAC权限模型,WebSocket实现站内信。已部署到线上!!!
- Pychram
- Spring中的定时器都会了?
- Python自学之路—位运算
- Python自学之路—条件、循环语句
- Python自学之路—变量与运算
- 开始着手用Python写一个游戏脚本
- python爬虫爬取QQ号
- HaaS轻应用之Python篇|阿里云产品内容精选(三十七)
- 作为2021年计算机初学者你必须要知道的上云那些事
- 一张图带你搞懂Node事件循环
- 全国41611个景点,用Python告诉你哪些地方更值得一游!
- python 来查 肯德基 address
- python 批量修改文件名
- 炸裂!上手三天,就在开发板上播放BadApple, 还是Python香
- [Python从零到壹] 一.为什么我们要学Python及基础语法详解