您现在的位置是：首页 > 其它

当前栏目

hive是一个数据仓库基础架构_数据仓库ods层和dw层的区别

一个区别 hive 数据仓库 DW 基础架构 ods

2023-06-13 09:14:58 时间

大家好，又见面了，我是你们的朋友全栈君。

软件环境

Hadoop 2.6.0-cdh5.9.0 Hive 1.1.0-cdh5.9.0 Zookeeper 3.4.5-cdh5.9.0

需求背景

数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后，按天和小时分区传入到HDFS上，然后通过创建Hive ODS外部表加载到表对应分区，这样一天下来会生产192个gz文件，gz文件是不能进行切分所以查询一天则会产生192个Map数，导致后结数据处理性能与资源占用都比较大。需要进行优化>如下几点：

存储后数据可切分
数据存储压缩率高
数据加载速度要快

技术方案

通过创建TTexfFile存储格式ODS临时表外部表，将HDFS上的文件目录映射到外部表

create table temp.TempTableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
with serdeproperties ("ignore.malformed.json"="true")
stored as textfile
;

Alter table temp.TempTableName add partition (p_dt='20141101',p_hours='00') location '/ods/TempTableName/20141101/00';

在ODS层创建ORC存储格式相应的表，将临时外部表数据插入到ODS表

create table ods.TableName(
 col1 string comment 'col1'
,col2 string comment 'col2' 
) partitioned by (p_dt string, p_hours string)
stored as orc
;
insert overwrite table TableName partition(p_dt='20141101',p_hours='00')
select * from TempTableName where p_dt='20141101' and p_hours='00'

数据导入完闭，后续基本ODS进行操作即可

方案优点

数据可分割
数据压缩率90%左右

方案缺点

性能比以前慢(如是ODS只操作一次建议不采用此方案)
维护成本提高

文章参考 https://cwiki.apache.org/confluence/display/Hive/CompressedStorage

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/188948.html原文链接：https://javaforall.cn

猜你喜欢

让Idea支持MySQL：安装驱动的简单指南（ideamysql驱动）
Servlet之HttpServletRequest「建议收藏」
MySQL默认日志名称是什么（mysql下默认日志名称）
【过程记录】ArcGIS Pro打开.osgb文件
Oracle for倒序操作让查询结果倒着看（oracle for倒序）
爬虫工具-Playwright
为什么Adam 不是默认的优化算法?
探索Linux的程序世界之旅（查看linux的程序）
深度相机(TOF)的工作原理
在线升级你的MSSQL，获得精彩更新！（在线mssql）
Python关于全局解释器锁的提议
快速设置Redis 不备份的对待（Redis设置不备份）
Linux指令完全手册：快速体验无限技巧（linux指令大全下载）
探索Oracle原厂服务的精彩大世界（oracle原厂服务）
探索Linux和Unix的神奇世界（linuxunix）
MySQL中判断NULL值的操作（mysql判断为null）
了解Oracle报错代码01219如何解决常见数据库问题（oracle 01219）
使用一条 CI/CD 流水线管理所有的产品
W3C 简介

zl程序教程

当前栏目

hive是一个数据仓库基础架构_数据仓库ods层和dw层的区别

相关文章