大叔经验分享(134)hive读取gzip文件乱码
文件 分享 读取 乱码 经验 hive gzip 大叔
2023-09-14 09:00:07 时间
背景
hive读取纯文本数据,无论是:原始格式、gzip、bzip,都可以自动识别,不需要修改建表语句或修改setting。
但是使用gobblin开启gzip压缩之后保存文件使用hive读取发生乱码。
定位
首先怀疑是文件损坏
gobblin开启压缩之后写的文件为:*.txt.gzip,将该文件下载到本地,使用gzip命令可以正常解压,排除。
其次怀疑是gzip版本之间不兼容
即gobblin写gzip和hive读gzip版本不兼容,查看gobblin写文件的代码,发现使用的是
java.util.zip.GZIPOutputStream
和hive读取使用都是jdk的jar包,排除。
最后怀疑是hive对gzip格式识别有问题
查看hive读取文件的代码发现是根据硬编码的 gz 后缀来识别gzip格式,将gzip后缀改为gz后缀后,hive读取正常,找到原因。
相关文章
- pycharm没有卸载干净怎么办_pycharm怎么保存为py文件
- C#目录和文件管理操作方法分享
- 分享一个快的飞起的maven的settings.xml文件详解程序员
- android apk 一键生成混淆文件python脚本分享详解编程语言
- Linux 文件权限:读取、写入、分享(linux的读写权限)
- 文件如何运行Linux下的.sh文件(linux如何运行.sh)
- 快速打包Linux文件:无需再烦恼(linux打包多个文件)
- Linux下复制文件的CP命令简介(linuxcp复制文件)
- Linux下文件分割:从零开始(linuxsplit)
- 共享Linux文件共享协议:智能軉服务(linux协议文件)
- Linux文件系统日志分析(linux文件日志)
- 和权限深入解析Linux文件权限与类型(linux文件的类型)
- 用 Git 来共享文件
- MySQL文件处理技巧分享(mysql文件操作)
- 分享:从Windows到Linux的文件传输(win文件到linux)
- 掌握技巧:linux中如何查看隐藏的文件(linux查看隐藏的文件)
- MSSQL移动文件:轻松实现数据迁移(mssql移动文件)
- 快速高效导出MySQL数据库到SQL文件(mysql导出sql文件)
- Oracle中XML文件解析技术探究(oracle中xml解析)
- JSP读取文件实例
- php生成静态文件的多种方法分享
- Centosrsync文件同步配置步骤分享
- perl文件操作的一些例子分享
- Perl文件读取的经典用法分享
- asp.nethtml控件的File控件实现多文件上传实例分享
- C#调用动态unlha32.dll解压Lha后缀的打包文件分享
- common-upload上传文件功能封装类分享
- php读取excel文件示例分享(更新修改excel)
- java读取csv文件示例分享(java解析csv文件)
- java读取csv文件和写csv示例分享
- JSP加载JS文件不起作用的有效解决方法
- Python使用百度API上传文件到百度网盘代码分享
- 自动恢复MySQL数据库的日志文件思路分享及解决方案