sqoop读取postgresql数据库表格导入到hdfs中的实现
最近再学习spark streaming做实时计算这方面内容,过程中需要从后台数据库导出数据到hdfs中,经过调研发现需要使用sqoop进行操作,本次操作环境是Linux下。
首先确保环境安装了Hadoop和sqoop,安装只需要下载 ,解压 以及配置环境变量,这里不多说了,网上教程很多。
一、配置sqoop以及验证是否成功切换到配置文件下:cd $SQOOP_HOME/conf
创建配置环境文件: cp sqoop-env-template.sh sqoop-env.sh
修改配置文件:conf/vi sqoop-env.sh:修改内容如下
配置完成后,执行命令sqoop-version ,检查是否成功,如图显示sqoop 1.4.7即成功。
因为这里使用sqoop读取postgresql的数据,所以需要将数据库驱动包放到$SQOOP_HOME/lib 下即可 。
三、导入pg数据库中表到hdfs中1、首先要启动Hadoop集群,不然会报错
执行语句 $HADOOP_HOME/sbin/./start-all.sh
2、执行sqoop语句进行数据导入到hdfs
sqoop import \
connect jdbc:postgresql:localhost:5432/test(数据库的名称)
username postgres (填自己的数据库用户名)
password 888888 (填自己数据库的密码)
table company (自己创建表的名称)
m 1 (mapreduce的个数)
执行结果如图:
3、检查hdfs上是否成功存储到表数据
$HADOOP_HOME/bin hdfs dfs -cat /sqoop/part-m-00000(数据目录改成自己的)
结果如图所示:
显示使用sqoop 将 postgreql上的表格数据成功导入到hdfs中,这算今天也有点收获了!
补充:利用Sqoop从PostgreSQL导入数据时遇到的坑
sqoop import \
connect jdbc:postgresql://10.101.70.169:5432/db_name \
username postgres \
password 123456 \
table test_user \
target-dir /user/hive/warehouse/test.db/test_user \
fields-terminated-by \t \
lines-terminated-by \n \
hive-drop-import-delims \
incremental lastmodified \
merge-key id \
check-column update_time \
last-value 2019-03-25 \
m 1 \
schema schema_name \
null-string \\N \
null-non-string \\N
1、-- --schema 一定要放在后面,否则可能导致无运行日志或无法导入数据到指定目录且无法重新执行(报目录已存在)
2、PostgreSQL 须设置SET standard_conforming_strings = on;,否则--null-string和--null-non-string不起作用;
3、--null-string和--null-non-string放在-- --schema后面,否则执行时报Can"t parse input data: "\N"
以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。
我想要获取技术服务或软件
服务范围:MySQL、ORACLE、SQLSERVER、MongoDB、PostgreSQL 、程序问题
服务方式:远程服务、电话支持、现场服务,沟通指定方式服务
技术标签:数据恢复、安装配置、数据迁移、集群容灾、异常处理、其它问题
本站部分文章参考或来源于网络,如有侵权请联系站长。
数据库远程运维 sqoop读取postgresql数据库表格导入到hdfs中的实现
相关文章
- Windows 环境搭建 PostgreSQL 物理复制高可用架构数据库服务
- POSTGRESQL postgresql 升级的需求来自哪里
- postgresql 数据库基础 之 替换空格 换行和回车的操作
- postgresql 数据库中replace和translate的用法说明
- 使用PostgreSQL数据库建立用户画像系统的方法
- postgresql 创建用户和授权详解数据库
- PostgreSQL聚集函数详解数据库
- postgresql—-网络地址类型和函数详解数据库
- postgresql—-数据库表约束—-UNIQUE详解数据库
- postgresql – 事务详解数据库
- postgresql – 服务配置详解数据库
- 历程PostgreSQL: 从历史足迹到发展潮流(postgresql发展)
- 安装及使用PostgreSQL数据库安装与应用指南(postgresql数据库)
- 使用Postgresql可视化工具轻松访问数据库(postgresql可视化工具)
- Postgresql数据库备份实践:简单而又必要(postgresql数据库备份)
- PostgreSQL中文手册详解数据库操作技巧(postgresql中文手册)
- 深入了解PostgreSQL数据类型:解决您的数据库存储难题(postgresql数据类型)
- PostgreSQL:轻松入门的开源数据库(postgresql介绍)
- PostgreSQL注入攻击:防范你的数据库(postgresql注入)
- 数据库PostgreSQL:开放源码的分布式数据库管理系统(postgresql开源)
- 如何顺利升级PostgreSQL数据库?(升级postgresql)
- 深入剖析:PostgreSQL vs. Microsoft SQL Server(pg数据库对比mssql)
- 新手快速登录Postgresql数据库(登录postgresql)
- PostgreSQL实例实战:了解数据库管理系统(postgresql实例)
- 优化提升数据库性能:PostgreSQL优化指南(postgresql性能)
- PostgreSQL数据库性能提升的几个方面
- C#访问PostGreSQL数据库的方法
- php连接与操作PostgreSQL数据库的方法
- 在windows下手动初始化PostgreSQL数据库教程