您现在的位置是：首页 > 其他

当前栏目

Sqoop笔记

笔记

2023-03-14 22:39:52 时间

Sqoop介绍

百度：

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

我认为：

Sqoop就是将Hadoop、Hive、Habse中的数据导入到关系型数据库(MySQL)中或者MySQL到Hadoop、Hive、Habse中，避免手写MapReduce

Sqoop安装

注意

1） Sqoop的包：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 支持 hadoop-2.x.x版本，不是只支持2.0.4

2）hadoop和hive安装成功

3）内容没有涉及HBase

4）RDBMS指的是关系型数据库，可以理解为MySQL

安装步骤

将安装包解压到制定目录下

进入解压目录下的conf目录下，将sqoop-env-template.sh复制一份重命名为sqoop-env.sh

修改sqoop-env.sh

#Set path to where bin/hadoop is available
#export HADOOP_COMMON_HOME=
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
#Set path to where hadoop-*-core.jar is available
#export HADOOP_MAPRED_HOME=
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
#set the path to where bin/hbase is available
#export HBASE_HOME=
 
#Set the path to where bin/hive is available
#export HIVE_HOME=
export HIVE_HOME=/opt/module/hive
#Set the path for where zookeper config dir is
#export ZOOCFGDIR=
export ZOOCFGDIR=/opt/module/zookeeper-3.4.5/conf
 
 
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.5

拷贝JDBC驱动：因为需要操作MySQL

拷贝或者上传 jdbc 驱动(mysql-connector-java-5.1.27-bin.jar)到 sqoop 的 lib 目录下

JDBC驱动寻找地址：如果你安装配置过hive,那你就应该有将 jdbc驱动拷贝到hive/lib目录下，如果没配置过，说明你hive的配置不完整

验证 Sqoop

bin/sqoop help

Sqoop使用

导入数据

在 Sqoop 中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE， HBASE）中传输数据，叫做：导入，即使用 import 关键字。

全部导入：RDBMS（MySQL）到 HDFS

1)开启MySQL服务并且能正常连接

2）Hadoop开启并且HDFS能正常访问

3）创建表并且插入数据

4）导入

其中

--connect jdbc: mysql的地址

--username mysql用户名

--password mysql密码

--table 操作的表

--target-dir 要存在HDFS中的哪个目录下

--delete-target-dir 如果 target-dir存在，就删除

--num-mappers 1 设置mapper的个数为1

--fields-terminated-by " " 导入HFDS中，字段之间用分开

 bin/sqoop import 
 --connect jdbc:mysql://127.0.0.1:3306/demo 
--username root 
--password root 
--table user 
--target-dir /demo/user 
--delete-target-dir 
--num-mappers 1 
--fields-terminated-by "	"

5）查看导入结果

查询导入：RDBMS（MySQL）到 HDFS

--quality 查询语句

注意：1） where 后面一定要加 and $CONDITIONS;

2）--quality 不能和 --table 一起使用

 bin/sqoop import 
 --connect jdbc:mysql://127.0.0.1:3306/demo 
--username root 
--password root 
--target-dir /demo/user 
--delete-target-dir 
--num-mappers 1 
--fields-terminated-by "	" 
--query 'select id,name from user where id <=1 and $CONDITIONS;'

导入指定列：RDBMS（MySQL）到 HDFS

注意：columns 中如果涉及到多列，用逗号分隔，分隔时不要添加空格

 bin/sqoop import 
 --connect jdbc:mysql://127.0.0.1:3306/demo 
--username root 
--password root 
--target-dir /demo/user 
--delete-target-dir 
--num-mappers 1 
--fields-terminated-by "	" 
--columns id,age 
--table user

RDBMS（MySQL）到 Hive

其中 --hive-table 为你要导入到Hive的哪张表中

bin/sqoop import 
--connect jdbc:mysql://127.0.0.1:3306/demo 
--username root 
--password root 
--table user 
--num-mappers 1 
--hive-import 
--fields-terminated-by "	" 
--hive-overwrite 
--hive-table user_hive

导出数据(没import用的不多)

在 Sqoop 中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用 export 关键字。

HIVE/HDFS 到 RDBMS（MySQL）

Hive的数据本身就在HDFS的某一路径下，所以将Hive中的数据迁移到MySQL本质上也是HDFS中的某文件迁移到MySQL

--table 指的是数据库中的表名称

--export -dir 指的是hive中的数据表在HDFS上的路径

注意：如果将Hive中数据导出到MySQL上，注意主键冲突的问题，否则会卡住

bin/sqoop export 
--connect jdbc:mysql://127.0.0.1:3306/demo 
--username root 
--password root 
--table user 
--num-mappers 1 
--export-dir /user/hive/warehouse/user_hive 
--input-fields-terminated-by "	"

脚本打包

使用 opt 格式的文件打包 sqoop 命令，然后执行

我认为：Sqoop脚本打包就是将上面学的命令放在xxx.opt文件里，然后执行文件

创建SQoop的opt脚本

注意：

1）一行一个命令或者是参数

2）不能加反斜杠

export
--connect 
jdbc:mysql://127.0.0.1:3306/demo
--username 
root 
--password 
root 
--table 
user 
--num-mappers 
1 
--export-dir 
/user/hive/warehouse/user_hive 
--input-fields-terminated-by 
"	"

运行opt文件

其实 myopt/hive2mysql.opt为自己编写的opt的路径

bin/sqoop  --options-file myopt/hive2mysql.opt

利用Sqoop实现Hbase的数据与MySQL数据的互导

参考

利用Sqoop实现Hbase的数据与MySQL数据的互导 - 简书

mysql to hbase

./bin/sqoop import 
--connect jdbc:mysql://127.0.0.1:3306/fdcp-dev 
--username root 
--password 123456 
--table adviceMessage 
--hbase-table pzz_adviceMessage  
--column-family cf 
--hbase-row-key id 
--hbase-create-table

hbase to mysql

无

资料下载

参考资料：实力圈粉,人手一套尚硅谷教程

参考资料下载：

链接：https://pan.baidu.com/s/1ddD7FS7gCobPX6nZgHu1mw

提取码：5xka

复制这段内容后打开百度网盘手机App，操作更方便哦

猜你喜欢

AIR32F103(四) 27倍频216MHz,CoreMark跑分测试
AIR32F103(三) Linux环境基于标准外设库的项目模板
AIR32F103(二) Linux环境和LibOpenCM3项目模板
GitHub Pages 和 Jekyll 笔记
KVM导入Ubuntu/Centos Cloud Image创建虚机及调整磁盘大小
Nebula Graph介绍和SpringBoot环境连接和查询
SpringBoot+MyBatis Plus对Map中Date格式转换的处理
Ubuntu20.04和22.04离线安装PostgreSQL14
GCC Arm 12.2编译提示 LOAD segment with RWX permissions 警告
GCC Arm 11.3rel1, 12.2编译提示 _close is not implemented and will always fail
STM32F10x SPL V3.6.2 集成 FreeRTOS v202112
Ubuntu22.04 安装配置VNC Server
HK32F030MF4P6的Linux GCC工具链开发环境
Ubuntu22.04 安装配置流水账
HC32L110(五) Ubuntu20.04 VSCode的Debug环境配置
HC32L110(四) HC32L110的startup启动文件和ld连接脚本
HC32L110(三) HC32L110的GCC工具链和VSCode开发环境
Java 根据Map的值对 List<Map<String, Object>> 进行排序
Git Conventional Commits (Git代码提交说明规范)
STC8H开发(十六): GPIO驱动XL2400无线模块

zl程序教程

当前栏目

Sqoop笔记

Sqoop介绍

百度：

我认为：

Sqoop安装

注意

安装步骤

将安装包解压到制定目录下

进入解压目录下的conf目录下，将sqoop-env-template.sh复制一份重命名为sqoop-env.sh

修改sqoop-env.sh

拷贝JDBC驱动：因为需要操作MySQL

验证 Sqoop

Sqoop使用

导入数据

全部导入：RDBMS（MySQL）到 HDFS

查询导入：RDBMS（MySQL）到 HDFS

导入指定列：RDBMS（MySQL）到 HDFS

RDBMS（MySQL）到 Hive

导出数据(没import用的不多)

HIVE/HDFS 到 RDBMS（MySQL）

脚本打包

创建SQoop的opt脚本

运行opt文件

利用Sqoop实现Hbase的数据与MySQL数据的互导

参考

mysql to hbase

hbase to mysql

资料下载

相关文章

当前栏目

Sqoop笔记

Sqoop介绍

百度：

我认为：

Sqoop安装

注意

安装步骤

将安装包解压到制定目录下

进入解压目录下的conf目录下，将sqoop-env-template.sh复制一份重命名为sqoop-env.sh

修改sqoop-env.sh

拷贝JDBC驱动：因为需要操作MySQL

验证 Sqoop

Sqoop使用

导入数据

全部导入：RDBMS（MySQL） 到 HDFS

查询导入：RDBMS（MySQL） 到 HDFS

导入指定列：RDBMS（MySQL） 到 HDFS

RDBMS（MySQL） 到 Hive

导出数据(没import用的不多)

HIVE/HDFS 到 RDBMS（MySQL）

脚本打包

创建SQoop的opt脚本

运行opt文件

利用Sqoop实现Hbase的数据与MySQL数据的互导

参考

mysql to hbase

hbase to mysql

资料下载

相关文章

全部导入：RDBMS（MySQL）到 HDFS

查询导入：RDBMS（MySQL）到 HDFS

导入指定列：RDBMS（MySQL）到 HDFS

RDBMS（MySQL）到 Hive