您现在的位置是：首页 > 云平台

当前栏目

202 Spark JDBC

Spark JDBC

2023-09-11 14:15:40 时间

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。

1.从MySQL中加载数据（Spark Shell方式）

1.启动Spark Shell，必须指定mysql连接驱动jar包

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \
--master spark://node1.itcast.cn:7077 \
--jars /usr/local/spark-1.5.2-bin-hadoop2.6/mysql-connector-java-5.1.35-bin.jar \
--driver-class-path /usr/local/spark-1.5.2-bin-hadoop2.6/mysql-connector-java-5.1.35-bin.jar

2.从mysql中加载数据

val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://192.168.10.1:3306/bigdata", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "person", "user" -> "root", "password" -> "123456")).load()

3.执行查询

jdbcDF.show()

在这里插入图片描述

2.将数据写入到MySQL中（打jar包方式）

1.编写Spark SQL程序

package cn.itcast.spark.sql

import java.util.Properties
import org.apache.spark.sql.{SQLContext, Row}
import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}
import org.apache.spark.{SparkConf, SparkContext}

object JdbcRDD {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("MySQL-Demo")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    //通过并行化创建RDD
    val personRDD = sc.parallelize(Array("1 tom 5", "2 jerry 3", "3 kitty 6")).map(_.split(" "))
    //通过StructType直接指定每个字段的schema
    val schema = StructType(
      List(
        StructField("id", IntegerType, true),
        StructField("name", StringType, true),
        StructField("age", IntegerType, true)
      )
    )
    //将RDD映射到rowRDD
    val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))
    //将schema信息应用到rowRDD上
    val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)
    //创建Properties存储数据库相关属性
    val prop = new Properties()
    prop.put("user", "root")
    prop.put("password", "123456")
    //将数据追加到数据库
    personDataFrame.write.mode("append").jdbc("jdbc:mysql://192.168.10.1:3306/bigdata", "bigdata.person", prop)
    //停止SparkContext
    sc.stop()
  }
}

2.用maven将程序打包

3.将Jar包提交到spark集群

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \
--class cn.itcast.spark.sql.JdbcRDD \
--master spark://node1.itcast.cn:7077 \
--jars /usr/local/spark-1.5.2-bin-hadoop2.6/mysql-connector-java-5.1.35-bin.jar \
--driver-class-path /usr/local/spark-1.5.2-bin-hadoop2.6/mysql-connector-java-5.1.35-bin.jar \
/root/spark-mvn-1.0-SNAPSHOT.jar

猜你喜欢

FireEye发现可利用微软安全工具使其自身失效的技术
CentOS 安装 Memcache 服务器. java 做客户端.
ESP32-S2使用Arduino连接阿里云（图文教程，100%成功）
read appSettings in configuration file by XElement with xmlns
深入理解Python字符编码--转
MySQL 5.7 新特性大全和未来展望
Bash
C++第11周项目3（8）——阿姆斯特朗数
工作感悟（一）
《惢客创业日记》2019.01.02（周三）有一种修行叫还原这个世界
Servlet、JSP选择题
体验jQuery和AngularJS的不同点以及AngularJS的迷人之处
搭建LVS负载均衡测试环境

相关主题

Spark 数据倾斜
Spark基础
Spark记录
spark安装
spark RDD详解
Spark Join
【Spark】
Hadoop Spark
Spark-快速上手
Spark 之WordCount
Spark 调优
Spark编程模型
Spark 总结2
3、spark Wordcount
spark流程
Spark-RDD

zl程序教程

当前栏目

202 Spark JDBC

1.从MySQL中加载数据（Spark Shell方式）

2.将数据写入到MySQL中（打jar包方式）

相关文章