您现在的位置是：首页 > 大数据

当前栏目

sparkStreaming读取kafka写入hive表

Kafka 读取 hive 写入 sparkstreaming

2023-09-14 08:57:20 时间

sparkStreaming：

package hive
 
import java.io.File
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
 
/**
  * spark消费多个topic的数据写入不同的hive表
  */
object SparkToHive {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.WARN)
    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.WARN)
    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath
    @transient
    val spark = SparkSession
      .builder()
      .appName("Spark SQL To Hive")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .getOrCreate()
    spark.conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
 
    @transient
    val sc = spark.sparkContext
    val scc = new StreamingContext(sc, Seconds(1))
    val kafkaParams = Map[String, Object](
      "auto.offset.reset" -> "latest", //latest,earliest
      "value.deserializer" -> classOf[StringDeserializer]
      , "key.deserializer" -> classOf[StringDeserializer]
      , "bootstrap.servers" -> "10.200.10.24:6667,10.200.10.26:6667,10.200.10.29:6667"
      , "group.id" -> "test_jason"
      , "enable.auto.commit" -> (true: java.lang.Boolean)
    )
 
    var stream: InputDStream[ConsumerRecord[String, String]] = null
    val topics = Array("test", "test1","test2")
 
    stream = KafkaUtils.createDirectStream[String, String](
      scc,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
    )
 
    stream.foreachRDD(rdd=>{
      if (!rdd.isEmpty()) {
        val cache_rdd = rdd.map(_.value()).cache()
        // a 表
        val a = cache_rdd.filter(_.contains("hello"))
        // b 表
        val b = cache_rdd.filter(_.contains("jason"))
        // 都可以打印结果,下面的代码就不在写了,可以参考另一篇博客里面写hive的
        a.foreach(println)
        b.foreach(println)
      }
    })
    scc.start()
    scc.awaitTermination()
  }
}

猜你喜欢

MySQL_(Java)使用preparestatement解决SQL注入的问题
Java实现 LeetCode 756 金字塔转换矩阵（DFS）
PHP优化加速之Opcache使用总结
【好物推荐】VScode的常用插件推荐
ansible-base和ansible-core查询出来的版本不一致，该如何解决
background-position 使用方法具体介绍
Kotlin 的优缺点
STM32新建工程
C++使用技巧（八）：输入输出读写文件
请你说明ConcurrentHashMap有什么优势以及1.7和1.8区别？
[Tools Vim] Open Files into Vim from the Terminal as buffers, splits, and tabs
SAS之大话PDV
阿里云DTS VS MySQLdump
【有功-无功协调优化】基于改进多目标粒子群优化算法（小生境粒子群算法）的配电网有功-无功协调优化研究（Matlab代码实现）
SpringBoot的编码问题
Data IDE：盘活数据，让数据发挥价值的一体化在线开发运维平台
CentOS 6.4下安装配置Spark-0.9集群

相关主题

docker部署kafka
Kafka 介绍
Kafka消费者
Kafka消息队列
kafka调优
Kafka 调优
Kafka初学习
kafka—生产者
kafka笔记1
kafka 创建 topic
[转]kafka介绍
kafka介绍一
Kafka-Monitor
什么是kafka

zl程序教程

当前栏目

sparkStreaming读取kafka写入hive表

相关文章