您现在的位置是：首页 > 其他

当前栏目

使用Spark Streaming转换不同的JSON有效负载

JSON JSON

2023-02-25 18:05:47 时间

【51CTO.com快译】Spark Streaming 是底层基于 Spark Core 的对大数据进行实时计算的框架，可以流方式从源读取数据。只需要从数据源创建一个读取流，然后我们可以创建写入流以将数据加载到目标数据源中。

接下来的演示，将假设我们有不同的 JSON 有效负载进入一个 kafka 主题，我们需要将其转换并写入另一个 kafka 主题。

创建一个ReadStream

为了能连续接收JSON有效负载作为消息。我们需要首先读取消息并使用spark的readstream创建数据帧。Spark 中提供了 readStream 函数，我们可以使用这个函数基本上创建一个 readStream。这将从 kafka 主题中读取流负载。

val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1")
.load()

我们可以创建一个 case-class(例如CustomerUnion)，它将包含JSON有效负载的所有可能字段。这样，我们就能在数据帧上运行select查询而不会失败。

val rawDfValue = rawData.selectExpr("CAST(value AS STRING)").as[String]

val schema = ScalaReflection.schemaFor[CustomerUnion].dataType.asInstanceOf[StructType]

val extractedDFWithSchema = rawDfValue.select(from_json(col("value"), schema).as("data")).select("data.*")

extractedDFWithSchema.createOrReplaceTempView(“tempView”)

这将为我们提供一个数据帧提取的 DFWithSchema，其中包含作为有效负载字段的列。

示例输入负载

这是两个样本输入有效负载，但也可以有更多的有效负载，有些字段不存在(变量)。

{
“id”: 1234,
“firstName”:”Jon”,
“lastName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“firstName”:”Jon”,
“lastName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

样例输出负载

根据id字段，我们将决定输出有效负载。如果存在一个 id 字段，我们将把它视为一个用户更新案例，并且在输出有效负载中只发送“Email”和“Phone”。我们可以根据某些条件配置任何字段。这只是一个例子。

如果 id 不存在，我们将发送所有字段。下面是两个输出载荷的示例：

{
“userid”: 1234,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“fullname”:”Jon Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

开始WriteStreams

一旦我们有了数据帧，我们就可以运行尽可能多的sql查询，并根据所需的有效负载写入 kafka 主题。因此，我们可以创建一个包含所有sql查询的列表，并通过该列表进行循环，并调用writeStream函数。让我们假设，我们有一个名为 queryList 的列表，它只包含字符串(即sql查询)。

下面为写入流定义的一个函数：

def startWriteStream(query: String): Unit = {

val transformedDf = spark.sql(query)
transformedDf
.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
.writeStream
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("topic", "topic1")
.start()

}

这将启动列表中每个查询的写入流。

queryList.foreach(startWriteStream)
spark.streams.awaitAnyTermination()

如果我们知道输入有效负载的所有可能字段，那么即使有一些字段不存在，我们的sql查询也不会失败。我们已经将有效负载的模式指定为case-class，它将为缺席字段创建指定 NULL 的数据帧。

通过这种方式，我们可以使用 spark-streaming 在所需的转换/过滤器之后将多个有效负载从同一主题写入不同的主题。

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】

猜你喜欢

最长无重复子串
写技术博客的一些心得分享
Java 多线程（七）：线程池
Java 多线程（五）：锁（三）
Java 多线程（四）：锁（二）
Java 多线程（三）：锁（一）
Java 多线程（二）：并发编程的三大特性
线性时间非比较类排序
Java 多线程（一）：基础
合并k个已排序的链表
HDFS 高可用分布式环境搭建
合并两个有序数组
连续子数组的最大和
HDFS 分布式环境搭建
容器盛水问题
大数加法
HDFS 伪分布式环境搭建
设计LRU缓存结构
两数之和
使用单调栈来解决的一些问题

zl程序教程