您现在的位置是：首页 > 大数据

当前栏目

pyspark streaming简介和消费 kafka示例

Kafka 示例简介消费 Streaming Pyspark

2023-06-13 09:15:32 时间

# 简介

并不是真正的实时处理框架，只是按照时间进行微批处理进行，时间可以设置的尽可能的小。
将不同的额数据源的数据经过SparkStreaming 处理之后将结果输出到外部文件系统

特点

低延时能从错误中搞笑的恢复: fault-tolerant 能够运行在成百上千的节点能够将批处理、机器学习、图计算等自框架和Spark Streaming 综合起来使用

粗粒度

Spark Streaming接收到实时数据流，把数据按照指定的时间段切成一片片小的数据块，然后把小的数据块传给Spark Engine处理。

细粒度

数据源 kafka提供了两种数据源。

基础数据源，可以直接通过streamingContext API实现。如文件系统和socket连接
高级的数据源，如Kafka, Flume, Kinesis等等. 可以通过额外的类库去实现。

# 基础数据源

使用官方的案例

/spark/examples/src/main/python/streaming

nc -lk 6789

处理socket数据

示例代码如下: 读取socket中的数据进行流处理

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# local 必须设为2
sc = SparkContext("local[2]", "NetworkWordCount")
ssc = StreamingContext(sc, 1)

lines = ssc.socketTextStream("localhost", 9999)

words = lines.flatMap(lambda line: line.split(" "))

pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)

wordCounts.pprint()

ssc.start()
ssc.awaitTermination()

测试

nc -lk 9999

处理文件系统数据

文件系统(fileStream(that is, HDFSM S3, NFS))暂不支持python，python仅支持文本文件(textFileStream)

示例如下，但未成功，找不到该文件。

lines = ssc.textFileStream("hdfs://txz-data0:9820/user/jim/workflow/crash/python/crash_2_hdfs.py")

streaming context
DStreams

持续化的数据流对DStream操作算子，比如map/flatMap,其实底层会被翻译为对DStream中的每个RDD都做相同的操作，因为一个DStream是由不同批次的RDD所

Input DStreams and Receivers

# 高级数据源

# Spark Streaming 和 kafka 整合

两种模式

receiver 模式

from pyspark.streaming.kafka import KafkaUtils
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext("local[2]", "NetworkWordCount")
sc.setLogLevel("OFF")
ssc = StreamingContext(sc, 1)

# 创建Kafka streaming
line = KafkaUtils.createStream(ssc, "192.168.0.208:2181", 'test', {"jim_test": 1})

# 分词
words = line.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)
wordCounts.pprint()

ssc.start()
ssc.awaitTermination()

no receiver

根据上面的代码替换掉createStream即可。

line = KafkaUtils.createDirectStream(ssc, ["jim_test"], {"metadata.broker.list": "192.168.0.208:9092"})

运行:

spark-submit --jars spark-streaming-kafka-0-8-assembly_2.11-2.4.0.jar test_spark_stream.py

需要下载相应的jar包.下载地址如下，搜索。 https://search.maven.org

jar版本会在运行程序时报错提醒。

猜你喜欢

解析Redis面试中的高频题（redis面试高频题）
网络社群发现算法挖掘bilibili视频流量数据可视化|附代码数据
夹Linux关闭文件夹的安全方法（linux关闭文件）
深入解析MySQL中的X锁并发控制的重要角色（mysql x锁）
java常量有哪些_JAVA常量介绍「建议收藏」
全国末伏热力地图出炉：大部地区高温“熄火” 南方雨水增多增强
CMD下MySQL的登陆方法（cmdmysql登陆）
Linux下开启百度音乐聆听乐章（linux百度音乐）
佛萨奇2.0系统丨佛萨奇dapp智能合约系统开发（详情）丨佛萨奇2.0源码模式
Oracle进阶之路：视频教程（oracle进阶视频）
【说站】php有哪些文件包含漏洞
LuoguP3104 [USACO14MAR]Counting Friends G 题解
com.android.tools.aapt2.Aapt2Exception: AAPT error: check logs for details
服务云上用Oracle在线体验免费云服务（oracle 免费云）
希尔排序是一种…排序方法_希尔排序法属于

zl程序教程

当前栏目

pyspark streaming简介和消费 kafka示例

# 简介

# 基础数据源

# 高级数据源

# Spark Streaming 和 kafka 整合

相关文章

当前栏目

pyspark streaming简介 和 消费 kafka示例

# 简介

# 基础数据源

# 高级数据源

# Spark Streaming 和 kafka 整合

相关文章

pyspark streaming简介和消费 kafka示例