您现在的位置是：首页 > 大数据

当前栏目

Spark修炼之道（进阶篇）——Spark入门到精通：第十六节 Spark Streaming与Kafka

Kafka Spark 入门精通之道修炼 Streaming 进阶篇

2023-09-14 09:00:24 时间

Spark Streaming与Kafka版的WordCount示例（一） Spark Streaming与Kafka版的WordCount示例（二） 1. Spark Streaming与Kafka版本的WordCount示例（一）

root@sparkslave02:/hadoopLearning/kafka_2.10-0.8.2.1# bin/kafka-server-start.sh config/server.properties 

root@sparkslave01:/hadoopLearning/kafka_2.10-0.8.2.1# bin/kafka-server-start.sh config/server.properties 

root@sparkmaster:/hadoopLearning/kafka_2.10-0.8.2.1# bin/kafka-server-start.sh config/server.properties

向kafka集群发送消息

root@sparkslave01:/hadoopLearning/kafka_2.10-0.8.2.1# bin/kafka-console-producer.sh --broker-list sparkslave01:9092 --sync --topic kafkatopictest

import org.apache.kafka.clients.producer.{ProducerConfig, KafkaProducer, ProducerRecord}

import org.apache.log4j.{Level, Logger}

import org.apache.spark.streaming._

import org.apache.spark.streaming.kafka._

import org.apache.spark.{Logging, SparkConf}

object KafkaWordCount {

 def main(args: Array[String]) {

 if (args.length 4) {

 System.err.println("Usage: KafkaWordCount zkQuorum group topics numThreads ")

 System.exit(1)

 StreamingExamples.setStreamingLogLevels()

 val Array(zkQuorum, group, topics, numThreads) = args

 val sparkConf = new SparkConf().setAppName("KafkaWordCount").setMaster("local[4]")

 val ssc = new StreamingContext(sparkConf, Seconds(2))

 ssc.checkpoint("checkpoint")

 val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

 //创建ReceiverInputDStream

 val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)

 val words = lines.flatMap(_.split(" "))

 val wordCounts = words.map(x = (x, 1L))

 .reduceByKeyAndWindow(_ + _, _ - _, Minutes(10), Seconds(2), 2)

 wordCounts.print()

 ssc.start()

 ssc.awaitTermination()

}

配置运行参数：
这里写图片描述
具体如下：

sparkmaster:2181 test-consumer-group kafkatopictest 1

sparkmaster:2181，zookeeper监听地址
test-consumer-group， consumer-group的名称，必须和$KAFKA_HOME/config/consumer.properties中的group.id的配置内容一致
kafkatopictest，topic名称
1，线程数

运行KafkaWordCount 后，在producer中输入下列内容

root@sparkslave01:/hadoopLearning/kafka_2.10-0.8.2.1# bin/kafka-console-producer.sh --broker-list sparkslave01:9092 --sync --topic kafkatopictest

[2015-11-04 03:25:39,666] WARN Property topic is not valid (kafka.utils.VerifiableProperties)

Spark

Spark TEST

TEST Spark Streaming

这里写图片描述

得到结果如下：
这里写图片描述

2. Spark Streaming与Kafka版本的WordCount示例（二）

前面的例子中，producer是通过kafka的脚本生成的，本例中将给出通过编写程序生成的producer

if (args.length 4) { System.err.println("Usage: KafkaWordCountProducer metadataBrokerList topic " + " messagesPerSec wordsPerMessage ") System.exit(1) val Array(brokers, topic, messagesPerSec, wordsPerMessage) = args // Zookeeper连接属性配置 val props = new HashMap[String, Object]() props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers) props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer") props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer") //创建KafkaProducer val producer = new KafkaProducer[String, String](props) // 向kafka集群发送消息 while(true) { (1 to messagesPerSec.toInt).foreach { messageNum = val str = (1 to wordsPerMessage.toInt).map(x = scala.util.Random.nextInt(10).toString) .mkString(" ") val message = new ProducerRecord[String, String](topic, null, str) producer.send(message) Thread.sleep(1000) }

KafkaWordCountProducer 运行参数设置如下：

sparkmaster:9092 kafkatopictest 5 8

sparkmaster:9092，broker-list
kafkatopictest，top名称
5表示每秒发多少条消息
8表示每条消息中有几个单词

先KafkaWordCountProducer，然后再运行KafkaWordCount ，得到的计算结果如下：
这里写图片描述

猜你喜欢

vim、gvim 在 windows 下中文乱码的终极解决方案
SAP Spartacus org unit list当前行is-current的判定逻辑
node require 运行步骤
ubuntu下设置Android手机驱动
【C++要笑着学】虚函数表(VBTL) | 观察虚表指针 | 运行时决议与编译时决议 | 动态绑定与静态绑定 | 静态多态与动态多态 | 单继承与多继承关系的虚表
Laravel - 改为国内镜像
Myeclipse异常
kvm与selinux
促销R语言应用性能
PHP 真正多线程的使用
jittor和pytorch生成网络对比之softmax_gan
基于遗传算法和粒子群算法的潮流计算比较（Matlab代码实现）
java实现链表反转
Java实现蓝桥杯算法提高递推求值

相关主题

Kafka的认证
Kafka 消费者
kafka架构
Kafka-键的删除
Kafka-分区
Kafka 之入门
消息队列和Kafka
Kafka 分布式消息系统
Kafka初学习
kafka笔记202104-2
kafka 集群部署
Kafka总结
RabbitMQ和Kafka
kafka(一)
kafka 学习
go kafka

zl程序教程

当前栏目

Spark修炼之道（进阶篇）——Spark入门到精通：第十六节 Spark Streaming与Kafka

相关文章