您现在的位置是：首页 > 其他

当前栏目

MongoDB Spark Connector 实战指南

2023-02-26 09:50:51 时间

Why Spark with MongoDB?
高性能，官方号称 100x faster，因为可以全内存运行，性能提升肯定是很明显的
简单易用，支持 Java、Python、Scala、SQL 等多种语言，使得构建分析应用非常简单
统一构建，支持多种数据源，通过 Spark RDD 屏蔽底层数据差异，同一个分析应用可运行于不同的数据源；
应用场景广泛，能同时支持批处理以及流式处理
MongoDB Spark Connector 为官方推出，用于适配 Spark 操作 MongoDB 数据；本文以 Python 为例，介绍 MongoDB Spark Connector 的使用，帮助你基于 MongoDB 构建第一个分析应用。

准备 MongoDB 环境
安装 MongoDB 参考 Install MongoDB Community Edition on Linux

mkdir mongodata
mongod –dbpath mongodata –port 9555
准备 Spark python 环境
参考 PySpark – Quick Guide

下载 Spark

cd /home/mongo-spark
wget
tar zxvf spark-2.4.4-bin-hadoop2.7.tgz
设置 Spark 环境变量

export SPARK_HOME=/home/mongo-spark/spark-2.4.4-bin-hadoop2.7
export PATH=$PATH:/home/mongo-spark/spark-2.4.4-bin-hadoop2.7/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH
运行 Spark RDD 示例

count.py

from pyspark import SparkContext
sc = SparkContext(“local”, “count app”)
words = sc.parallelize (
[“scala”,
“java”,
“hadoop”,
“spark”,
“akka”,
“spark vs hadoop”,
“pyspark”,
“pyspark and spark”]
)
counts = words.count()

$SPARK_HOME/bin/spark-submit count.py
Number of elements in RDD → 8
如果上述程序运行成功，说明 Spark python 环境准备成功，还可以测试 Spark 的其他 RDD 操作，比如 collector、filter、map、reduce、join 等，更多买QQ示例参考 PySpark – Quick Guide

Spark 操作 MongoDB 数据
参考 Spark Connector Python Guide

准备测试数据 test.coll01 插入3条测试数据，test.coll02 未空

mongo –port 9555

db.coll01.find()
{ “_id” : 1, “type” : “apple”, “qty” : 5 }
{ “_id” : 2, “type” : “orange”, “qty” : 10 }
{ “_id” : 3, “type” : “banana”, “qty” : 15 }
db.coll02.find()
准备操作脚本，将输入集合的数据按条件进行过滤，写到输出集合

mongo-spark-test.py

from pyspark.sql import SparkSession

Create Spark Session

spark = SparkSession

.builder  .appName("myApp")  .config("spark.mongodb.input.uri", "mongodb://127.0.0.1:9555/test.coll01")  .config("spark.mongodb.output.uri", "mongodb://127.0.0.1:9555/test.coll")  .getOrCreate()

Read from MongoDB

df = spark.read.format(“mongo”).load()
df.show()

Filter and Write

df.filter(df[‘qty’] >= 10).write.format(“mongo”).mode(“append”).save()

Use SQL

df.createOrReplaceTempView(“temp”)

some_fruit = spark.sql(“SELECT type, qty FROM temp WHERE type LIKE ‘%e%'”)

some_fruit.show()

运行脚本

$SPARK_HOME/bin/spark-submit –packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.1 mongo-spark-test.py

mongo –port 9555

db.coll02.find()
{ “_id” : 2, “qty” : 10, “type” : “orange” }
{ “_id” : 3, “qty” : 15, “type” : “banana” }

本站部分内容转载自网络，版权属于原作者所有，如有异议请联系QQ153890879修改或删除，谢谢！
转载请注明原文链接：MongoDB Spark Connector 实战指南

你还在原价购买阿里云、腾讯云、华为云、天翼云产品？那就亏大啦！现在申请成为四大品牌云厂商VIP用户，可以3折优惠价购买云服务器等云产品，并且可享四大云服务商产品终身VIP优惠价，还等什么？赶紧点击下面对应链接免费申请VIP客户吧：

1、点击这里立即申请成为腾讯云VIP客户

2、点击这里立即注册成为天翼云VIP客户

3、点击这里立即申请成为华为云VIP客户

4、点击这里立享阿里云产品终身VIP优惠价

猜你喜欢

以太智能合约丨DAPP去中心化系统开发介绍丨交易所系统开发讲解方案
关于电源驱动ap8215升压IC的应用
基于tcl脚本语言的asic后端设计-软件定义汽车下的整车开发
云原生时代的灰度发布有几种“姿势”？
c语言程序设计向艳主编第5章课后习题答案-C语言程序设计（第2版）-- 课后题答案
计算机病毒原理与防治技术-计算机病毒的发展趋势及防控策略论文
4K YouTube to MP3 for Mac(在线视频音频提取工具) 4.8.0激活版
版本号的正则表达式-一看就懂的「正则表达式」
嘉为蓝鲸受邀出席汽车新智造数字行业峰会，助力构建数字时代竞争力！
版本号的正则表达式-身份证号码的正则表达式及验证详解(JavaScript，Regex)
计算机病毒原理与防治技术-计算机病毒防治的策略
线程安全的queue-浅谈线程安全那些事儿
版本号的正则表达式-常见正则表达式大全
PowerPhotos for Mac(mac专用图片管理工具)
canvas清除画布-ZBrush中如何清除画布中多余图像
树莓派3 usb通信-我的树莓派4为啥供不了电？官方确认：存在设计缺陷
单循环链表-带头双向循环链表的实现
js 怎么使用正则表达式-JavaScript 正则表达式
在线图片加字-Fotor给图片添加文字的方法
内存数据库 mysql-mysql in memory_In-Memory：内存数据库

zl程序教程