您现在的位置是：首页 > 其他

当前栏目

让Apache Beam在GCP Cloud Dataflow上跑起来

代码

2023-03-20 15:25:22 时间

简介

在文章《Apache Beam入门及Java SDK开发初体验》中大概讲了Apapche Beam的简单概念和本地运行，本文将讲解如何把代码运行在GCP Cloud Dataflow上。

本地运行

通过maven命令来创建项目：

mvn archetype:generate 
    -DarchetypeGroupId=org.apache.beam 
    -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples 
    -DarchetypeVersion=2.37.0 
    -DgroupId=org.example 
    -DartifactId=word-count-beam 
    -Dversion="0.1" 
    -Dpackage=org.apache.beam.examples 
    -DinteractiveMode=false

上面会创建一个目录word-count-beam，里面是一个例子项目。做一些简单修改就可以使用了。

先build一次，保证依赖下载成功：

$ mvn clean package

通过IDEA本地运行一下，添加入参如下：

--output=pkslow-beam-counts --inputFile=/Users/larry/IdeaProjects/pkslow-samples/README.md

处理的文件是README.md，输出结果前缀为pkslow-beam-counts：

或者通过命令行来运行也可以：

mvn compile exec:java 
    -Dexec.mainClass=org.apache.beam.examples.WordCount 
    -Dexec.args="--output=pkslow-beam-counts --inputFile=/Users/larry/IdeaProjects/pkslow-samples/README.md"

在GCP Cloud Dataflow上运行

准备环境

要有对应的Service Account和key，当然还要有权限；

要打开对应的Service；

创建好对应的Bucket，上传要处理的文件。

运行

然后在本地执行命令如下：

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount 
     -Dexec.args="--runner=DataflowRunner --gcpTempLocation=gs://pkslow-dataflow/temp 
                  --project=pkslow --region=us-east1 
                  --inputFile=gs://pkslow-dataflow/input/README.md --output=gs://pkslow-dataflow//pkslow-counts" 
     -Pdataflow-runner

日志比较长，它大概做的事情就是把相关Jar包上传到temp目录下，因为执行的时候要引用。如：

Nov 03, 2022 8:41:48 PM org.apache.beam.runners.dataflow.util.PackageUtil tryStagePackage
INFO: Uploading /Users/larry/.m2/repository/org/apache/commons/commons-compress/1.8.1/commons-compress-1.8.1.jar to gs://pkslow-dataflow/temp/staging/commons-compress-1.8.1-X8oTZQP4bsxsth-9F7E31Z5WtFx6VJTmuP08q9Rpf70.jar
Nov 03, 2022 8:41:48 PM org.apache.beam.runners.dataflow.util.PackageUtil tryStagePackage
INFO: Uploading /Users/larry/.m2/repository/org/codehaus/jackson/jackson-mapper-asl/1.9.13/jackson-mapper-asl-1.9.13.jar to gs://pkslow-dataflow/temp/staging/jackson-mapper-asl-1.9.13-dOegenby7breKTEqWi68z6AZEovAIezjhW12GX6b4MI.jar

查看Bucket，确实有一堆jar包：

接着会创建dataflow jobs开始工作了。可以查看界面的Jobs如下：

点进去可以看到流程和更多细节：

最后到Bucket查看结果也出来了：

代码

代码请看GitHub: https://github.com/LarryDpk/pkslow-samples

猜你喜欢

Flutter 下载篇 - 贰 | 当下载器遇上切换网络库
OpenAI Java SDK——chatgpt-java-v1.0.4更新支持GPT-3.5-Turbo，支持语音转文字，语音翻译。
Spring Boot如何自定义监控指标
手把手教你搭建Windows 搭建Prometheus + Grafana + Jmeter可视化监控平台
day09-MyBatis缓存
MyBatis 一级缓存、二级缓存全详解(一)
Ehcache配置文件ehcache.xml
自己动手从零写桌面操作系统GrapeOS系列教程——8.x86介绍
从0搭建Vue3组件库(四): 如何开发一个组件
批量下载Landsat遥感影像的方法
Java Agent场景性能测试分析优化经验分享
【大型软件开发】开发日志（五）.net框架与C++的融合：CLR——C++调用C#的DLL
Sidecar-详解 JuiceFS CSI Driver 新模式
Spring Boot2中如何优雅地个性化定制Jackson
从源码MessageSource的三个实现出发实战spring·i18n国际化
如何免费获取高清动图并将其插入到Markdown中
JavaScript 回调函数属于闭包？
延迟队列实现订单超时自动取消
全局视角看技术-Java多线程演进史
ElasticSearch 实现分词全文检索 - 概述

zl程序教程

当前栏目

让Apache Beam在GCP Cloud Dataflow上跑起来

简介

本地运行

在GCP Cloud Dataflow上运行

准备环境

运行

代码

相关文章