您现在的位置是：首页 > 工具

当前栏目

Spark学习(一) 基本操作

学习 Spark 基本操作

2023-09-11 14:14:42 时间

先来一个简单的spark小程序,这是官网上的小样例,目的就是统计spark以下的README文档中包括字母a和字母b的个数,然后

打印,代码例如以下:

object BasicStandaloneApp extends App{
  val logFile = "/home/xiaoyi/software/spark/README.md" // Should be some file on your system
  val conf = new SparkConf().setAppName("Simple Application").setMaster("local")
  val sc = new SparkContext(conf)
  val logData = sc.textFile(logFile, 2).cache()
  val numAs = logData.filter(line => line.contains("a")).count()
  val numBs = logData.filter(line => line.contains("b")).count()
  println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}

因为scala代码通常是使用sbt进行项目管理,所以我们还须要在对应的sbt文件里加入spark相依的依赖,例如以下所看到的:

name := "learning_spark"

version := "1.0"

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.1.0"

这是sbt管理文件的基本格式.

从这个样例中我们能够看出spark程序的基本结构,spark的程序须要两个主要的类,第一个是SparkConf它负责spark程序的基本配置.比方上面样例中设置master 为"local"的话,就表示程序在本地运行,另外一个很重要的类是SparkContext, spark程序的执行都是有它的实例进行启动和空值.

对于上面的样例假设在IDE中的话我们就能够直接右键run了,效果例如以下:

尽管这种运行比較简单,可是终究还是得放到saprk容器或者说上集群跑的,详细的也就是先将你的应用打个包,然后用spark submit提交就可以

命令例如以下:

spark-submit --class BasicStandaloneApp --master local target/scala-2.10/learning_spark_2.10-1.0.jar

local是spark master所在地址
任务监控界面例如以下:

猜你喜欢

sqlserver 临时表、表变量、CTE的比较
使用OPENROWSET爆破SQL Server密码
测试人员如何运用好OKR
第一章为什么使用单元测试
技术分享 | app自动化测试（Android）-- 属性获取与断言
人命关天医疗大数据吹不得
《无线网络：理解和应对互联网环境下网络互连所带来的挑战》——2.9　蓝牙SIG
javascript 事件触发
36可视化操作数据库
Linux中网卡的命名规则
Spring Cloud与Dubbo的完美融合之手「Spring Cloud Alibaba」
布局混合云，互联港湾为云计算未来加码
20Vue - 计算属性（观察 Watchers)
CloudDB对象类型创建失败，问题解决三板斧
司空见惯 - 2022世界杯
测试工程师面试题，你都遇到过哪些呢？
被 GANs 虐千百遍后，我总结出来的 10 条训练经验
【OpenVINO+paddle】OpenVINO核心部署代码讲解-步步打印结果
力扣解法汇总1775. 通过最少操作次数使数组的和相等
sh /bin/bash 的区别
STL - 算法 - 普通拷贝
hive 时间戳函数之unix_timestamp，from_unixtime

相关主题

springboot 学习
Swift学习笔记
学习学习
机器学习——决策树
学习学习中
待学习和研究
C++模板学习

zl程序教程

当前栏目

Spark学习(一) 基本操作

相关文章