Spark学习(一) 基本操作
2023-09-11 14:14:42 时间
先来一个简单的spark小程序,这是官网上的小样例,目的就是统计spark以下的README文档中包括字母a和字母b的个数,然后
打印,代码例如以下:
object BasicStandaloneApp extends App{ val logFile = "/home/xiaoyi/software/spark/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) }因为scala代码通常是使用sbt进行项目管理,所以我们还须要在对应的sbt文件里加入spark相依的依赖,例如以下所看到的:
name := "learning_spark" version := "1.0" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.1.0"
这是sbt管理文件的基本格式.
从这个样例中我们能够看出spark程序的基本结构,spark的程序须要两个主要的类,第一个是SparkConf它负责spark程序的基本配置.比方上面样例中设置master 为"local"的话,就表示程序在本地运行,另外一个很重要的类是SparkContext, spark程序的执行都是有它的实例进行启动和空值.
对于上面的样例假设在IDE中的话我们就能够直接右键run了,效果例如以下:
尽管这种运行比較简单,可是终究还是得放到saprk容器或者说上集群跑的,详细的也就是先将你的应用打个包,然后用spark submit提交就可以
命令例如以下:
spark-submit --class BasicStandaloneApp --master local target/scala-2.10/learning_spark_2.10-1.0.jar
local是spark master所在地址
任务监控界面例如以下:
相关文章
- WCF学习之旅—WCF第二个示例(六)
- 传智播客c/c++公开课学习笔记--邮箱账户的破解与邮箱安全防控
- Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1
- Apache Spark机器学习.1.1 Spark概述和技术优势
- Apache Spark机器学习.1.2 在机器学习中应用Spark计算
- Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline
- Apache Spark机器学习2.7 复用性和自动化
- Apache Spark机器学习3.1 Spark整体视图
- 《Spark 官方文档》机器学习库(MLlib)指南
- spark学习系列
- 强化学习代码实战-06 Double DQN算法
- global语句(python学习手册422页)
- pthread 学习系列 case2-- 使用互斥锁
- 学习Java需要自省
- (计算机入侵者)菜鸟入门教程(做一名计算机入侵者需要学习哪些技能)
- (数据科学学习手札03)Python与R在随机数生成上的异同
- 大数据学习——spark安装
- 《Scala机器学习》一一1.5 使用Scala和Spark的Notebook工作
- 《Scala机器学习》一一第3章 使用Spark和MLlib
- Python基础学习
- Spark学习视频整合
- ×86学习之汇编DUBUG安装
- Coursera在线学习---第八节.K-means聚类算法与主成分分析(PCA)
- Django+Vue项目学习第三篇:使用axios发送get请求,解决跨域问题,调通前后端