您现在的位置是：首页 > 工具

当前栏目

emacs+ensime+sbt打造spark源码阅读环境

源码 Spark 环境打造阅读 emacs

2023-09-14 09:00:25 时间

Scala越来越流行, Spark也愈来愈红火, 对spark的代码进行走读也成了一个很普遍的行为。不巧的是，当前java社区中很流行的ide如eclipse,netbeans对scala的支持都不算太好。在这种情况下不得不想到编辑器之神emacs,利用emacs+ensime来打造scala编程环境。

本文讲述的步骤全部是在arch linux上，其它发行版的linux视具体情况变通。

安装scala

pacman -S scala

安装sbt

pacman -S sbt

安装ensime

yaourt -S ensime

添加如下代码到$HOME/.emacs中

(add-to-list load-path "/usr/share/ensime/elisp")

(add-to-list exec-path "/usr/share/ensime")

(require ensime)

(add-hook scala-mode-hook ensime-scala-mode-hook)

运行sbt

sbt

首次运行sbt会解决依赖，下载必须的包。生成$HOME/.sbt/0.13目录,假设当前的sbt版本是0.13的话。

创建plugin.sbt

cd ~/.sbt/0.13

mkdir -p plugins

cd plugins

touch plugin.sbt

在plugin.sbt中添加如下内容

addSbtPlugin("org.ensime" % "ensime-sbt-cmd" % "0.1.2")

再次运行sbt, sbt会自动下载ensime plugin

下载spark源码

假设下载的spark源码解压在$HOME/working目录。到些为止，准备工作都差不多了，开始真正的使用吧。

生成.ensime文件

spark采用maven进行编译管理，所以不能像一般的sbt工程那样直接使用ensime generate。变通的方法如下

运行emacs, 在emacs中打开SparkContext.scala具体什么源文件不重要，这里只是一个比方在emacs中运行ensime-config-gen，按照提示一步步执行，最终生成.ensime

如何回答ensime-config-gen中的每一个问题，下面的screenshot给出了明确的示例。

指定根目录

设定项目类型，选择yes

指定项目名称，spark

package的名称 org.apache.spark

指定源文件目录

指定所依赖的包所在位置

scala的标准库所在位置，选择 N

指定生成的classess被保存在哪个目录，选择默认

至此，配置完成，在spark-0.9.0-incubating/core/src/main能够打到.ensime文件

运行ensime

一旦生成了.ensime，就可以直接在emacs中唤起ensime了，M-X进入minibuffer,输入ensime

确认.ensime的位置

.ensime加载进来之后，状态栏上的"No Connection"提示信息消失，取而代之的是“spark analyzing"，表明正在进行源文件的indexing.

ensime指令简明指南

ensime环境搭建完毕，具体指令的话请查看ensime官网上的manual.

由于我是进行源码走读，所以比较注重代码的调用和跳转。

将光标移动某一个类的起始定义处如class SparkContext，然后调用快捷键c-c c-v i 列出SparkContext的变量与函数

c-c c-v p 列出当前package中的所有类

c-c c-v v 查找某一个方法或类

c-c c-v r 查看当前函数在哪些地方被调用，类似于source insight中的calling或eclipse中的calling hierarchy功能

alt-. 跳转到函数或类的定义处

alt-, 跳转到之前的位置

Spark Netty与Jetty （源码阅读十一） spark呢，对Netty API又做了一层封装，那么Netty是什么呢~是个鬼。它基于NIO的服务端客户端框架，具体不再说了，下面开始。创建了一个线程工厂，生成的线程都给定一个前缀名。像一般的netty框架一样，创建Netty的EventLoopGroup: 在常用...
Spark之SQL解析（源码阅读十）如何能更好的运用与监控sparkSQL?或许我们改更深层次的了解它深层次的原理是什么。之前总结的已经写了传统数据库与Spark的sql解析之间的差别。那么我们下来直切主题~ 如今的Spark已经支持多种多样的数据源的查询与加载，兼容了Hive,可用JDBC的方式或者ODBC来连接Spark SQL。
Spark BlockManager的通信及内存占用分析(源码阅读九）之前阅读也有总结过Block的RPC服务是通过NettyBlockRpcServer提供打开，即下载Block文件的功能。然后在启动jbo的时候由Driver上的BlockManagerMaster对存在于Executor上的BlockManager统一管理，注册Executor的BlockManager、更新Executor上Block的最新信息、询问所需要Block目前所在的位置以及当Executor运行结束时，将Executor移除等等。
Spark Job的提交与task本地化分析（源码阅读八）我们又都知道，Spark中任务的处理也要考虑数据的本地性(locality)，Spark目前支持PROCESS_LOCAL（本地进程）、NODE_LOCAL（本地节点）、NODE_PREF、RACK_LOCAL（本地机架）、ANY（任何）几种。
Spark Shuffle数据处理过程与部分调优（源码阅读七） shuffle。。。相当重要，为什么咩，因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量。相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式，对shuffle过程进行了优化。
Spark常用函数（源码阅读六）源码层面整理下我们常用的操作RDD数据处理与分析的函数，从而能更好的应用于工作中。连接Hbase,读取hbase的过程，首先代码如下： def tableInitByTime(sc : SparkContext,tableName : String,columns : Strin...

猜你喜欢

使用MySQL数据库存储QQ聊天记录的方法（mysqlqq）
ORA-16168: LGWR network server could not switch to blocking mode ORACLE 报错故障修复远程处理
C++中点操作符和箭头操作符的使用详解
蓝桥杯历届试题小朋友排队（树型数组 C语言）
Java如何创建项目
揭秘：Oracle 账号密码安全保障（oracle账号密码）
数据使用 Redis 清空所有数据（redis删除所有）
PHP中的函数嵌套层数限制分析
VUE调试工具
谈谈我对 JavaScript执行上下文栈理解
Google Analytics 的一些用法介绍
Oracle灾难：系统闪退不再（oracle闪退）
解锁Linux利器！学习命令映射，让操作更轻松（linux命令映射）
Linux下文件搜索、查找、查看命令
Python数字图像处理-3种图像读取方式总结
【说站】python如何制作探针模块
腾讯云网站备案（初次备案）
轻松掌握Redis查询技巧：快速查询所有数据（redis查询所有数据）
Python基础13-模块的使用
安全升级带密码访问Redis（带密码访问redis）

相关主题

github_源码
Flink源码
第7章源码
c源码编译
OkHttp3源码详解
OpenJDK 源码
spring 源码解析
云桌面源码2
Spark源码分析
jdk 源码
什么是找源码
源码编译

zl程序教程

当前栏目

emacs+ensime+sbt打造spark源码阅读环境

相关文章