大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day19】——Spark6
前言
大家好,我是程序员
manor
。作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十
的秋招
接下来我准备用30天
时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍常见面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。
以古人的话共勉:道阻且长,行则将至;行而不辍,未来可期!
本栏目大数据开发岗高频面试题主要出自
大数据技术
专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。
文章目录
停🤚
不要往下滑了,
默默想5min,
看看这5道面试题你都会吗?
面试题 01、RDD机制?
面试题02、什么是RDD宽依赖和窄依赖?
面试题 03、cache和pesist的区别?
面试题04、cache后面能不能接其他算子,它是不是action操作?
面试题05、reduceByKey是不是action?
以下答案仅供参考:
面试题 01、RDD机制?
rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。 所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类, 但是都可以进行互相转换。rdd执行过程中会形成dag图,然后形成lineage保证容错性等。从物理的角度来看rdd存储的是block和node之间的映射。
1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;优点:作业特别多时,资源复用率高,适合粗粒度;缺点:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。
2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。
面试题02、什么是RDD宽依赖和窄依赖?
RDD和它依赖的parent RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency) 1)窄依赖指的是每一个parent RDD的Partition最多被子RDD的一个Partition使用 2)宽依赖指的是多个子RDD的Partition会依赖同一个parent RDD的Partition
面试题03、cache和pesist的区别?
cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间
1) cache只有一个默认的缓存级别MEMORY_ONLY ,cache调用了persist,而persist可以根据情况设置其它的缓存级别;
2)executor执行的时候,默认60%做cache,40%做task操作,persist是最根本的函数,最底层的函数。
面试题04、 cache后面能不能接其他算子,它是不是action操作?
cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache。 cache不是action操作。
面试题05、reduceByKey是不是action?
不是,很多人都会以为是action,reduce rdd是action
总结
今天我们复习了面试中常考的Spark相关的五个问题,你做到心中有数了么?
其实做这个专栏我也有私心,就是希望借助每天写一篇面试题,督促自己学习,以免在面试期间尴尬!平时不流汗,面试多流泪!
对了,如果你的朋友也在准备面试
,请将这个系列扔给他,
好了,今天就到这里,学废了的同学,记得在评论区留言:打卡
。给同学们以激励。
相关文章
- 【小程序】js单击事件中调用wxml中传递的数据(图文+完整示例)
- Google Earth Engine ——数据全解析专辑(COPERNICUS/S5P/NRTI/L3_CLOUD)云参数实时高分辨率数据集
- 牛客网面试——大数据方面/计算机基础/概率题
- 微信小程序 - 父组件调用子组件的函数方法(像 Vue.js 中 ref 属性一样,直接 this.$refs.xx 获取子组件数据和方法)详细教程示例代码
- 美国大数据工程师面试攻略
- 分析3000份技术面试数据:这几大指标比你毕业于哪所学校更要紧
- 《机器学习与R语言(原书第2版)》一2.2 用R管理数据
- LIGO 用 Python 分析引力波数据
- Charles 抓包修改 request 请求数据和响应数据
- 【前端】通过el-select选择的值来筛选el-table表格中的数据
- 河南将建设国家大数据综合试验区 力争3年内建成
- 陕西省以大数据助力产业结构优化转型升级
- Python计算美国总统的身高并实现数据可视化
- 谷歌回应美劳工部:提供薪酬数据工作成本太高
- Python 生成周期性波动的数据 可指定数值范围2
- 云端还是本地,数据放哪儿更安全之泄密事件类型分析篇
- 2016年初大数据、云计算的漫谈
- 微信小程序- wx.request请求不到数据