您现在的位置是：首页 > 其他

当前栏目

大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂]

面试题 HBase hadoop 数据 Spark 解析通俗易懂 hive

2023-06-13 09:11:54 时间

大家好，又见面了，我是你们的朋友全栈君。

整理的答案后面继续更新：

(1)spark运行流程、源码架构 https://blog.csdn.net/sghuu/article/details/103547937

(2)Hbase主键设计、hbase为何这么快？ 主键设计： 1.生成随机数、hash、散列值 2.字符串反转 3.字符串拼接 hbase为何快：https://blog.csdn.net/sghuu/article/details/102955969

(3)Hbase读写流程，数据compact流程 hbase读写流程： https://blog.csdn.net/sghuu/article/details/102708098 数据compact流程； https://blog.csdn.net/sghuu/article/details/102956773

(4)Hadoop mapreduce流程 https://blog.csdn.net/sghuu/article/details/98985583

(5)Spark standalone模型、yarn架构模型(画出来架构图)

https://blog.csdn.net/sghuu/article/details/103547937

(6)Spark算子(map、flatmap、reducebykey和reduce、groupbykey和reducebykey、join、distinct)原理

(7)Spark stage的切分、task资源分配、任务调度、master计算资源分配 spark的stage的切分是根据宽依赖划分，最起码有一个ResultStage，从后往前每遇见一个宽依赖则会切分出一个ShuffleMapStage。 task的时stage的子集，根据并行度（分区数）来衡量，分区数是多少就有多少个task spark的任务调度分为stage级别的调度和Task级别的调度

详细介绍切分流程和任务调度：

(8)Sparksql自定义函数、怎么创建dateframe

(9)Sparkstreaming项目多久一个批次数据

(10)Kafka复制机制、分区多副本机制 https://blog.csdn.net/tryll/article/details/86627696

(11)Hdfs读写流程，数据checkpoint流程 读流程： https://blog.csdn.net/sghuu/article/details/98127600 写数据流程： https://blog.csdn.net/sghuu/article/details/98122393 checkpoint流程： https://blog.csdn.net/sghuu/article/details/98196539

(12)Sparkshuffle和hadoopshuffle原理、对比

(13)Hivesql怎么转化为MapReduce任务

(14)Spark调优 spark的四个方面调优

(15)Spark数据倾斜解决方案 spark数据倾斜的6种解决 https://blog.csdn.net/sghuu/article/details/103710145

(16)Yarn工作流程、组成架构

https://blog.csdn.net/sghuu/article/details/102959135

(17)Zookeeper首领选取、节点类型、zookeeper实现原理

(18)hbase的ha，zookeeper在其中的作用

(19)spark的内存管理机制，spark1.6前后对比分析

(21)spark rdd、dataframe、dataset区别

(22)spark里面有哪些参数可以设置，有什么用

(23)hashpartitioner与rangePartitioner的实现

(24)spark有哪几种join

(25)spark jdbc(mysql)读取并发度优化

(26)Spark join算子可以用什么替代

(27)HBase region切分后数据是怎么分的

(28)项目集群结构(spark和hadoop集群)

(29)spark streaming是怎么跟kafka交互的，具体代码怎么写的，程序执行流程是怎样的，这个过程中怎么确保数据不丢(直连和receiver方式)

(30)kafka如何保证高吞吐的，kafka零拷贝，具体怎么做的

(31)hdfs的容错机制

(32)zookeeper怎么保证原子性，怎么实现分布式锁

(33)kafka存储模型与网络模型

(34)Zookeeper脑裂问题

Scala

(1)隐式转换

(2)柯理化

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/138440.html原文链接：https://javaforall.cn

猜你喜欢

MySQL字段改名指南（mysql字段改名）
谷歌数据恢复工具可搬迁iOS WhatsApp聊天记录至Android平台
浅谈redis缓存在项目中的使用
Matlab 直方图_matlab分析
Linux改组技巧：如何改变ID（linux改组的id）
【Flutter】Flutter 应用创建运行 ( Android Studio 创建 / 运行 Flutter 应用 | 命令行创建 / 运行 Flutter 应用 )
简单易用的Oracle连接软件，优化你的数据管理（连接oracle的软件）
成为黑客需要学习什么技能？
Oracle数据库的时间格式如何改变？（oracle改时间格式）
巴菲特、贝索斯交税竟然不到1%？
ORA-56936: datapump jobs are utilizing secondary time zone data file ORACLE 报错故障修复远程处理
JSP是什么？
RocketMQ system busy
利用Qt轻松操作Oracle数据库（qt操作oracle）
Anne Pro 2 机械键盘开箱记录
妙用Oracle 索引加速数据查询（oracle字段索引吗）
可执行文件的组成
量Redis让流量变货币（redis能存流）
已成功刷新dns解析缓存后怎么操作_刷新dns缓存的命令
《智慧城市时空大数据平台建设技术大纲（2019版）》解析——未完，待续
Firefox 中国版
Linux发展史：从分支到前沿（linux的分支）
120Hz全视屏+66W超级快充荣耀X20为口碑长城继续添砖加瓦

zl程序教程

当前栏目

大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂]

相关文章