zl程序教程

您现在的位置是:首页 >  其他

当前栏目

对于一般大数据物流项目的面试题(问题+答案)

面试题项目数据 答案 对于 一般 物流 问题
2023-09-27 14:27:52 时间

1、数据采集如何完成

OGG 不要涉及,Oracle DBA完成
Canal数据采集,一定知道高可用HA集群模式

2、数据量大小

Kafka topic 数据存储生命周期(多久)
7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数
分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。
分区数一般设置为:3-10 个

副本数设定
一般我们设置成 2 个或 3 个,很多企业设置为 2 个。

多少个 Topic
通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置
Kafka 机器数量=2*(峰值生产速度*副本数/100)+1

3、实时增量ETL程序开发,为什么选择使用StructuredStreaming??

从Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;Structured streaming是给人设计的API,简单易用。由于太忙,所以一直没有在官方文档上 更新说明信息

4、消费Kafka数据几种方式及区别,如何保存偏移量?

SparkStreaming Checkpoint或自己管理
StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储,不使用HBase??

数据库【数据上的快速分析】
当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库(OLAP)里。发现对于实时性和变更性的需求, 目前只有 Kudu 一种组件能够满足需求
两者区别??

Kudu中数据读写流程
在这里插入图片描述
在这里插入图片描述

Kudu如何存储数据,每个表分区策略???

Kudu使用注意事项:
Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别

RDD叫做弹性分布式数据集
与RDD类似,DataFrame是一个分布式数据容器,但是DataFrame不是类型安全的。
DataSet是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点

RDD 特性有哪些??你是如何理解RDD的???
RDD是分布式弹性数据集,
为什么Spark计算比较快,与MapReduce相比较优势是什么??
基于内存计算
SparkSQL中优化有哪些???使用常见函数有哪些???
能介绍下你所知道和使用过的Spark调优吗?

资源参数调优

  • num-executors:设置Spark作业总共要用多少个Executor进程来执行
  • executor-memory:设置每个Executor进程的内存
  • executor-cores:设置每个Executor进程的CPU core数量
  • driver-memory:设置Driver进程的内存
  • spark.default.parallelism:设置每个stage的默认task数量

开发调优

  1. 避免创建重复的RDD
  2. 尽可能复用同一个RDD
  3. 对多次使用的RDD进行持久化
  4. 尽量避免使用shuffle类算子
  5. 使用map-side预聚合的shuffle操作
  6. 使用高性能的算子

①使用reduceByKey/aggregateByKey替代groupByKey

②使用mapPartitions替代普通map

③使用foreachPartitions替代foreach

④使用filter之后进行coalesce操作

⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作

  1. 广播大变量

在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收),都会极大地影响性能。

  1. 使用Kryo优化序列化性能
  2. 优化数据结构

在可能以及合适的情况下,使用占用内存较少的数据结构,但是前提是要保证代码的可维护性。

7、Impala 分析引擎

Impala架构,实现目的,目前架构如何
在这里插入图片描述

Hue与Impala集成

8、离线数仓

数仓分层如何划分呢???为什么要划分??为什么要如此设计???
ODS DWD层 DWS层 经过数据清洗后的数据无需中间层预聚合因此直接到DWS层

雪花模型和星型模型区别是什么????

雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心,多个维度表环绕周围,雪花模型是它的延伸

9、ClickHouse 为什么选择,有哪些优势??

查询速度超快
适合业务场景

10、SparkSQL外部数据源实现(难点)

Kudu +ES +Ck

12、业务线:你完成什么,你做了什么,你遇到什么问题,你是如何解决的????

离线数仓采用的的技术是kudu+SparkSql离线计算,使用azkaban进行定时调度;也使用了kudu和
impala进行即席查询,数仓分为三层,第一层: ODS 层,原始数据存储层、第二层: DWD 层,数据仓库明细层、第三层: DWS
层,数据服务层。 每个主题报表开发,分为三层管理数据,其中DWD层和DWS层需要编写SparkSQL程序,业务处理: DWD层程序开发:
从Kudu表加载ODS层事实表数据和维度表数据,按照关联字段,进行拉宽操作,最后存储到 Kudu表 技术: Kudu -> SparkSQL
-> Kudu DWS层程序开发: 从Kudu表加载DWD层宽表数据,按照指标需要进行计算,最终存储到Kudu表中,以便使用 技术: Kudu -> SparkSQL -> Kudu

对整个物流离线数仓共分为5个主题开发: 主题:快递单主题、运单主题、仓库主题、车辆主题、用户主题

快递单主题: 快递单数:总快递单数 最大/最小/平均快递单数:
这三个指标分别从各类客户、各渠道、各网点、各终端,4个维度分析事实表:快递单表
维度表:客户表、快递员表、包裹表、网点表、公司网点关联表、公司表、区域表、客户地址关联 表、客户地址表、字典表