您现在的位置是：首页 > 其他

当前栏目

对于一般大数据物流项目的面试题(问题+答案)

面试题项目数据答案对于一般物流问题

2023-09-27 14:27:52 时间

文章目录

1、数据采集如何完成

OGG 不要涉及，Oracle DBA完成
Canal数据采集，一定知道高可用HA集群模式

2、数据量大小

Kafka topic 数据存储生命周期（多久）
7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数
分区数并不是越多越好，一般分区数不要超过集群机器数量。分区数越多占用内存越大（ISR 等），一个节点集中的分区也就越多，当它宕机的时候，对系统的影响也就越大。
分区数一般设置为：3-10 个

副本数设定
一般我们设置成 2 个或 3 个，很多企业设置为 2 个。

多少个 Topic
通常情况：多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置
Kafka 机器数量=2*（峰值生产速度*副本数/100）+1

3、实时增量ETL程序开发，为什么选择使用StructuredStreaming？？

从Spark-2.X版本后，Spark streaming就进入维护模式，Spark streaming是低阶API，给码农用的，各种坑；Structured streaming是给人设计的API，简单易用。由于太忙，所以一直没有在官方文档上更新说明信息

4、消费Kafka数据几种方式及区别，如何保存偏移量？

SparkStreaming Checkpoint或自己管理
StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储，不使用HBase？？

数据库【数据上的快速分析】
当数据量级起来以后，会发现数据库吃不消了或者成本开销太大了，此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来，装入一个分析型的数据库（OLAP）里。发现对于实时性和变更性的需求，目前只有 Kudu 一种组件能够满足需求
两者区别？？

Kudu中数据读写流程
在这里插入图片描述

Kudu如何存储数据，每个表分区策略？？？

Kudu使用注意事项:
Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别

RDD叫做弹性分布式数据集
与RDD类似，DataFrame是一个分布式数据容器，但是DataFrame不是类型安全的。
DataSet是DataFrame API的一个扩展，是Spark最新的数据抽象，结合了RDD和DataFrame的优点

RDD 特性有哪些？？你是如何理解RDD的？？？
RDD是分布式弹性数据集,
为什么Spark计算比较快，与MapReduce相比较优势是什么？？
基于内存计算
SparkSQL中优化有哪些？？？使用常见函数有哪些？？？
能介绍下你所知道和使用过的Spark调优吗?

资源参数调优

num-executors：设置Spark作业总共要用多少个Executor进程来执行
executor-memory：设置每个Executor进程的内存
executor-cores：设置每个Executor进程的CPU core数量
driver-memory：设置Driver进程的内存
spark.default.parallelism：设置每个stage的默认task数量
…

开发调优

避免创建重复的RDD
尽可能复用同一个RDD
对多次使用的RDD进行持久化
尽量避免使用shuffle类算子
使用map-side预聚合的shuffle操作
使用高性能的算子

①使用reduceByKey/aggregateByKey替代groupByKey

②使用mapPartitions替代普通map

③使用foreachPartitions替代foreach

④使用filter之后进行coalesce操作

⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作

广播大变量

在算子函数中使用到外部变量时，默认情况下，Spark会将该变量复制多个副本，通过网络传输到task中，此时每个task都有一个变量副本。如果变量本身比较大的话（比如100M，甚至1G），那么大量的变量副本在网络中传输的性能开销，以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收)，都会极大地影响性能。

使用Kryo优化序列化性能
优化数据结构

在可能以及合适的情况下，使用占用内存较少的数据结构，但是前提是要保证代码的可维护性。

7、Impala 分析引擎

Impala架构，实现目的，目前架构如何
在这里插入图片描述

Hue与Impala集成

8、离线数仓

数仓分层如何划分呢？？？为什么要划分？？为什么要如此设计？？？
ODS DWD层 DWS层经过数据清洗后的数据无需中间层预聚合因此直接到DWS层

雪花模型和星型模型区别是什么？？？？

雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心，多个维度表环绕周围,雪花模型是它的延伸

9、ClickHouse 为什么选择，有哪些优势？？

查询速度超快
适合业务场景

10、SparkSQL外部数据源实现（难点）

Kudu +ES +Ck

12、业务线：你完成什么，你做了什么，你遇到什么问题，你是如何解决的？？？？

离线数仓采用的的技术是kudu+SparkSql离线计算，使用azkaban进行定时调度；也使用了kudu和
impala进行即席查询,数仓分为三层，第一层： ODS 层，原始数据存储层、第二层： DWD 层，数据仓库明细层、第三层： DWS
层，数据服务层。每个主题报表开发，分为三层管理数据，其中DWD层和DWS层需要编写SparkSQL程序，业务处理： DWD层程序开发：
从Kudu表加载ODS层事实表数据和维度表数据，按照关联字段，进行拉宽操作，最后存储到 Kudu表技术： Kudu -> SparkSQL
-> Kudu DWS层程序开发：从Kudu表加载DWD层宽表数据，按照指标需要进行计算，最终存储到Kudu表中，以便使用技术： Kudu -> SparkSQL -> Kudu

对整个物流离线数仓共分为5个主题开发：主题：快递单主题、运单主题、仓库主题、车辆主题、用户主题

快递单主题：快递单数：总快递单数最大/最小/平均快递单数：
这三个指标分别从各类客户、各渠道、各网点、各终端，4个维度分析事实表：快递单表
维度表：客户表、快递员表、包裹表、网点表、公司网点关联表、公司表、区域表、客户地址关联表、客户地址表、字典表

猜你喜欢

深入浅出过滤器模式
微信支付限额问题最详细解答
PostgreSQL的PITR中，对 unfilled wal log 如何处理为好
Flink 流批一体方案在数禾的实践
c# 深拷贝各种实现方式
窃贼问题
云翼计划三重福利周：9.9元/月购买特权，佳能单反相机和云栖大会T恤等你来抢
双绞线的性能指标
用 Aptik 备份你的 Linux 桌面的应用和设置
【STM32平衡小车】电磁巡线归一化算法（二）
实战 | 基于JMeter 完成典型电商场景(首页浏览)的性能压测
基于XCode IOS开发系统实现的新闻APP【100010688】
移动Web UI库（H5框架）
(尚009)Vue列表渲染
Entity Framework—配置文件设置
学习python的几个资料网站
Java学习-029-JSON 之三 -- 模仿 cssSelector 封装读取 JSON 数据方法
MyBatis 基础搭建及架构概述

相关主题

JavaScript面试题
面试题（四）
软件测试经典面试题
MySQL 面试题
华为面试题

zl程序教程