Do You Know ETL ?
you Do ETL Know
2023-09-14 09:02:09 时间
ETL是数据的提取、转换和加载;
ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。
MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。
MapReduce里内置了两个主要的处理
ETL 为什么经常变成 ELT 甚至 LET? ETL是将数据从来源端经过清洗(extract)、转换(transform)、加载(load)至目的端的过程。正常的 ETL 过程应当是 E、T、L 这三个步骤逐步进行,也就是先清洗转换之后再加载进目标端(通常是数据库),最后在数据库中的只是合理的结果数据。这个过程本来很合理,但实际过程中经常被执行成ELT甚至LET,即源端数据先装载进目标库再进行清洗和转换。
Flink CDC 如何简化实时数据入湖入仓 本文整理自云邪、雪尽在 Flink Forward Asia 2021 的分享,该分享以 5 个章节详细介绍如何使用 Flink CDC 来简化实时数据的入湖入仓, 文章的主要内容如下: 1. Flink CDC 介绍 2. Flink CDC 的核心特性 3. Flink CDC 的开源生态 4. Flink CDC 在阿里巴巴的实践与改进 5. Flink CDC 的未来规划
ETL是数据的提取、转换和加载;
ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。
MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。
MapReduce里内置了两个主要的处理过程:映射过程“map”以及归纳过程“reduce”,这就是MapReduce的名字来源。MapReduce会在一系列的工作节点上并发执行这些处理过程,会把数据分配到不同通用设备上运行处理。每一个MapReduce节点都会使用同样的代码对自己的管理的那部分数据进行处理。MapReduce里的节点之间不会发生信息的交互,甚至不知道彼此的存在,这是它和MPP系统的区别。
MapReduce环境的一个突出特点是处理各种非结构化文本的能力。MapReduce的核心理念是,让许多机器一起来共同承担海量数据带来的处理压力,当数据的处理逻辑可以在不同的数据子集上独立进行时,使用MapReduce进行并处理可以先出提升处理速度。
ETL 为什么经常变成 ELT 甚至 LET? ETL是将数据从来源端经过清洗(extract)、转换(transform)、加载(load)至目的端的过程。正常的 ETL 过程应当是 E、T、L 这三个步骤逐步进行,也就是先清洗转换之后再加载进目标端(通常是数据库),最后在数据库中的只是合理的结果数据。这个过程本来很合理,但实际过程中经常被执行成ELT甚至LET,即源端数据先装载进目标库再进行清洗和转换。
Flink CDC 如何简化实时数据入湖入仓 本文整理自云邪、雪尽在 Flink Forward Asia 2021 的分享,该分享以 5 个章节详细介绍如何使用 Flink CDC 来简化实时数据的入湖入仓, 文章的主要内容如下: 1. Flink CDC 介绍 2. Flink CDC 的核心特性 3. Flink CDC 的开源生态 4. Flink CDC 在阿里巴巴的实践与改进 5. Flink CDC 的未来规划
相关文章
- not for you什么意思_issue to
- What Should You Expect from ChatGPT
- S2 - Lesson 41 - Do you call that a hat?
- 解决:Gitlab上出现“You won‘t be able to pull or push project code via SSH until you add an SSH key to you(
- 【Google Play】声明广告权限 ( you must declare the AD_ID Permission when your app targets Android 13 )
- 【错误记录】Android Studio 编译报错 ( Android Gradle plugin requires Java 11 to run. You are currently using )
- ORA-01969: You must specify RESETLOGS or NORESETLOGS ORACLE 报错 故障修复 远程处理
- MTTR Oracle: What You Need to Know(mttroracle)
- 智能硬件的隐私政策,Are you OK?