Discretized Streams (DStreams)离散化流
Discretized Stream or DStream is the basic abstraction provided by Spark Streaming. It represents a continuous stream of data(连续的数据流),
either the input data stream received from source(从源接收到的数据流)
, or the processed data stream generated by transforming the input stream(也可以是通过转换输入流生成的已处理数据流).
Internally, a DStream is represented by a continuous series of RDDs
, which is Spark’s abstraction of an immutable, distributed dataset. Each RDD in a DStream contains data from a certain interval.
DStream
:数据流
RDD
:Spark对一个不可变的分布式数据集的抽象,DStream 由一系列的RDD组成,每个RDD在DStream 是包含特定间隔的数据
Any operation applied on a DStream translates to operations on the underlying RDDs(应用于数据流的任何操作都会转换为底层RDD上的操作)
. For example, in the earlier example of converting a stream of lines to words, the flatMap
operation is applied on each RDD in the lines DStream to generate the RDDs of the words DStream.
对DStream操作算子,比如map/ flatMap,其实底层会被翻译为对DStream中的每个RDD都做相同操作,
因为一个DStream是由不同批次的RDD所构成的。
相关文章
- 对于特征离散化,特征交叉,连续特征离散化的解释
- NLP:自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是“数字化”)的简介、四大类方法(基于规则/基于统计,离散式【one-hot、BOW、TF-IDF】/分布式)之详细攻略
- DataScience:机器学习中特征工程之连续型变量离散化—变量分箱的简介、常用方法、案例应用(评分卡模型为例)之详细攻略
- 离散粒子群算法(DPSO)求解路径规划(Matlab代码实现)
- 线段树区间更新,区间统计+离散化 POJ 2528 Mayor's posters
- 2.7 离散对数-小步大步算法
- 【数字信号处理】离散时间系统 ( 离散时间系统概念 | 线性时不变系统 LTI - Linear time-invariant )
- 【数字信号处理】离散时间信号 ( 离散时间信号知识点 | 信号定义 | 信号分类 | 根据确定性分类 | 根据周期性分类 | 根据离散型分类 )
- 【数字信号处理】离散时间信号 ( 模拟信号、离散时间信号、数字信号 | 采样导致时间离散 | 量化导致幅度离散 )
- 【MATLAB】进阶绘图 ( Stairs 阶梯图 | stairs 函数 | Stem 离散序列数据图 | stem 函数 | 正弦函数采样 )
- HotSpot关联规则算法(2)-- 挖掘连续型和离散型数据
- 1034. Head of a Gang (30) -string离散化 -map应用 -并查集
- 离散label的优化trick
- 组态离散量报警练习题
- 银行排队模拟(离散事件模拟)
- 基于改进的离散PSO算法的FJSP的研究(Python代码实现)
- 【线代&NumPy】第十一章 - 正交性2课后练习 | 离散傅里叶变换 | 逆离散傅里叶变换 | 简述并提供代码