[Spark][Python]Mapping Single Rows to Multiple Pairs
Mapping Single Rows to Multiple Pairs
目的:
把如下的这种数据,
Input Data
00001 sku010:sku933:sku022
00002 sku912:sku331
00003 sku888:sku022:sku010:sku594
00004 sku411
转换为这样:
一个Key值,带的这几个键值,分别罗列:
(00001,sk010)
(00001,sku933)
(00001,sku022)
...
(00002,sku912)
(00002,sku331)
(00003,sku888)
这就是所谓的 Mapping Single Rows to Multiple Pairs
步骤如下:
[training@localhost ~]$ vim act001.txt
[training@localhost ~]$
[training@localhost ~]$ cat act001.txt
00001 ku010:sku933:sku022
00002 sku912:sku331
00003 sku888:sku022:sku010:sku594
00004 sku411
[training@localhost ~]$ hdfs dfs -put act001.txt
[training@localhost ~]$
[training@localhost ~]$ hdfs dfs -cat act001.txt
00001 ku010:sku933:sku022
00002 sku912:sku331
00003 sku888:sku022:sku010:sku594
00004 sku411
[training@localhost ~]$
In [6]: mydata01=mydata.map(lambda line: line.split("\t"))
In [7]: type(mydata01)
Out[7]: pyspark.rdd.PipelinedRDD
In [8]: mydata02=mydata01.map(lambda fields: (fields[0],fields[1]))
In [9]: type(mydata02)
Out[9]: pyspark.rdd.PipelinedRDD
In [10]:
In [11]: mydata03 = mydata02.flatMapValues(lambda skus: skus.split(":"))
In [12]: type(mydata03)
Out[12]: pyspark.rdd.PipelinedRDD
In [13]: mydata03.take(1)
Out[13]: [(u'00001', u'ku010')]
相关文章
- 【Python】python 日期操作
- 【Python五篇慢慢弹(4)】模块异常谈python
- python-opencv boundingRect使用注意
- [Python] Pandas load DataFrames
- Spark on k8s: 通过hostPath设置SPARK_LOCAL_DIRS加速Shuffle
- 华为OD机试 - 计算快递主站点(Java & JS & Python)
- Python的IDE:基于Eclipse/MyEclipse软件的PyDev插件配置python的开发环境(不同python项目加载不同版本的python)—从而实现Python编程图文教程之详细攻略
- Python之ffmpeg-python:ffmpeg-python库的简介、安装、使用方法之详细攻略
- Python之tkinter:动态演示调用python库的tkinter带你进入GUI世界(Listbox/Scrollbar)
- Python语言学习:利用python语言实现调用内部命令(python调用Shell脚本)—命令提示符cmd的几种方法
- Python语言学习之常见语句命令那些事:python和常见语句命令(条件语句、pass语句)使用方法之详细攻略
- 成功解决python编程时调用webbrowser.open函数不能自动打开浏览器的网页
- python --> Python初阶 --> 基础语法 --> 条件和分支
- python基础知识之 Python代码规范
- Python实现GWO智能灰狼优化算法优化XGBoost回归模型(XGBRegressor算法)项目实战
- Python爬虫:PyExecJS在python中运行javascript代码
- python字符编码
- Python自动化测试:pytest实现关键字驱动
- Spark实战(七)spark streaming +kafka(Python版)
- Spark实战(六)spark SQL + hive(Python版)
- 【异常】前端ERR! stack Error: Can‘t find Python executable “python“, you can set the PYTHON env variable.
- Python可视化数据分析01、python环境搭建
- 〖Python自动化办公篇㉑〗- python实现邮件自动化 - 定时发送邮件
- Python中if __name__ == ‘__main__‘
- Python .py 文件打包成 .exe 文件(Windows平台,python 3.x)