[python][spark]wholeTextFiles 读入多个文件的例子
$pwd
/home/training/mydir
$cat file1.json
{
"firstName":"Fred",
"lastName":"Flintstone",
"userid":"123"
}
$cat file2.json
{
"firstName":"Barney",
"lastName":"Rubble",
"userid":"123"
}
[training@localhost ~]$ hdfs dfs -put /home/training/mydir
[training@localhost ~]$
[training@localhost ~]$ hdfs dfs -ls
Found 4 items
drwxrwxrwx - training supergroup 0 2017-09-23 19:26 .sparkStaging
-rw-rw-rw- 1 training supergroup 48 2017-09-25 05:31 cats.txt
drwxrwxrwx - training supergroup 0 2017-09-25 15:39 mydir ***
-rw-rw-rw- 1 training supergroup 34 2017-09-23 06:16 test.txt
[training@localhost ~]$
myrdd1 = sc.wholeTextFiles("mydir")
myrdd1.count()
Out[32]: 2
In [35]: myrdd1.take(2)
Out[35]:
[(u'hdfs://localhost:8020/user/training/mydir/file1.json',
u'{\n "firstName":"Fred",\n "lastName":"Flintstone",\n "userid":"123"\n}\n'),
(u'hdfs://localhost:8020/user/training/mydir/file2.json',
u'{\n "firstName":"Barney",\n "lastName":"Rubble",\n "userid":"456"\n}\n')]
相关文章
- 第三百三十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式
- Python MySQLdb模块连接操作mysql数据库实例_python
- python 下载.whl 文件,查看已安装软件包方法
- python实现在目录中查找指定文件的方法
- 使用python selenium webdriver模拟浏览器
- 【Python五篇慢慢弹(4)】模块异常谈python
- Python - 利用pip管理包
- paip.字符串操作uapi java php python总结..
- 华为OD机试 - 区块链文件转储系统(Java & JS & Python)
- Python语言编程学习:利用python输出当前python版本、MSC版本型号
- 〖Python零基础入门篇(54)〗- 文件的应用-序列化与反序列化
- 我想带你去浪漫的土耳其(Python&Matlab实现)
- python图像变形
- Python数据分析机器学习深度学习:从入门到项目实战
- python快速读取非常大的文件
- python sys.stdin、sys.stdout和sys.stderr
- Python使用技巧(五):快速解决安装python-lxml模块库报错问题并简单使用
- python基础===jieba模块,Python 中文分词组件
- Spark实战(四)spark+python快速入门实战小例子(PySpark)
- Python: openstack: nova 结果去除空格
- 〖Python全栈白宝书-免费版㉙〗- Python中的流程控制与条件判断
- 第27讲:Python前导字符串和后续字符串的去除