使用python操作hdfs,并grep想要的数据
2023-09-14 09:11:51 时间
代码如下:
import subprocess for day in range(24, 30): for h in range(0, 24): filename = "tls-metadata-2018-10-%02d-%02d.txt" % (day, h) cmd = "hdfs dfs -text /data/2018/10/%02d/%02d/*.snappy" % (day, h) print(cmd) #cmd = "cat *.py" cmd = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE) f = open(filename, "w") for line in cmd.stdout: try: arr = line.split("^") if len(arr) >= 120 and arr[6] == "6" and arr[25] == "SSL" and arr[107]: #print(line) f.write("^".join(arr[:32]) + "^" + arr[95] + "^" + "^".join(arr[105:119])+ "\n") except Exception as e: print(e, "fuck error", line) f.close() #import sys #sys.exit(0)
相关文章
- python 取两数的百分比
- Atittit HDFS hadoop 大数据文件系统java使用总结 目录 1. 操作系统,进行操作1 2. Hdfs 类似nfs ftp远程分布式文件服务2 3. 启动hdfs服务start
- Python:数据类型转换之将Scikit-learn的Bunch数据类型转换为Pandas的DataFrame类型案例及代码实现
- Python编程语言学习:python中与数字相关的函数(取整等)、案例应用之详细攻略
- Python之多线程:python多线程设计之同时执行多个函数命令详细攻略
- 零基础学Python(第十九章 File操作·IO流补充章节)
- 100天精通Python(数据分析篇)——第76天:Pandas数据类型转换函数pd.to_numeric(参数说明+实战案例)
- 已解决2.Set PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python (but this will use pure-Python parsing and wi
- 教你Python字符串的基本操作:拆分和连接
- Python实现KNN(K近邻)分类模型(KNeighborsClassifier算法)并应用网格搜索算法寻找最优参数值以及数据标准化均衡化项目实战
- 【华为OD机试 2023】快递投放问题(C++ Java JavaScript Python)
- Python中的魔术(双下划线'__xxx__')方法详解
- python web py入门(46)- jQuery 事件 - $( document ).ready与$( window ).on( "load"的区别
- 【Leetcode刷题Python】剑指 Offer 30. 包含min函数的栈
- 【python】Python实现网络爬虫demo实例
- Python实时垃圾分类系统(环境教程&完整源码&数据集)