您现在的位置是：首页 > 后端

当前栏目

pandas读取大量数据的分块处理

pandas 数据处理读取大量分块

2023-09-14 08:56:57 时间

数据分块

csv 格式是一种易储存，易更改并且用户易读取的格式。 pandas 有read_csv ()方法来上传数据，存储为CSV 格式。当遇到CSV 文件过大，导致内存不足的问题该怎么办呢？试试强大的pandas 工具吧！我们先把整个文件拆分成小块。这里，我们把拆分的小块称为chunk。

一个chunk 就是我们数据的一个小组。 Chunk 的大小主要依据我们内存的大小，自行决定。

过程如下：

1.读取一块数据。

2.分析数据。

3.保存该块数据的分析结果。

4.重复1-3步骤，直到所有chunk 分析完毕。

5.把所有的chunk 合并在一起。

1、指定chunksize分块读取文件

read_csv 和 read_table 有一个 chunksize 参数，用以指定一个块大小(每次读取多少行)，返回一个可迭代的 TextFileReader 对象。
代码如下：

table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000)
df_list=[]
for df in table:
    #1.对每一个分块df处理
    #2.添加每一个df(df_list.apend(df))
    #print(type(df),df.shape)打印看一下信息
df = pd.concat(df_list, ignore_index=True)

2、指定iterator=True

iterator=True同样返回的是TextFileReader对象

import pandas as pd

f = open('./data/ows-raw.txt',encoding='utf-8')
reader = pd.read_table(f, sep=',', iterator=True, error_bad_lines=False) #跳过报错行
loop = True
chunkSize = 1000
chunks = []
while loop:
　　try:
　　　　chunk = reader.get_chunk(chunkSize)
　　　　chunks.append(chunk)
　　except StopIteration:
　　　　loop = False
　　　　print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)

猜你喜欢

Spring Boot 2.x ：通过 spring-boot-starter-hbase 集成 HBase
探索Linux包管理系统中的分类类型（linux包的类型）
PHP实现邮件群发的源码
springboot+idea热部署(自动刷新)
利用SQL注入漏洞实现MySQL数据库读写文件
MySQL数据库的优势比较（mysql 数据库对比）
ORA-02454: Number of hash keys per block (string) exceeds maximum of string ORACLE 报错故障修复远程处理
利用Redis进行高效查询：使用hset命令快速查询数据（redis查询hset）
木仓科技驾考宝典赴卫辉支援，“豫”你同行救灾助力重建
深入eAccelerator与memcached的区别详解
centos安装mysql客户端安装_CENTOS安装MYSQL
Linux系统中使用bzip2的优势（bzip2linux）
单红色美味Redis菜单（redis菜）
ORA-38735: Wrong log number string in flashback log file header. ORACLE 报错故障修复远程处理
asp.net字符串处理类代码
给Mac OS操作系统添加粘贴快捷功能（macos 粘贴）
蓝桥杯算法提高数的划分（图解DFS +DP）------------C语言—菜鸟级
NLM6XX系列无线无源采发仪的工作模式
Redis数据库出错排查和解决方案（数据库redis 报错）
MySQL Error number: MY-010473; Symbol: ER_KILLED_THREADS_OF_PLUGIN; SQLSTATE: HY000 报错故障修复远程处理

相关主题

Pandas数据合并
pandas基础
Pandas
numpy/pandas
pandas.Series
Pandas中的10种索引
10个Pandas的小技巧
精通 Pandas：6~11
Pandas（四）数据清洗
【pandas】数据去重
Pandas 数据清洗
元数据元数据
pandas数据清洗
python pandas
pandas 基础
Pandas python
python-Pandas库

zl程序教程

当前栏目

pandas读取大量数据的分块处理

数据分块

1、指定chunksize分块读取文件

2、指定iterator=True

相关文章