您现在的位置是：首页 > 后端

当前栏目

pandas DataFrame操作详解大数据

pandas 数据详解操作 dataframe

2023-06-13 09:20:26 时间

d2 = {doc:[txt1, txt2], nid:[100, 200]}#多个成员，字典value的长度相等 df2 = pd.DataFrame(data=d2, columns=(nid, doc)) df2 nid doc 0 100 txt1 1 200 txt2 1.2 add 用于成员追加成份 1.2.1 单成员DataFrame追加

 

 import pandas as pd 

 d = {doc:[txt1], nid:[100]} 

 df = pd.DataFrame(data=d, columns=(nid, doc)) 

 d2 = {doc:[txt2], nid:[200]} 

 nid doc 

0 100 txt1 

 df = df.add(pd.DataFrame(d2)) 

 doc nid 

0 txt1txt2 300

1.2.2 各个成员一起追加

 import pandas as pd 

 d = {doc:[txt1, text3], nid:[100, 300]} 

 df = pd.DataFrame(data=d, columns=(nid, doc)) 

 nid doc 

0 100 txt1 

1 300 text3 

 d2 = {doc:[txt2], nid:[200]} 

 df2 = df.add(pd.DataFrame(d2)) 

 nid doc 

0 100 txt1 

1 300 text3 

 df2 #追加的DataFram成员与原DataFrame成员数相等，出错 

 doc nid 

0 txt1txt2 300.0 

1 NaN NaN 

 d3 = {doc:[txt2, text4], nid:[200, 400]} 

 df3 = df.add(pd.DataFrame(d3)) 

 df3 #追加DataFram成员数与原DataFrame相等，分别追加 

 doc nid 

0 txt1txt2 300 

1 text3text4 700

1.3 append

 import pandas as pd 

 d = {doc:[txt1, text3], nid:[100, 300]} 

 df = pd.DataFrame(data=d, columns=(nid, doc)) 

 d2 = {doc:[txt2], nid:[200]} 

 df = df.append(pd.DataFrame(data=d2, 

 columns=(nid, doc)), 

 ignore_index=True) 

 nid doc 

0 100 txt1 

1 300 text3 

2 200 txt2 

 df.to_csv(p.txt, index=False) #保存为csv文件

1.4 merge 合并

方法原型：
DataFrame.merge(right, how=’inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(‘_x’, ‘_y’), copy=True, indicator=False)[source]

1.4.1 columns完全相同的DataFrame合并

 import pandas as pd 

 d = {doc:[txt1, text3], nid:[100, 300]} 

 df = pd.DataFrame(data=d, columns=(nid, doc)) 

 d2 = {doc:[txt2], nid:[200]} 

 d2 = {doc:[txt2, txt1], nid:[200, 500]} 

 df2 = df.merge(pd.DataFrame(d2, columns=(nid, doc))) 

 df2 

Empty DataFrame 

Columns: [nid, doc] 

Index: [] 

 nid doc 

0 100 txt1 

1 300 text3 

 df2 = df.merge(pd.DataFrame(d2, 

 columns=(nid, doc)), 

 how=outer) #外链的形式 

 df2 

 nid doc 

0 100 txt1 

1 300 text3 

2 200 txt2 

3 500 txt1

1.4.2 column部分相同的DataFrame合并

 import pandas as pd 

 d = {doc:[txt1, text3], nid:[100, 300]} 

 df = pd.DataFrame(data=d, columns=(nid, doc)) 

 d2 = {nid:[200]} #只有一个column相同 

 df2 = df.merge(pd.DataFrame(d2, columns=(nid,)), how=outer) 

 df2 

 nid doc 

0 100 txt1 

1 300 text3 

2 200 NaN

1.4.3 column完全不相同

 import pandas as pd 

 d = {doc:[txt1, text3], nid:[100, 300]} 

 df = pd.DataFrame(data=d, columns=(nid, doc)) 

 df2 = pd.DataFrame() 

 df3 =df2.merge(df, how=outer) 

Traceback (most recent call last): 

 File " stdin ", line 1, in module 

 File "/Library/Python/2.7/site-packages/pandas/core/frame.py", line 4607, in merge 

 copy=copy, indicator=indicator) 

 File "/Library/Python/2.7/site-packages/pandas/tools/merge.py", line 61, in merge 

 copy=copy, indicator=indicator) 

 File "/Library/Python/2.7/site-packages/pandas/tools/merge.py", line 538, in __init__ 

 self._validate_specification() 

 File "/Library/Python/2.7/site-packages/pandas/tools/merge.py", line 883, in _validate_specification 

 raise MergeError(No common columns to perform merge on) 

pandas.tools.merge.MergeError: No common columns to perform merge on

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/9340.html

分布式文件系统，分布式数据库区块链并行处理（MPP）数据库，数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集

猜你喜欢

利用MySQL实现高效关联查询两个数据表（mysql关联两个表）
Linux 下快速拷贝脚本技巧（linux拷贝脚本）
轻松了解Redis配置文件（redis查看配置文件）
实用Linux：轻松掌握常用代码（linux常用代码）
MySQL三表连查高效查询数据的必备技能（mysql三表连查语句）
ORA-44001: invalid schema ORACLE 报错故障修复远程处理
简单理解Java反射机制详解编程语言
实现学习Redis：Java快速入门（redis入门Java）
java Timer（定时调用、实现固定时间执行）详解编程语言
VB如何调用MySQL数据库：快速上手教程（vb调用mysql）
Windows 11硬件要求难倒玩家 TPM 2.0模块价格暴涨3倍
高并发下秒杀商品，你必须知道的9个细节
数据库重构与领域驱动设计
比较：哪个更适合你的企业数据管理需求？（hbase和oracle）
Oracle 10g服务器的端口配置指南（oracle10端口）
到点想下班了，但是代码还没跑完，怎么办？
Linux下快速启动Redis服务（linux启动redis）
数据库锁的12连问，抗住！
优化Oracle查询：去除重复记录（oracle查询去除重复）
重新构建MySQL：获取新特性及更佳性能（mysql重新编译）
arm64架构下MySQL的安装与配置（arm64安装MySQL）

zl程序教程

当前栏目

pandas DataFrame操作详解大数据

相关文章