pandas DataFrame操作详解大数据
2023-06-13 09:20:26 时间
d2 = {doc:[txt1, txt2], nid:[100, 200]}#多个成员, 字典value的长度相等
df2 = pd.DataFrame(data=d2, columns=(nid, doc))
df2
nid doc
0 100 txt1
1 200 txt2
1.2 add 用于成员追加成份
1.2.1 单成员DataFrame追加
import pandas as pd d = {doc:[txt1], nid:[100]} df = pd.DataFrame(data=d, columns=(nid, doc)) d2 = {doc:[txt2], nid:[200]} nid doc 0 100 txt1 df = df.add(pd.DataFrame(d2)) doc nid 0 txt1txt2 3001.2.2 各个成员一起追加
import pandas as pd d = {doc:[txt1, text3], nid:[100, 300]} df = pd.DataFrame(data=d, columns=(nid, doc)) nid doc 0 100 txt1 1 300 text3 d2 = {doc:[txt2], nid:[200]} df2 = df.add(pd.DataFrame(d2)) nid doc 0 100 txt1 1 300 text3 df2 #追加的DataFram成员与原DataFrame成员数相等,出错 doc nid 0 txt1txt2 300.0 1 NaN NaN d3 = {doc:[txt2, text4], nid:[200, 400]} df3 = df.add(pd.DataFrame(d3)) df3 #追加DataFram成员数与原DataFrame相等,分别追加 doc nid 0 txt1txt2 300 1 text3text4 7001.3 append
import pandas as pd d = {doc:[txt1, text3], nid:[100, 300]} df = pd.DataFrame(data=d, columns=(nid, doc)) d2 = {doc:[txt2], nid:[200]} df = df.append(pd.DataFrame(data=d2, columns=(nid, doc)), ignore_index=True) nid doc 0 100 txt1 1 300 text3 2 200 txt2 df.to_csv(p.txt, index=False) #保存为csv文件1.4 merge 合并
方法原型:
DataFrame.merge(right, how=’inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(‘_x’, ‘_y’), copy=True, indicator=False)[source]
import pandas as pd d = {doc:[txt1, text3], nid:[100, 300]} df = pd.DataFrame(data=d, columns=(nid, doc)) d2 = {doc:[txt2], nid:[200]} d2 = {doc:[txt2, txt1], nid:[200, 500]} df2 = df.merge(pd.DataFrame(d2, columns=(nid, doc))) df2 Empty DataFrame Columns: [nid, doc] Index: [] nid doc 0 100 txt1 1 300 text3 df2 = df.merge(pd.DataFrame(d2, columns=(nid, doc)), how=outer) #外链的形式 df2 nid doc 0 100 txt1 1 300 text3 2 200 txt2 3 500 txt11.4.2 column部分相同的DataFrame合并
import pandas as pd d = {doc:[txt1, text3], nid:[100, 300]} df = pd.DataFrame(data=d, columns=(nid, doc)) d2 = {nid:[200]} #只有一个column相同 df2 = df.merge(pd.DataFrame(d2, columns=(nid,)), how=outer) df2 nid doc 0 100 txt1 1 300 text3 2 200 NaN1.4.3 column完全不相同
import pandas as pd d = {doc:[txt1, text3], nid:[100, 300]} df = pd.DataFrame(data=d, columns=(nid, doc)) df2 = pd.DataFrame() df3 =df2.merge(df, how=outer) Traceback (most recent call last): File " stdin ", line 1, in module File "/Library/Python/2.7/site-packages/pandas/core/frame.py", line 4607, in merge copy=copy, indicator=indicator) File "/Library/Python/2.7/site-packages/pandas/tools/merge.py", line 61, in merge copy=copy, indicator=indicator) File "/Library/Python/2.7/site-packages/pandas/tools/merge.py", line 538, in __init__ self._validate_specification() File "/Library/Python/2.7/site-packages/pandas/tools/merge.py", line 883, in _validate_specification raise MergeError(No common columns to perform merge on) pandas.tools.merge.MergeError: No common columns to perform merge on
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/9340.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- 数据透视表上线!如何在纯前端实现这个强大的数据分析功能?
- Python Pandas PK esProc SPL,谁才是数据预处理王者?
- Python报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 3……
- 利用 Pandas 进行分类数据编码的十种方式
- Python处理Excel数据-pandas篇
- 【说站】python Pandas读取数据文件的优点
- pandas的columns函数_python value_counts
- 如何在 Pandas DataFrame中重命名列?
- pandas_VS_Excel提取各班前2名后2名的数据
- pandas无法打开.xlsx文件,xlrd.biffh.XLRDError: Excel xlsx file; not supported
- 使用pandas-profiling对时间序列进行EDA
- pandas.read_csv() 处理 CSV 文件的 6 个有用参数
- 数据导入与预处理-拓展-pandas筛选与修改
- 数据导入与预处理-拓展-pandas可视化
- pandas基础:重命名pandas数据框架列
- Pandas | 数据筛选
- Pandas | 数据统计
- 我有两个pine脚本(tradingview)。我如何才能将脚本转换为Pandas python,以及如何计算人‘pds’。我不需要情节
- pandas作者当年遇到了什么麻烦,才设计出如此糟糕的警告机制
- 快速入门pandas进行数据挖掘数据分析[多维度排序、数据筛选、分组计算、透视表](一)
- 9个value_counts()的小技巧,提高Pandas 数据分析效率
- pandas(八)重塑和轴向旋转详解大数据
- pandas read_csv 错误: pandas.parser.CParserError: Error tokenizing data. C error详解大数据
- 利用Pandas与MSSQL进行数据分析(pandas mssql)