zl程序教程

您现在的位置是:首页 >  Java

当前栏目

记一次知名地信企业投标数据清洗

2023-02-18 16:39:23 时间

记一次知名地信企业投标数据清洗

最近整理了一下业内测绘地信知名厂商的招投标数据

数据来源一般为天眼查和企查查,天眼查会员可以直接导出excel表格格式的企业投标数据;企查查每天导出只能有500条,多了要收费,针对企查查数据的获取方式我选择的是爬虫爬取

总体来说获取数据并不是很难,难点在于数据清洗。两种数据都很“脏”,重复项过多,数据空值很多等等。这里以天眼查导出的数据为例

在中标金额和供应商,省份等不同字段存在不同程度的空缺,还存在未中标数据等情况。针对对金额空值问题,存在未中标数据等问题采用excel中的筛选功能对其进行剔除

对省份,招采人字段存在空值的问题采用excel筛选功能进行筛选,然后百度搜索查找进行人工填充,一般企查查可以直接搜索招投标数据,但也存在找不到的情况,这是无法避免的

接下来是进行数据去重,数据去重操作采用pandas进行数据处理,筛选原则为仅保留第一次出现的 “时间”和”中标金额“相同】的行

代码如下

import pandas as pd 

#导入数据
lujing = 'C:/Users/【天眼查】招投标数据-北京超图软件股份有限公司.xlsx'
demo = pd.read_excel(lujing)
demo.head()

#显示未进行去重前行数
demo.shape

#对["采购人","中标金额"]字段相同的数据去重,并覆盖原数据
demo.drop_duplicates(subset=["采购人","中标金额"],keep="first",inplace=True)

#显示进行去重后的行数
demo.shape

#保存文件到新的表格中
demo.to_excel('超图软件.xlsx')

关于这部分去重代码的讲解可以查看下面的文章

https://blog.csdn.net/weixin_44943394/article/details/103930179

感谢【公众号:数据处理与分析】 的号主青青 和 热心群友 对我的指导