记一次知名地信企业投标数据清洗
2023-02-18 16:39:23 时间
记一次知名地信企业投标数据清洗
最近整理了一下业内测绘地信知名厂商的招投标数据
数据来源一般为天眼查和企查查,天眼查会员可以直接导出excel表格格式的企业投标数据;企查查每天导出只能有500条,多了要收费,针对企查查数据的获取方式我选择的是爬虫爬取
总体来说获取数据并不是很难,难点在于数据清洗。两种数据都很“脏”,重复项过多,数据空值很多等等。这里以天眼查导出的数据为例
在中标金额和供应商,省份等不同字段存在不同程度的空缺,还存在未中标数据等情况。针对对金额空值问题,存在未中标数据等问题采用excel中的筛选功能对其进行剔除
对省份,招采人字段存在空值的问题采用excel筛选功能进行筛选,然后百度搜索查找进行人工填充,一般企查查可以直接搜索招投标数据,但也存在找不到的情况,这是无法避免的
接下来是进行数据去重,数据去重操作采用pandas进行数据处理,筛选原则为仅保留第一次出现的 “时间”和”中标金额“相同】的行
代码如下
import pandas as pd
#导入数据
lujing = 'C:/Users/【天眼查】招投标数据-北京超图软件股份有限公司.xlsx'
demo = pd.read_excel(lujing)
demo.head()
#显示未进行去重前行数
demo.shape
#对["采购人","中标金额"]字段相同的数据去重,并覆盖原数据
demo.drop_duplicates(subset=["采购人","中标金额"],keep="first",inplace=True)
#显示进行去重后的行数
demo.shape
#保存文件到新的表格中
demo.to_excel('超图软件.xlsx')
关于这部分去重代码的讲解可以查看下面的文章
https://blog.csdn.net/weixin_44943394/article/details/103930179
感谢【公众号:数据处理与分析】 的号主青青 和 热心群友 对我的指导
相关文章
- Autodesk Maya 2023 for Mac(玛雅三维动画制作软件) 中文版
- Flame 2023 for mac(3D视觉特效剪辑合成软件)
- 怎么快速 把一个 监听事件 变成 一个 内部类 在编程一个新的 java文件
- 关于安装APK到Genymation 模拟器报 install failed cpu abi incompatible
- adb出错 adb not responding 解决方法
- Error:Execution failed for task ':app:packageDebug'. > Duplicate files copied in APK META-INF/LICENS
- 仿QQ6.1手势锁
- 当expandlistview的getGroupView或者getChildView中包含checkbox时,前者点击不可用
- 1.怎样徒手写一个React
- SaaS是什么?企业采购SaaS有什么好处?
- java处理保留小数点后几位
- String、StringBuffer、StringBuilder的区别
- ScrollView嵌套listview、gradview等 嵌套时显示问题的解决办法
- 严守看门人职责,抖音用科技让世界杯更安全
- 优思学院|六西格玛管理六步法的迷思和正解
- 如何制作gif图片?如何制作你项目的动态效果图到你的csdn?
- 高可用架构和系统设计经验
- 我终于统一了团队的技术方案设计模板
- SVN提示locked解决办法
- Edittext In Listview,当listview的item中有edittext时,怎么保存edittext的值?