记一次知名地信企业投标数据清洗
2023-06-13 09:16:09 时间
记一次知名地信企业投标数据清洗
最近整理了一下业内测绘地信知名厂商的招投标数据
数据来源一般为天眼查和企查查,天眼查会员可以直接导出excel表格格式的企业投标数据;企查查每天导出只能有500条,多了要收费,针对企查查数据的获取方式我选择的是爬虫爬取
总体来说获取数据并不是很难,难点在于数据清洗。两种数据都很“脏”,重复项过多,数据空值很多等等。这里以天眼查导出的数据为例
在中标金额和供应商,省份等不同字段存在不同程度的空缺,还存在未中标数据等情况。针对对金额空值问题,存在未中标数据等问题采用excel中的筛选功能对其进行剔除
对省份,招采人字段存在空值的问题采用excel筛选功能进行筛选,然后百度搜索查找进行人工填充,一般企查查可以直接搜索招投标数据,但也存在找不到的情况,这是无法避免的
接下来是进行数据去重,数据去重操作采用pandas进行数据处理,筛选原则为仅保留第一次出现的 “时间”和”中标金额“相同】的行
代码如下
import pandas as pd
#导入数据
lujing = 'C:/Users/【天眼查】招投标数据-北京超图软件股份有限公司.xlsx'
demo = pd.read_excel(lujing)
demo.head()
#显示未进行去重前行数
demo.shape
#对["采购人","中标金额"]字段相同的数据去重,并覆盖原数据
demo.drop_duplicates(subset=["采购人","中标金额"],keep="first",inplace=True)
#显示进行去重后的行数
demo.shape
#保存文件到新的表格中
demo.to_excel('超图软件.xlsx')
关于这部分去重代码的讲解可以查看下面的文章
https://blog.csdn.net/weixin_44943394/article/details/103930179
感谢【公众号:数据处理与分析】 的号主青青 和 热心群友 对我的指导
相关文章
- 搭建企业GitLab服务器
- 安全沙箱技术赋能企业共建数字安全生态
- 如何把文件自动上传同步腾讯云企业网盘?
- 为什么企业需要Kaizen?
- 企业如何降本增效
- 降本增效,企业该如何释放数据价值?| Q推荐
- 数据洪流时代,企业如何释放数据价值才能步入发展“快车道”?| Q推荐
- Oracle 1480:实现智能企业数据库管理(oracle1480)
- Oracle CSI:大数据拯救企业数据安全(oraclecsi)
- 驱动企业数字化:Oracle EBS套件(oracleebs套件)
- 实现企业数据梦想: Oracle 服务实例改善企业效率(oracle服务实例)
- Oracle OEM:管理企业数据的全能解决方案(oracleoem)
- Oracle助力企业数据化管理(oracle去掉引号)
- 微软正式推出Windows 365 Cloud PC为企业提供更便捷的始终在线体验
- 微软威胁情报团队分析蠕虫病毒柠檬鸭和柠檬猫 对多国企业造成严重威胁
- 技术MySQL管理与监控技术:高效解决企业数据问题(mysql管理监控)
- 海淀检察院发公告对微信“敲警钟” 平台企业或迎未保“大考”
- 公共sqlserver:推动企业数据智能化管理(公共sqlserver)
- 存储Oracle共享存储保持企业数据同步(oracle共用)
- OACA连接Oracle展现强大企业数据智能处理能力(oaca连接oracle)
- 17002 oracle为企业增添数据优势(17002 oracle)
- Oracle数据库助力企业数据效率提升(oracle 个数据库)
- Oracle ZHS32极致的企业数据库技术(oracle zhs32)
- 优化企业数据Oracle规划实施之道(oracle paln)
- bOracle ISySB让企业拥抱数据之美(oracle issys)
- Oracle Grid实现企业数据库和应用协同运行(oracle gird)
- Oracle12C释放新动力,推进企业数据化之路(oracle12005)
- 视频数据泄露,视觉企业冤不冤?
- 英国初创企业研发“蜻蜓微型无人机”,能用激光消除导弹
- 数据:2021年上半年我国新增电商企业超57万家 同比增长31%