前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >记一次知名地信企业投标数据清洗

记一次知名地信企业投标数据清洗

作者头像
陈南GISer
发布2022-12-23 09:19:49
3860
发布2022-12-23 09:19:49
举报
文章被收录于专栏:点点GIS点点GIS

记一次知名地信企业投标数据清洗

最近整理了一下业内测绘地信知名厂商的招投标数据

数据来源一般为天眼查和企查查,天眼查会员可以直接导出excel表格格式的企业投标数据;企查查每天导出只能有500条,多了要收费,针对企查查数据的获取方式我选择的是爬虫爬取

总体来说获取数据并不是很难,难点在于数据清洗。两种数据都很“脏”,重复项过多,数据空值很多等等。这里以天眼查导出的数据为例

在中标金额和供应商,省份等不同字段存在不同程度的空缺,还存在未中标数据等情况。针对对金额空值问题,存在未中标数据等问题采用excel中的筛选功能对其进行剔除

对省份,招采人字段存在空值的问题采用excel筛选功能进行筛选,然后百度搜索查找进行人工填充,一般企查查可以直接搜索招投标数据,但也存在找不到的情况,这是无法避免的

接下来是进行数据去重,数据去重操作采用pandas进行数据处理,筛选原则为仅保留第一次出现的 “时间”和”中标金额“相同】的行

代码如下

代码语言:javascript
复制
import pandas as pd 

#导入数据
lujing = 'C:/Users/【天眼查】招投标数据-北京超图软件股份有限公司.xlsx'
demo = pd.read_excel(lujing)
demo.head()

#显示未进行去重前行数
demo.shape

#对["采购人","中标金额"]字段相同的数据去重,并覆盖原数据
demo.drop_duplicates(subset=["采购人","中标金额"],keep="first",inplace=True)

#显示进行去重后的行数
demo.shape

#保存文件到新的表格中
demo.to_excel('超图软件.xlsx')

关于这部分去重代码的讲解可以查看下面的文章

代码语言:javascript
复制
https://blog.csdn.net/weixin_44943394/article/details/103930179

感谢【公众号:数据处理与分析】 的号主青青 和 热心群友 对我的指导

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点点GIS 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 代码如下
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档