首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一次知名地信企业投标数据清洗

一次知名地信企业投标数据清洗 最近整理了一下业内测绘地信知名厂商招投标数据 数据来源一般为天眼查和企查查,天眼查会员可以直接导出excel表格格式企业投标数据;企查查每天导出只能有500条,多了要收费...这里以天眼查导出数据为例 中标金额和供应商,省份等不同字段存在不同程度空缺,还存在未中标数据等情况。...针对对金额空值问题,存在未中标数据等问题采用excel筛选功能对其进行剔除 对省份,招采人字段存在空值问题采用excel筛选功能进行筛选,然后百度搜索查找进行人工填充,一般企查查可以直接搜索招投标数据...,但也存在找不到情况,这是无法避免 接下来是进行数据去重,数据去重操作采用pandas进行数据处理,筛选原则为仅保留第一次出现 “时间”和”中标金额“相同】 代码如下 import pandas..."],keep="first",inplace=True) #显示进行去重后行数 demo.shape #保存文件到新表格中 demo.to_excel('超图软件.xlsx') 关于这部分去重代码讲解可以查看下面的文章

38620

实战案例 | 财务人员必学数据赋能实战案例:一秒钟对账

我们先看看Python实现逻辑,还是之前例子:我们要看数据有没有重复,就是统计每个数据两个表分别出现次数,然后两个表中个数相减。...04 效果演示 import pandas as pd # 读取公司明细账 df_gs = pd.read_excel('....多' if x['重复次数'] > 1 else '多/错'), axis=1) print('借方-收款出现错误') df_result[['错误原因']] # 列出两张表中具体 # 公司银行存款明细账中...== 27023289.88) ] 05 实操代码 读取两张 Excel数据 import pandas as pd # 读取公司明细账 df_gs = pd.read_excel('....('重复记录/多' if x['重复次数'] > 1 else '多/错'), axis=1) print('借方-收款出现错误') df_result[['错误原因']] # 多/错

62920

FunTester原创文章(升级篇)

不要在遍历时候删除 连开100年会员会怎样 异步查询转同步加redis业务实现BUG分享 Java服务端两个常见并发错误 超大对象导致Full GC超高BUG分享 访问权限导致toString返回空...groovy爬虫练习之——企业信息 httpclient 爬虫实例——爬取三级中学名 电子书网站爬虫实践 groovy爬虫实例——历史上今天 爬取720万条城市历史天气数据 一次失败爬虫 爬虫实践...请求json参数情况下query失效问题 给moco API添加limit功能 给moco API添加random功能 解决moco框架APIcycle方法缺失问题 五代码构建静态博客 moco...工具类 java网格输出类 java使用poi写入excel文档一种解决方案 java使用poi读取excel文档一种解决方案 MongoDB操作类封装 java网格输出类 将json数据格式化输出到控制台...基于DOMXML文件解析类 XML文件解析实践(DOM解析) 基于DOM4JXML文件解析类 构建工具 java和groovy混编Maven项目如何用intellij打包执行jar包 window

3.8K30

全新python高性能excel解析库

同事有一段 python 脚本,里面用 pandas 读取一个几十万行 excel 文件,但是速度实在太慢了。问我有没有什么好办法提升运行速度。如果在几个月以前,就实在没有什么好办法了。...马上升级你 pandas 版本,因为 pandas 2.2 版本,开始引入一个全新 excel 解析引擎库,它不仅仅性能吊打 openpyxl ,并且同时支持一众 excel 格式( xls ,...好消息是,python 也有对应接口库: 更好消息是,pandas 2.2 版本开始,悄悄支持了 calamine 。为什么说"悄悄"?...加载一份 800 多万 feather 文件: 自然不可能全部塞到 excel 里面,就取前 50 万吧: 由于 to excel 仍然使用 openpyxl ,速度可想而知,用了差不多2分钟。...不过有相关经验小伙伴应该知道,加载一个50 万 excel,只要差不多10秒,已经是谢天谢地了。 看看 openpyxl 速度,你能感受到什么是绝望: 白白多出1分钟

47110

分析 Pandas 源码,解决读取 Excel 报错问题

01 — 问题描述 使用 Pandas read_excel 方法读取一个 16 万 Excel 文件报 AssertionError 错误: "/Users/XXX/excel_test/...文件有两种默认格式, Excel 2007 以前,使用扩展名为 .xls 格式文件,这种文件格式是一种特定二进制格式,最多支持 65,536 Excel 97 之前支持最大行数是 16,384...需要注意是,将 .xlsx 格式文件转换为 .xls 格式文件,65,536 和 256 列之后数据都会被丢弃。...Pandas 读取 Excel 文件引擎是 xlrd,xlrd 在读取 Excel 文件,xlrd/xlsx.py(https://github.com/python-excel/xlrd/blob...04 — 使用 Pandas + openpyxl 读取 Excel 文件 首先安装 openpyxl: pip install openpyxl Pandas read_excel 方法中,有

2K20

Python有趣时刻,这些代码让你大呼

分享一个实用问题,用python读取Excel并保存字典,如何做? 下面是该同学问题截图和代码 ? image.png 代码截图是下面这样 ?...我第一眼感受是密密麻麻一大堆,读都不想读 作为一名python开发者,我觉得,一定要领会python编程一些思想,就是简洁,拿我来说,满足基本业务要求和功能要求前提下,我能用一代码解决事情...,一般不会2去写,也就是我想到一个功能,可能更会直接先去想python中有没有那种一代码能解决问题方法,当然该同学问题也不例外 ?...image.png 可能没用过python数据分析pandas同学自然会去用csv模块csv.writer、xlrd之类模块去做,不过这里教给大家更简单方法,2代码就能解决上述需求 导入pandas...包,如果没装的话,pip 进行安装 read_excel读取Excel to_dict : 参数为orient = "records",返回样本列表,每个样本是列表里面的每个元素,列名是键 ?

77310

Python也可以实现Excel“Vlookup”函数?

Excel 如图所示,“测试工资数据.xlsx”表格文件中有两个sheet,其中sheet1是我们数据源区域,而sheet2存储是待查找员工姓名和工资。...一般是匹配条件容易混,如果为FALSE或0,则返回精确匹配,如果找不到,则返回错误值 #N/A。如果 range_lookup 为TRUE或1,函数 VLOOKUP 将查找近似匹配值。...pip install openpyxl openpyxl中,读取已有的Excel文件,使用到是load_workbook类,因此需要提前导入这个类。...那么Excel这种常用函数,Pandas模块自然也是可以轻松搞定了。 ▲《快学Python:自动化办公轻松实战》 Pandas 模块中,调用merge()方法,可以帮助我们实现数据连接。...交互式环境中输入如下命令: import pandas as pd path = "测试工资数据.xlsx" df_1 = pd.read_excel(path, sheet_name = 'Sheet1

2.6K30

分享 Python 常见面试题及答案(下)

应用程序读取数据,一般是先从缓存中读取,如果读取不到或数据已失效,再访问磁盘数据库,并将数据再次写入缓存。...乐观锁,就是很乐观,每次去拿数据时候都认为别人不会修改,所以不会上锁,但是更新时候会判断一下在此期间别人有没有去更新这个数据,可以使用版本号等机制,乐观锁适用于多读应用类型,这样可以提高吞吐量...97、r、r+、rb、rb+文件打开模式区别 模式较多,比较下背背即可 ?...98、Linux命令重定向 > 和 >> Linux 允许将命令执行结果 重定向到一个 文件 将本应显示终端上内容 输出/追加 到指定文件中 > 表示输出,会覆盖文件原有的内容 >> 表示追加,会将内容追加到已有文件末尾...实际中,涉及到登录操作时候,尽量使用HTTPS请求,安全性更好。 108、python中读取Excel文件方法 应用数据分析库pandas ?

1.9K30

Pandas实现分列功能(Pandas读书笔记1)

首先介绍什么是pandas panda我们很熟悉!蠢萌蠢萌,让人想抱起来捏两下国宝! pandas是什么啦!遥英文老师曾讲S是复数意思! 那pandas就是!!!! 好吧!...我自己一数,数了四个小时,一共有57万多行! ? 如何按照K列镇区非重复值拆分为独立文件呢! 方法一:勤劳小蜜蜂! ? 刚刚演示了普通劳动人民是如何按照某列拆分一列!...方法二、Excel达人! Excel强如我!肯定不会手动筛选然后粘贴了!VBA一串代码搞定! 还是直接用强大如我阿凯Excel插件解决问题吧! ?...error代码代表略过有错误 df= pd.read_csv(cf) #读取文件 list_township = df['镇区'].drop_duplicates() #删除镇区重复项drop_duplicates...本期只是解释小编为什么分享pandas,代码只是顺便分享! 后续我们从pandas最基础知识开始分享! 如果你有用Excel处理大数据需求,学习pandas准没有错!

3.5K40

python读excel文件最佳实践?直接请教pandas比gpt还好用

前言 说到 python 读取 excel 文件,网上使用 openpyxl 文章一大堆。我自己很少直接使用 openpyxl,一般使用 pandas 间接使用。...但如果你不希望引入 pandas,该如何轻松使用 openpyxl?到底有没有最佳实践写法? 这好办,今天就带大家看看 pandas 里面,是如何使用 openpyxl 读取 excel 文件。...使用任何能导航代码 ide,我使用是 vscode ,输入 pandas read_excel 方法,按住 ctrl 键,鼠标点击方法,即可进入源码文件。... 612 是什么鬼?通过查 openpyxl 文档,可以知道,原来有些程序(wps?)或库,保存文件时候,会写入关于工作表数据范围最大行和列信息。...此时如果只是正常遍历读取,得到结果是 所以 while 循环就是移除这些多余空单元格 如果这种"假单元格"出现在数据下方: 此时就多了许多空行 所以,pandas 遍历过程中,记录了最后有记录索引

24410

文科生带你学Python|Pandas读取数据

由于pandas名字太长了,每次都输入全称非常麻烦,就好像我们写文章时候经常写:《关于XXXXXXX办法》(以下简称办法)一样。...下面这个就是pandas支持读取文件类型,你能想到pandas都可以,并且读取代码都很好记忆,比如: 读取csv就是pd.read_csv(路径名),读取excel文件就是pd.read_excel...下图以读取excel表为例,展示一下读取excel文件过程: ?...read_excel参数 读取excel文件有很多参数可以用,用好了这些参数可以解决很多问题。 使用help(pd.read_excel)可以查看read_excel对应参数和使用方法及示例。...header参数可以指定表头是哪一,对于开头有空行文件和表头为多行文件非常适用。

67610

【python 问题解决】 ---- ImportError: Missing optional dependency ‘xlrd‘. Install xlrd >= 1.0.0

Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd. 2. 错误截图 3....问题描述 使用pandas.read_excel()函数读取xlsx文件数据,却报错ImportError: Missing optional dependency ‘xlrd’....解决办法一 执行命令 pip install xlrd 安装相应安装包 pip install xlrd 5....解决办法二 执行命令 pip install openpyxl 安装相应安装包 pip install openpyxl 使用openpyxl代替xlrd,读取文件记得指定引擎engine=‘openpyxl...总结 使用方案一需要安装对应版本,因为有的版本xlrd是不能读取xlsx文件; 由于我本地有openpyxl安装包,所以使用是方案二,直接解决了问题;

2.3K10

数据分析从零开始实战 (三)

本系列学习笔记参考书籍:《数据分析实战》托马兹·卓巴斯 一、基本知识概要 1.利用pandas读写Excel文件 2.利用pandas读写XML文件 二、开始动手动脑 1.利用Python读写Excel...读取,利用PandasExcelFile()方法。...# 打开excel文件 excel_file = pd.ExcelFile(rpath_excel) # 读取文件内容 """ ExcelFile对象parse()方法读取指定工作表内容 ExcelFile...传入文件名,先读取文件内容,然后利用parse()函数解析XML,创建一个树状结构并存放在tree变量中,tree对象上调用getroot()方法得到根节点,最后调用iter_records()函数,...保存数据用到了DataFrame对象apply()方法,遍历内部每一,第一个参数xml_encode指定了要应用到每一记录上方法,axis=1表示按处理,默认值为0,表示按列处理。

1.4K30

打破Excel与Python隔阂,xlwings最佳实践

首先打开 myproject.py 文件,自定义一个函数: 1,2:导入需要6-11:加载数据自定义函数,其中逻辑非常简单,使用 pandas 加载数据,返回结果即可 4:@xw.func...打开 Excel 文件 myproject.xlsm(注意要启动宏): xlwings 页中,点击 import Functions 大按钮,意思是"导入 Python 文件函数" 此时我们输入函数公式...首先,我们之所以能在 Excel 上输入公式,出现我们自定义函数,是因为在这个 Excel 文件中,存在 vba 代码,定义了同名方法: 从 vbe 界面中可以看到,当我们点击"导入函数"按钮...中代码: 我们希望返回结果前10 修改后,保存一下此 Python 文件 Excel 上无须点击"导入函数"按钮,只要公式有刷新(比如修改公式引用到单元格值),就能看到最新结果: 只有...- 你会发现即使数据文件就在项目文件夹中,使用相对路径是读取不到文件

5.1K50

深入理解pandas读取excel,txt,csv文件等命令

pandas读取文件官方提供文档 使用pandas读取文件之前,必备内容,必然属于官方文档,官方文档查阅地址 http://pandas.pydata.org/pandas-docs/version...data = pd.read_csv("data.txt",sep="\s+") 读取文件中如果出现中文编码错误 需要设定 encoding 参数 为和列添加索引 用参数names添加列索引,用....png] 还有一个比较坑地方,就是在读取剪切板时候,如果复制了中文,很容易读取不到数据 解决办法 打开site-packages\pandas\io\clipboard.py 这个文件需要自行检索...可接受值是None或xlrd converters 参照read_csv即可 其余参数 基本和read_csv一致 pandas 读取excel文件如果报错,一般处理为 错误为:ImportError...pandas读取文件过程中,最常出现问题,就是中文问题与格式问题,希望当你碰到时候,可以完美的解决。 有任何问题,希望可以评论区给我回复,期待和你一起进步,博客园-梦想橡皮擦

12.1K40

深入理解pandas读取excel,tx

pandas读取文件官方提供文档 使用pandas读取文件之前,必备内容,必然属于官方文档,官方文档查阅地址 http://pandas.pydata.org/pandas-docs/version...data = pd.read_csv("data.txt",sep="\s+") 读取文件中如果出现中文编码错误 需要设定 encoding 参数 为和列添加索引 用参数names添加列索引...还有一个比较坑地方,就是在读取剪切板时候,如果复制了中文,很容易读取不到数据 解决办法 打开site-packages\pandas\io\clipboard.py 这个文件需要自行检索 text...可接受值是None或xlrd converters 参照read_csv即可 其余参数 基本和read_csv一致 pandas 读取excel文件如果报错,一般处理为 错误为:ImportError...pandas读取文件过程中,最常出现问题,就是中文问题与格式问题,希望当你碰到时候,可以完美的解决。 有任何问题,希望可以评论区给我回复,期待和你一起进步,博客园-梦想橡皮擦

6.1K10

使用CSV模块和PandasPython中读取和写入CSV文件

CSV文件将在Excel中打开,几乎所有数据库都具有允许从CSV文件导入工具。标准格式由和列数据定义。此外,每行以换行符终止,以开始下一。同样在行内,每列用逗号分隔。 CSV样本文件。...结果被解释为字典,其中标是键,其他是值。...使用Pandas读取CSV文件 Pandas是一个开源库,可让您使用Python执行数据操作。熊猫提供了一种创建,操作和删除数据简便方法。...仅三代码中,您将获得与之前相同结果。熊猫知道CSV第一包含列名,它将自动使用它们。 用Pandas写入CSV文件 使用Pandas写入CSV文件就像阅读一样容易。您可以在这里说服。...Pandas读取CSV文件绝佳选择。 另外,还有其他方法可以使用ANTLR,PLY和PlyPlus之类库来解析文本文件

19.8K20

Python读取excel三大常用模块到底谁最快,附上详细使用代码

这里一篇文档根本写不下,但是哥想起来若干年前,处理数据时候最大难题就是导入excel数据,因为后来数据清洗,提取都可以一步步来做。...1.pandas matplotlib、numpy、pandas是入行数据分析三个必须掌握基础模块,这里介绍一下用pandas如何导入excel文件。...# 1.导入pandas模块 import pandas as pd # 2.把Excel文件数据读入pandas df = pd.read_excel('Python招聘数据(全).xlsx')...(df.describe()) 其中describe函数可以统计整体工资情况,告诉哥你有没有超过50% ?...3.xlrd xlrd是xlrd&xlwt&xlutils三个库中一个: xlrd:用于读取 Excel 文件;xlwt:用于写入 Excel 文件;xlutils:用于操作 Excel 文件实用工具

78.3K33
领券