首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

20个超级实用 Python 自动化办公技巧

本文就给大家介绍几个我用到办公室自动化技巧: 1、Word文档docdocx 去年想参赛一个数据比赛, 里面的数据都是doc格式, 想用python-docx 读取word文件中数据, 但是python-docx...i行,第2地址(索引为1)转换为经纬度,并将经度赋值给第i行,第3(索引为2) data.iloc[i,3] = getlnglat(data.iloc[i,1])[1] #...只能docx文件,doc文件会报错, 工具包安装 pip install docx2pdf 6.1 导入工具包 # 安装工具包: # 导入工具包 from docx2pdf import convert..._cells cells_lis = [[cell.text for cell in cells]] import pandas as pd import numpy as np datai = pd.DataFrame...data1 = pd.DataFrame(lis1,columns=['日期','品类','数量','价格','金额']) data1 7.4 批量读取 import pandas as pd import

6.7K20

浅谈pandas,pyspark 大数据ETL实践经验

脏数据清洗 比如在使用Oracle等数据库导出csv file,字段间分隔符为英文逗号,字段用英文双引号引起来,我们通常使用大数据工具这些数据加载成表格形式,pandas ,spark中都叫做...x utf-8 * 在Linux中专门提供了一种工具convmv进行文件名编码转换,可以文件名从GBK转换成UTF-8编码,或者从UTF-8换到GBK。...下面看一下convmv具体用法: convmv -f 源编码 -t 新编码 [选项] 文件名 #目录下所有文件名由gbk转换为utf-8 convmv -f GBK -t UTF-8 -r --nosmart...('%Y-%m-%d %H:%M:%S')) #如果本来这一是数据而写了其他汉字,则把这一条替换为0,或者抛弃?...) 转换为pandas dataframe 之后只要通过引入matplotlib, 就能完成一个简单可视化demo 了。

5.4K30
您找到你想要的搜索结果了吗?
是的
没有找到

手把手教你做一个“渣”数据师,用Python代替老情人Excel

使用skiprows和header之类函数,我们可以操纵导入DataFrame行为。 ? 6、导入特定 使用usecols参数,可以指定是否在DataFrame中导入特定。 ?...三、分割:即Excel过滤器 描述性报告是关于数据子集和聚合,当需要初步了解数据,通常使用过滤器来查看较小数据集或特定,以便更好理解数据。...4、添加到已存在数据集 ? 5、特定总和,使用loc函数 ? 或者,我们可以用以下方法: ? 6、用drop函数删除行 ? 7、计算每总和 ?...以上,我们使用方法包括: Sum_Total:计算总和 T_Sum:系列输出转换为DataFrame并进行置 Re-index:添加缺少 Row_Total:T_Sum附加到现有的DataFrame...简单数据透视表,显示SepalWidth总和,行列中SepalLength和标签中名称。 现在让我们试着复杂化一些: ? 用fill_value参数空白替换为0: ?

8.3K30

python数据科学系列:pandas入门详细教程

pandas核心数据结构有两种,即一维series和二维dataframe,二者可以分别看做是在numpy一维数组和二维数组基础上增加了相应标签信息。...例如,当标签类型(可通过df.index.dtype查看)为时间类型,若使用无法隐式转换为时间字符串作为索引切片,则引发报错 ? 切片形式返回行查询,且为范围查询 ?...由于该方法默认是按行进行检测,如果存在某个需要需要按删除,则可以先置再执行该方法 异常值,判断异常值标准依赖具体分析数据,所以这里仅给出两种处理异常值可选方法 删除,drop,接受参数在特定轴线执行删除一条或多条记录...3 数据转换 前文提到,在处理特定可用replace对每个元素执行相同操作,然而replace一般仅能用于简单替换操作,所以pandas还提供了更为强大数据转换方法 map,适用于series...仍然考虑前述学生成绩表例子,但是再增加班级信息,需求是统计各班级每门课程平均分。

13.8K20

读完本文,轻松玩转数据处理利器Pandas 1.0

要使用新版 Pandas,用户可以用 pip 轻松升级。截至本文撰写Pandas 1.0 仍是候选版本,这意味着安装需要明确指定版本号。...不过,Pandas 推荐用户合理使用这些数据类型,在未来版本中也改善特定类型运算性能,比如正则表达式匹配(Regex Match)。...默认情况下,Pandas 不会自动将你数据强制转换为这些类型。但你可以修改参数来使用新数据类型。...不过最值得注意是,从 DataFrameGroupBy 对象中选择,输入 key 列表或 key 元组方法已被弃用。现在要用 item 列表,而非键列表。...另外,在分类数据转换为整数,也会产生错误输出。特别是对于 NaN 值,其输出往往是错误。因此,新版 Pandas 修复了这个 bug。

3.5K10

Pandas实用手册(PART I)

使用pd.util.testing随机建立DataFrame 当你想要随意初始化一个DataFrame并测试pandas功能,pd.util.testing就显得十分好用: ?...前面说过很多pandas函数预设axis参数为0,代表着以行(row)为单位做特定操作,在pd.concat例子中则是2个同样格式DataFrames依照axis=0串接起来。...完整显示所有 有时候一个DataFrame 里头栏位太多, pandas 会自动省略某些中间栏位以保持页面整洁: ?...另外注意刚刚设定max_colwidth是会被套用到所有DataFrame。因此这个DataFrameName栏位显示宽度还跟上个DataFrame相同:都被缩减了。...为特定DataFrame加点样式 pd.set_option函数在你想要把某些显示设定套用到所有 DataFrames很好用,不过很多时候你会想要让不同DataFrame有不同显示设定或样式(styling

1.7K31

PySpark UD(A)F 高效使用

利用to_json函数所有具有复杂数据类型换为JSON字符串。因为Arrow可以轻松处理字符串,所以可以使用pandas_udf装饰器。...这意味着在UDF中将这些换为JSON,返回Pandas数据帧,并最终将Spark数据帧中相应列从JSON转换为复杂类型 [2enpwvagkq.png] 5.实现 实现分为三种不同功能: 1)...Spark数据帧转换为一个新数据帧,其中所有具有复杂类型都被JSON字符串替换。...带有这种装饰器函数接受cols_in和cols_out参数,这些参数指定哪些需要转换为JSON,哪些需要转换为JSON。只有在传递了这些信息之后,才能得到定义实际UDF。...return pdf 只是为了演示,现在按 df_json vals 分组,并在每个组上应用规范化 UDF。

19.5K31

Pandas图鉴(四):MultiIndex

现在增加这样一个层面: 现在有一个四维空间,其中 年形成一个(几乎连续)维度 城市名称沿第二条放置 沿着第三条州名,以及 特定城市属性("人口"、"密度"、"面积" 等)作为第四维度上 "刻度线...这意味着你不能用它来实现df[:, 'population'],而不需要DataFrame(除非所有都是相同类型,否则会丢失类型)。...为列增加层次一个常见方法是现有的层次从索引中 "unstacking"出来: tack, unstack Pandasstack与NumPystack非常不同。...)一个特定级别src移动到指定位置dst(在纯Pandas中不能轻易完成): 除了上面提到参数外,本节所有函数都有以下参数: axis=None,其中None表示DataFrame ""...MultiIndex转换为flat索引并将其恢复 方便查询方法只解决了处理行中MultiIndex复杂性。

42820

Pandas 2.2 中文官方教程和指南(八)

如果传递了索引和/或,你保证结果 DataFrame 索引和/或。因此,一个 Series 字典加上一个特定索引丢弃所有与传递索引不匹配数据。...和Series之间进行操作,默认行为是Series索引与DataFrame对齐,从而以行方式进行广播。...如果传递了索引和/或,则保证了结果 DataFrame 索引和/或。因此,字典 Series 加上特定索引丢弃所有与传递索引不匹配数据。...和Series之间进行操作,默认行为是Series索引与DataFrame进行对齐,因此以行方式进行广播。...如果有任何嵌套字典,这些首先转换为 Series。如果未传递任何,则将是字典键有序列表。

23500

资源 | 23种Pandas核心操作,你需要过一遍吗?

选自 Medium 作者:George Seif 机器之心编译 参与:思源 本文自机器之心,转载需授权 Pandas 是一个 Python 软件库,它提供了大量能使我们快速便捷地处理数据函数和方法...(7)列出所有名字 df.columns 基本数据处理 (8)删除缺失数据 df.dropna(axis=0, how='any') 返回一个 DataFrame,其中删除了包含任何 NaN 值给定轴...(12)目标类型转换为浮点型 pd.to_numeric(df["feature_name"], errors='coerce') 目标类型转化为数值从而进一步执行计算,在这个案例中为字符串。...(13) DataFrame换为 NumPy 数组 df.as_matrix() (14)取 DataFrame 前面「n」行 df.head(n) (15)通过特征名取数据 df.loc[feature_name...,并仅显示值等于 5 行: df[df["size"] == 5] (23)选定特定值 以下代码选定「size」、第一行值: df.loc([0], ['size']) 原文链接: https

2.9K20

Pandas中更改数据类型【方法总结】

先看一个非常简单例子: a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']] df = pd.DataFrame(a) 有什么方法可以换为适当类型...例如,上面的例子,如何2和3为浮点数?有没有办法数据转换为DataFrame格式指定类型?或者是创建DataFrame,然后通过某种方法更改每类型?...DataFrame 如果想要将这个操作应用到多个,依次处理每一是非常繁琐,所以可以使用DataFrame.apply处理每一。...软转换——类型自动推断 版本0.21.0引入了infer_objects()方法,用于具有对象数据类型DataFrame换为更具体类型。...astype强制转换 如果试图强制换为整数类型,可以使用df.astype(int)。 示例如下: ? ?

20.1K30

加速数据分析,这12种高效Numpy和Pandas函数为你保驾护航

简化数据转换为 DataFrame 对象过程,而这些数据基本是 Python 和 NumPy 数据结构中不规则、不同索引数据; 基于标签智能切片、索引以及面向大型数据集子设定; 更加直观地合并以及连接数据集...用于一个 Series 中每个值替换为另一个值,该值可能来自一个函数、也可能来自于一个 dict 或 Series。...Isin () 有助于选择特定中具有特定(或多个)值行。...当一个数据帧分配给另一个数据帧,如果对其中一个数据帧进行更改,另一个数据帧值也发生更改。为了防止这类问题,可以使用 copy () 函数。...这个函数参数可设置为包含所有拥有特定数据类型,亦或者设置为排除具有特定数据类型

7.5K30

如何漂亮打印Pandas DataFrames 和 Series

当我们必须处理可能有多个和行大型DataFrames,能够以可读格式显示数据是很重要。这在调试代码非常有用。...默认情况下,当打印出DataFrame且具有相当多,仅子集显示到标准输出。显示甚至可以多行打印出来。...在今天文章中,我们探讨如何配置所需pandas选项,这些选项将使我们能够“漂亮地打印” pandas DataFrames。...就个人而言,我使用超宽显示器,可以在必要打印出相当多。...如何打印所有行 现在,如果您DataFrame包含行数超过一定数目,那么仅显示一些记录(来自df头部和尾部): import pandas as pd import numpy as np

2.4K30

12 种高效 Numpy 和 Pandas 函数为你加速分析

简化数据转换为 DataFrame 对象过程,而这些数据基本是 Python 和 NumPy 数据结构中不规则、不同索引数据; 基于标签智能切片、索引以及面向大型数据集子设定; 更加直观地合并以及连接数据集...用于一个 Series 中每个值替换为另一个值,该值可能来自一个函数、也可能来自于一个 dict 或 Series。...Isin () 有助于选择特定中具有特定(或多个)值行。...当一个数据帧分配给另一个数据帧,如果对其中一个数据帧进行更改,另一个数据帧值也发生更改。为了防止这类问题,可以使用 copy () 函数。...这个函数参数可设置为包含所有拥有特定数据类型,亦或者设置为排除具有特定数据类型

6.2K10

NumPy、Pandas中若干高效函数!

: 对象可以显式地对齐至一组标签内,或者用户可以简单地选择忽略标签,使Series、 DataFrame等自动对齐数据; 灵活分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换; 简化数据转换为...用于一个Series中每个值替换为另一个值,该值可能来自一个函数、也可能来自于一个dict或Series。...Isin()有助于选择特定中具有特定(或多个)值行。...当一个数据帧分配给另一个数据帧,如果对其中一个数据帧进行更改,另一个数据帧值也发生更改。为了防止这类问题,可以使用copy ()函数。...这个函数参数可设置为包含所有拥有特定数据类型,亦或者设置为排除具有特定数据类型

6.5K20

加速数据分析,这12种高效Numpy和Pandas函数为你保驾护

简化数据转换为 DataFrame 对象过程,而这些数据基本是 Python 和 NumPy 数据结构中不规则、不同索引数据; 基于标签智能切片、索引以及面向大型数据集子设定; 更加直观地合并以及连接数据集...用于一个 Series 中每个值替换为另一个值,该值可能来自一个函数、也可能来自于一个 dict 或 Series。...Isin () 有助于选择特定中具有特定(或多个)值行。...当一个数据帧分配给另一个数据帧,如果对其中一个数据帧进行更改,另一个数据帧值也发生更改。为了防止这类问题,可以使用 copy () 函数。...这个函数参数可设置为包含所有拥有特定数据类型,亦或者设置为排除具有特定数据类型

6.7K20
领券