首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用 Python 执行常见的 Excel 和 SQL 任务

有关数据结构,列表和词典,如何在 Python 的运行的更多信息,本教程将有所帮助。...我们将要重命名某些列,在 Excel ,可以通过单击列名称并键入新名称,在SQL,你可以执行 ALTER TABLE 语句或使用 SQL Server 的 sp_rename。...在 Excel ,你可以右键单击并找到将列数据转换为不同类型的数据的方法。你可以复制一由公式呈现的单元格,并将其粘贴为值,你可以使用格式选项快速切换数字,日期和字符串。...我们首先在 Python 中使用 re 库。我们将使用正则表达式来替换 gdppercapita 列的逗号,以便我们可以更容易地使用该列。 ? re.sub 方法本质上是使用空格替换逗号。...这应该让你了解 Python 数据可视化的强大功能。如果你感到不知所措,你可以使用一些解决方案,Plot.ly,这可能更直观地掌握。

10.7K60

用Python执行SQL、Excel常见任务?10个方法全搞定!

有关数据结构,列表和词典,如何在 Python 的运行的更多信息,本篇将有所帮助。...我们将要重命名某些列,在 Excel ,可以通过单击列名称并键入新名称,在SQL,你可以执行 ALTER TABLE 语句或使用 SQL Server 的 sp_rename。...在 Excel ,你可以右键单击并找到将列数据转换为不同类型的数据的方法。你可以复制一由公式呈现的单元格,并将其粘贴为值,你可以使用格式选项快速切换数字,日期和字符串。...我们首先在 Python 中使用 re 库。我们将使用正则表达式来替换 gdp_per_capita 列的逗号,以便我们可以更容易地使用该列。 ? re.sub 方法本质上是使用空格替换逗号。...这应该让你了解 Python 数据可视化的强大功能。如果你感到不知所措,你可以使用一些解决方案,Plot.ly,这可能更直观地掌握。

8.2K20
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas 2.2 中文官方教程和指南(十五)

提取具有多个正则表达式将返回一个每个一列的 DataFrame。...请注意,正则表达式的任何捕获名称将用作列名;否则将使用捕获编号。 使用一个正则表达式提取返回一个列的DataFrame,如果expand=True。...提取具有多个正则表达式将返回一个每组一列的 DataFrame。...请注意,正则表达式的任何捕获名称将用于列名;否则将使用捕获编号。 提取具有一个正则表达式将返回一个列的 DataFrame,如果 expand=True。...请注意,正则表达式的任何捕获名称将用于列名;否则将使用捕获编号。 使用一个提取正则表达式,如果expand=True,则返回一个列的DataFrame。

11510

python数据科学系列:pandas入门详细教程

和DML操作在pandas中都可以实现 类比Excel的数据透视表功能,Excel中最为强大的数据分析工具之一是数据透视表,这在pandas也可轻松实现 自带正则表达式的字符串向量化操作,pandas...关于series和dataframe数据结构本身,有大量的方法可用于重构结构信息: rename,可以对标签名重命名,也可以重置index和columns的部分标签列信息,接收标量(用于标签名重命名)...或dataframe每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas是在numpy的基础上实现的,所以numpy的常用数值计算操作在pandas也适用: 通函数ufunc...时间类型向量化操作,字符串一样,在pandas另一个得到"优待"的数据类型是时间类型,正如字符串列可用str属性调用字符串接口一样,时间类型列可用dt属性调用相应接口,这在处理时间类型时会十分有效。...4 合并与拼接 pandas又一个重量级数据处理功能是多个dataframe进行合并与拼接,对应SQL两个非常重要的操作:union和join。

13.8K20

《基于Python的大数据分析基础及实战》精简读书笔记

dir([package])查看指定模块的所有成员或指定对象类型所支持的操作类型。ord(’[a]’) 查询ASCII码。 注意事项:Python 使用全小写加下划线的驼峰命名方式。...使用了线代的高维投影到低维的方法。 定义:数据分组,也就是数据分类,对于类似的数据寻找特征。 数据分析 定义:数据分析:把数据的特征和内在结构展现出来的过程。...解释:交叉分析:固定某一变量,其他个变量进行比较的分析方式。 解释:结构分析:在分组分析和交叉分析的基础上很多时候是看一个数据在某一个维度的占比或者重要性。...TF-IDF 可以反映出语料库的谋篇文档某个词这篇文档的重要性。...知识点:中国的编码:gb2312 --> gb18030 --> gbk,支持的字符逐渐变多,从7000多个到现在将近3万多个 知识点:文本读取:二进制文件读取是不能直接读,要注明使用二进制方法读取。

43610

懂Excel就能轻松入门Python数据分析包pandas(十):查找替换

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 Excel 无疑是数据处理的入门工具,他有许多便捷的功能,但是实际工作的需求往往是越来越"疯狂",今天我们就来看看如何在...pandas 实现 Excel 的查找替换功能,并且最后做到 Excel 所做不到的。...x ,但有一些是 xx Excel 可以的查找值可以使用通配符,如下可以解决: - 查找值填 "x*" pandas ,直接可以使用正则表达式,因此完全难不倒你: - 参数 regex ,...填写正则表达式,"x+" ,表示1个或多个x 案例3 现实往往超出你的想象,部门领导突然跟你说,每列的异常数据替换为"问题[列名]": - 每列的新值都不一样 此时你心里走过一万个草泥马。...你说的,当然有更加灵活方便的方式: - pandas 可以轻松访问列名字等信息 上面这方法即使换另外一份数据,一句代码都不需要修改即可完成任务!! 你 get 到了吗?

1.2K20

懂Excel就能轻松入门Python数据分析包pandas(十):查找替换

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 Excel 无疑是数据处理的入门工具,他有许多便捷的功能,但是实际工作的需求往往是越来越"疯狂",今天我们就来看看如何在...pandas 实现 Excel 的查找替换功能,并且最后做到 Excel 所做不到的。...x ,但有一些是 xx Excel 可以的查找值可以使用通配符,如下可以解决: - 查找值填 "x*" pandas ,直接可以使用正则表达式,因此完全难不倒你: - 参数 regex ,...填写正则表达式,"x+" ,表示1个或多个x 案例3 现实往往超出你的想象,部门领导突然跟你说,每列的异常数据替换为"问题[列名]": - 每列的新值都不一样 此时你心里走过一万个草泥马。...你说的,当然有更加灵活方便的方式: - pandas 可以轻松访问列名字等信息 上面这方法即使换另外一份数据,一句代码都不需要修改即可完成任务!! 你 get 到了吗?

1.4K10

C#的正则匹配和文本处理

现在一起来看看如何在C#中使用正则表达式以及它们是多么的有用。...在前面的实例, 针对子串"the"存在 两个匹配. 这里可以使用另外一种类Matches 类来存储与正则表达式多个匹配....7、命名 正则表达式可以命名, 命名更容易使用, 这是因为可以通过引用名来获得匹配结果. 的名称由作为正则表达式前缀的问号和一尖括号包裹的名字组成的....例如, 为了在 先前的程序中将匿名命名为"ages", 可以把正则表达式写成下列形式: (?\s\d{2}\s) 还可以用一单引号来代替尖括号包裹名字。...当在正则表达式使用命名的时候, 这个就拥有自己的捕获集合.为了得到命名正则表达式的捕获集合, 就要调用来自Match 对象Group属 性的Captures 属性. 结合例子会很容易理解.

2.4K41

强烈推荐Pandas常用操作知识大全!

想下载到本地可访问以下地址 https://github.com/SeafyLiang/Python_study pandas常用操作大全 pandas常用速查 引入依赖 # 导入模块 import...# 可视化 import matplotlib.pyplot as plt # 如果你的设备是配备Retina屏幕的mac,可以在jupyter notebook使用下面一行代码有效提高图像画质...col2 按降序排序 df.groupby(col) #从一个栏返回GROUPBY对象 df.groupby([col1,col2]) # 返回来自多个列的...) replace传入正则表达式,才叫好用;- 先不要管下面这个案例有没有用,你只需要知道,使用正则做数据清洗多好用; df["收入"].str.replace("\d+\....,去字符串匹配,返回查找结果的列表 findall使用正则表达式,做数据清洗,真的很香!

15.8K20

正则表达式在 ES2018 的新写法

最后,如果在正则表达式使用命名捕获,则将它们放在 groups 属性。 在代码, groups 的值为 undefined ,因为没有被命名的捕获。 负向先行的构造是 (?!...) 。...命名捕获 你可以通过将字符封装在括号的方式对正则表达式的一部分进行分组。 这可以允许你将规则限制为模式的一部分或在整个应用量词。 此外你可以通过括号来提取匹配值并进行进一步处理。...例如Python命名使用 (?P) 语法。 Perl支持与 JavaScript 相同语法的命名( JavaScript 已经模仿了 Perl 的正则表达式语法)。...,可以将命名的捕获插入到 replace() 方法的替换值。...一个好的测试器会提供一个接口来字符串的正则表达式进行测试,并显示引擎所做的每一步,这在你理解其他人编写的表达式时非常有帮助。它还可以检测正则表达式可能出现的语法错误。

94220

数据处理技巧 | 带你了解Pandas.groupby() 常用数据处理方法

()实例演示 pandas.groupby()三大主要操作介绍 说到使用Python进行数据处理分析,那就不得不提其优秀的数据分析库-Pandas,官网其的介绍就是快速、功能强大、灵活而且容易使用的数据分析和操作的开源工具...同时计算多个结果 可能还有小伙伴问“能不能将聚合计算之后的新的结果列进行重命名呢?”,该操作在实际工作中经常应用的到,:根据某列进行统计,并将结果重新命名。...Transform操作 这样我们就可以使每个分组的平均值为0,标准差为1了。该步骤日常数据处理中使用较少,大家若想了解更多,请查看Pandas官网。...这里举一个例子大家就能明白了,即我们以Team列进行分组,并且希望我们的分组结果每一的个数都大于3,我们该如何分组呢?练习数据如下: ?...Filtration Result 以上就是Pandas.groupby()操作简单的讲解一遍了,当然,还有更详细的使用方法没有介绍到,这里只是说了我自己在使用分组操作时常用的分组使用方法。

3.7K11

一文介绍Pandas的9种数据访问方式

4. isin,条件范围查询,一般是某一列判断其取值是否在某个可迭代的集合。即根据特定列值是否存在于指定列表返回相应的结果。 5. where,妥妥的Pandas仿照SQL实现的算子命名。...不过这个命名其实是非常直观且好用的,如果熟悉Spark则会自然联想到在Spark其实数据过滤主要就是用给的where算子。...语法执行数据访问的方式,这对熟悉SQL的使用者来说非常有帮助!...在DataFrame,filter是用来读取特定的行或列,并支持三种形式的筛选:固定列名(items)、正则表达式(regex)以及模糊查询(like),并通过axis参数来控制是行方向或列方向的查询...实际上,这里的lookup可看做是loc的一种特殊形式,即分别传入一行标签和列标签,lookup解析成一行列坐标,返回相应结果: ?

3.7K30

《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

许多研究者都选择使用通用编程语言(Python、Perl、R或Java)或UNIX文本处理工具(sed或awk)对数据格式进行专门处理。...对于更为复杂的模式匹配和文本操作,则可能需要用到正则表达式pandas对此进行了加强,它使你能够整组数据应用字符串表达式和正则表达式,而且能处理烦人的缺失数据。...Python内置的re模块负责字符串应用正则表达式。我将通过一些例子说明其使用方法。 笔记:正则表达式的编写技巧可以自成一章,超出了本书的范围。...findall方法: In [153]: regex.findall(text) Out[153]: [' ', '\t ', ' \t'] 笔记:如果想避免正则表达式不需要的转义(\),则可以使用原始字符串字面量...符号\1应第一个匹配的,\2应第二个匹配的,以此类推: In [166]: print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text

5.2K90

1w 字的 pandas 核心操作知识大全。

numpy生成20个指定分布(标准正态分布)的数 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) # 生成一个和df长度相同的随机数...可以使用NamedAgg来完成列的命名 iris_gb.agg( sepal_min=pd.NamedAgg(column="sepal length (cm)", aggfunc="min...['sex','age'], columns='class',values=['survived','fare']) # 在实际使用,并不一定每次都要均值,使用aggfunc指定累计函数 titanic.pivot_table...) replace传入正则表达式,才叫好用; 先不要管下面这个案例有没有用,你只需要知道,使用正则做数据清洗多好用; df["收入"].str.replace("\d+\....,去字符串匹配,返回查找结果的列表 findall使用正则表达式,做数据清洗,真的很香!

14.8K30

python数据分析笔记——数据加载与整理

5、文本缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示的,默认情况下,pandas会用一经常出现的标记值进行识别,NA、NULL等。查找出结果以NAN显示。...7、对于不是使用固定分隔符分割的表格,可以使用正则表达式来作为read_table的分隔符。 (’\s+’是正则表达式的字符)。...(2)对于pandas对象(Series和DataFrame),可以pandas的concat函数进行合并。...一一替换:用np.nan替换-999 多一替换:用np.nan替换-999和-1000. 多多替换:用np.nan代替-999,0代替-1000. 也可以使用字典的形式来进行替换。...利用pd.cut()方式年龄进行分组。 默认情况下,cut对分组条件的左边是开着的状态,右边是闭合状态。可以用left(right)=False来设置哪边是闭合的。

6K80

Pandas与SQL的数据操作语句对照

另一方面,Pandas不是那么直观,特别是如果像我一样首先从SQL开始。 就我个人而言,我发现真正有用的是思考如何在SQL操作数据,然后在Pandas复制它。...as b 如果你想重命名一个列,使用.rename(): # SQL SELECT column_a as Apple, column_b as Banana FROM table_df #...=False) ORDER BY 多列 如果您希望按多个列排序,请列出方括号的列,并在方括号的' ascending '参数中指定排序的方向。...当我和Pandas一起工作时,我经常会回想到这一点。 如果能够通过足够的练习,你将对Pandas感到更舒适,并充分理解其潜在机制,而不需要依赖于像这样的备记单。 一既往,祝你编码快乐!...:) 作者:Terence deephub翻译

3K20

30 分钟轻松搞定正则表达式基础

倘若我们想要匹配的是1个或多个ab(:abababab),此时分组就派上作用了,可以这么写:(ab)+。此时ab被绑定为一个整体,后面的数量元字符这个整体起作用。...上一节简单的讲了一下正则表达式是如何分配号的,但其实还有几个需要注意的地方。 虽然号是从左向右进行分配,但是扫描两遍,第一遍先分配给未命名的分组,第二遍再分配给命名的分组。...所以命名后的分组组号会更大 使用(?:exp)可以使一个分组不分配号,(?:ab)?(c|C)d\2D(ab)就没有分配到号,而(c|C)号为1 人性是贪婪的,正则表达式与人一样也是贪婪的。...不过根据号取数据可能会有些含糊不清,或许我们可以给每个分组进行命名使用python支持的方式),形成如下正则表达式: 好了现在我们可以很清楚的看到,表示时间的分组命名为Time,依次类推。...若使用该函数,需自己将正则表达式写出来并对正则表达式的分组进行命名,若有些分组数据需要特殊处理,则维护一个特殊函数字典,键为分组名,值为函数(匿名函数或者是函数名称)。

31220

独家 | 浅谈PythonPandas管道的用法

作者:Gregor Scheithauer博士 翻译:王闯(Chuck)校对:欧阳锦 本文约2000字,建议阅读5分钟本文介绍了如何在Python/Pandas运用管道的概念,以使代码更高效易读。...我在这里对照他的帖子,向您展示如何在Pandas使用管道(也称方法链,method chaining)。 什么是管道?...不使用管道的R语言示例(请参阅[2]) 下面的代码是一个典型示例。我们将函数调用的结果保存在变量foo_foo_1,这样做的唯一目的就是将其传递到下一个函数调用scoop()。...它可以使多个函数链接起来使用。在下面的示例,请尝试以如下方式阅读代码: 1. 我要评估/处理变量foo_foo 2. 我要foo_foo跳过森林,然后, 3....q=pipe#pipes Python的无缝管道(即方法链) 我将对照SonerYıldırım的文章,让您对比学习如何在R和Python中使用管道/方法链。

2.8K10

你应该学习正则表达式

在本教程,我将尝试在各种场景、语言和环境Regex的语法和使用进行简明易懂的介绍。 此Web应用程序是我用于构建、测试和调试Regex最喜欢的工具。...这允许我们在文本块(而不是代码行)匹配年份,这对于搜索段落文本非常有用。 \b ——字边界 (19|20) ——使用或(|)操作数匹配’19′或’20′。...$4——第四个捕获:年份。 替换模式(\3\2\1\2\4)简单地交换了表达式月份和日期的内容。 以下是我们如何在Javascript中进行这种转换: ?...6.0 – 命名捕获 你注意到没有,一些捕获现在以?标识符开头。这是命名捕获的语法,可以使得数据提取更加清晰。...6.1 – 真实示例 – 从Web页面上的URL解析域名 以下是我们如何使用命名捕获来提取使用Python语言的网页每个URL的域名。 ? 脚本将打印在原始网页HTML内容中找到的每个域名。 ?

5.3K20
领券