首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你做一个“渣”数据师,用Python代替老情人Excel

-11a072b58d5f 用Python扫描目录的文件并选择想要的: ?...使用index_col参数可以操作数据框的索引如果0设置为none,它将使用第一作为index。 ?...1、从“头”到“脚” 查看第一或最后五。默认为5,也可以自定义参数。 ? 2、查看特定的数据 ? 3、查看所有的名字 ? 4、查看信息 查看DataFrame的数据属性总结: ?...Python提供了许多不同的方法来对DataFrame进行分割,我们将使用它们的几个来了解它是如何工作的。...2、查看多 ? 3、查看特定 这里使用的方法是loc函数,其中我们可以指定以冒号分隔的起始行和结束。注意,索引从0开始而不是1。 ? 4、同时分割 ? 5、某一筛选 ?

8.3K30
您找到你想要的搜索结果了吗?
是的
没有找到

如何Python 执行常见的 Excel 和 SQL 任务

每个括号内的列表代表了我们 dataframe 的一,每都以 key 表示:我们正在处理一个国家的排名,人均 GDP(以美元表示)及其名称(用「国家」)。...如果要查看特定数量的,还可以 head() 方法插入行数。 ? ? 我们得到的输出是人均 GDP 数据集的前五(head 方法的默认),我们可以看到它们整齐地排列成三以及索引。...请注意,Python 索引从0开始,而不是1,这样,如果要调用 dataframe 的第一个,则使用0而不是1!你可以通过圆括号内添加你选择的数字来更改显示的行数。试试看!...选择属于以 s 开头的国家的。 现在可以显示一个新 dataframe,其中只包含以 s 开头的国家。使用 len 方法快速检查(一个用于计算 dataframe 的行数的救星!)...事实上,你将要重复我们所有的计算,包括反映每个国家的人口的方法!看看你是否可以刚刚启动的 Python notebook 执行此操作。

10.7K60

Python进阶之Pandas入门(四) 数据清理

但是如果我们想要所有的名字小写呢?...如何处理缺失的 研究数据时,您很可能会遇到缺失或null,它们实际上是不存在的占位符。最常见的是Python的None或NumPy的np.nan,某些情况下它们的处理方式是不同的。...处理空有两种选择: 去掉带有空 用非空替换空,这种技术称为imputation 让我们计算数据集的每一的空总数。...首先,我们将该提取到它自己的变量: revenue = movies_df['revenue_millions'] 这里使用方括号是我们DataFrame选择的一般方法。...如果您还记得我们从零开始创建DataFrames时,dict的键最后是列名。现在,当我们选择DataFrame时,我们使用方括号,就像访问Python字典一样。

1.8K60

整理了 25 个 Pandas 实用技巧,拿走不谢!

逗号之前的冒号表示选择所有,逗号之后的::-1表示反转所有,这就是为什么country这一现在在最右边。 6....最后,你可以通过apply()函数一次性对整个DataFrame使用这个函数: ? 仅需一代码就完成了我们的目标,因为现在所有的数据类型转换成float: ? 8....如果你想要进行相反的过滤,也就是你将吧刚才的三种类型的电影排除掉,那么你可以在过滤条件前加上破浪号: ? 这种方法能够起作用是因为Python,波浪号表示“not”操作。 14....如果我们只想保留第0作为city name,我们仅需要选择那一并保存至DataFrame: ? 17....如果你不是对所有感兴趣,你也可以传递列名的切片: ? 21.

3.2K10

Python执行SQL、Excel常见任务?10个方法全搞定!

每个括号内的列表代表了我们 dataframe 的一,每都以 key 表示:我们正在处理一个国家的排名,人均 GDP(以美元表示)及其名称(用「国家」)。...如果要查看特定数量的,还可以 head() 方法插入行数。 ? ? 我们得到的输出是人均 GDP 数据集的前五(head 方法的默认),我们可以看到它们整齐地排列成三以及索引。...请注意,Python 索引从0开始,而不是1,这样,如果要调用 dataframe 的第一个,则使用0而不是1!你可以通过圆括号内添加你选择的数字来更改显示的行数。试试看!...选择属于以 s 开头的国家的。 现在可以显示一个新 dataframe,其中只包含以 s 开头的国家。使用 len 方法快速检查(一个用于计算 dataframe 的行数的救星!)...事实上,你将要重复我们所有的计算,包括反映每个国家的人口的方法!看看你是否可以刚刚启动的 Python notebook 执行此操作。

8.2K20

python数据分析万字干货!一个数据集全方位解读pandas

因为之前的文章已经详细的介绍了这两种方法,因此我们将简单介绍。更详细的可以查看【公众号:早起python】之前的文章。...五、查询数据集 现在我们已经了解了如何根据索引访问大型数据集的子集。现在,我们继续基于数据集选择以查询数据。例如,我们可以创建一个DataFrame仅包含2010年之后打过的比赛。...仅包含其中"year_id"大于的2010。...接下来要说的是如何在数据分析过程的不同阶段操作数据集的。...如果我们为选择正确的数据类型,则可以显着提高代码的性能。我们再看一下nba数据集的: >>> df.info() ? 有十具有数据类型object。

7.4K20

使用CSV模块和PandasPython读取和写入CSV文件

许多在线服务允许其用户将网站的表格数据导出到CSV文件。CSV文件将在Excel打开,几乎所有数据库具有允许从CSV文件导入的工具。标准格式由数据定义。...文件的每一都是表的一。各个由分隔符-逗号(,),分号(;)或另一个符号分隔。CSV可以通过Python轻松读取和处理。...csv.QUOTE_MINIMAL-引用带有特殊字符的字段 csv.QUOTE_NONNUMERIC-引用所有非数字的字段 csv.QUOTE_NONE –输出不引用任何内容 如何读取CSV文件...开发阅读器功能是为了获取文件的每一并列出所有。然后,您必须选择想要变量数据的。 听起来比它复杂得多。让我们看一下这个例子,我们会发现使用csv文件并不是那么困难。...仅三代码,您将获得与之前相同的结果。熊猫知道CSV的第一包含列名,它将自动使用它们。 用Pandas写入CSV文件 使用Pandas写入CSV文件就像阅读一样容易。您可以在这里说服。

19.5K20

Pandas 2.2 中文官方教程和指南(一)

选择,请在方括号[]之间使用标签。 注意 如果您熟悉 Python dictionaries,选择单个与基于键选择字典非常相似。...要选择,请在方括号[]之间使用标签。 注意 如果你熟悉 Python dictionaries,选择单个与基于键选择字典非常相似。...记住,DataFrame 是二维的,具有两个维度。 转到用户指南 有关索引的基本信息,请参阅用户指南中关于索引和选择数据的部分。 如何DataFrame过滤特���?...请记住,DataFrame是二维的,具有两个维度。 转到用户指南 有关索引的基本信息,请参阅用户指南中关于索引和选择数据的部分。 如何DataFrame筛选特定?...当特别关注表位置的某些和/或时,请在选择括号[]前使用iloc运算符。 使用loc或iloc选择特定和/或时,可以为所选数据分配新

16610

Pandas知识点-算术运算函数

,这些函数的用法和运算规则相同,运算结果的数据结构也相同。...进行除法运算时,如果被除数是0,得到的结果可能是inf(表示无穷大,与Python的浮点数精度有关),也可能是NaN(空)。在后面的所有运算中都一样。...fillna(value): 运算出结果后,将所有的位置填充成指定算术运算函数,可以使用fill_value参数,在运算前先填充数据。 ?...Series与DataFrame进行算术运算时,默认会将Series看成是一数据(而不是一),add()函数,axis参数默认为1或'columns'。...如果Series的索引与DataFrame索引相同,会将Series依次与DataFrame的每一数据进行运算,得到一个新的DataFrame。 2.

1.9K40

这个Python开源库这样做数据分析

如果的数据类型为数字,则还将显示平均值、标准偏差以及最小和最大所有这些统计信息都是通过对数据的一次传递来计算的。 ?...筛选Vaex DataFrame时不会复制数据,而是仅创建对原始对象的引用,该引用上应用二进制掩码。用掩码选择要显示的,并将其用于将来的计算。...这是因为代码只会创建虚拟。这些仅包含数学表达式,并且仅在需要时才进行评估。此外,虚拟的行为与任何其他常规相同。注意,其他标准库将需要10 GB的RAM才能进行相同的操作。...你能想象纽约市被困出租车超过3个小时吗?无论如何,我们要保持开放的态度,并考虑所有花费时间少于3小时的行程: ? 现在,让我们研究出租车的平均速度,同时选择一个合理的数据范围: ?...从describe方法的输出,我们可以看到fare_amount,total_amount和tip_amount中有一些疯狂的异常值。对于初学者,任何这些的任何都不应为负。

1.2K20

最全面的Pandas的教程!没有之一!

如上,如果 Pandas 两个 Series 里找不到相同的 index,对应的位置就返回一个空 NaN。...交叉选择的数据 我们可以用 .xs() 方法轻松获取到多级索引某些特定级别的数据。比如,我们需要找到所有 Levels ,Num = 22 的: ?...请注意,如果你没有指定 axis 参数,默认是删除。 删除: ? 类似的,如果你使用 .fillna() 方法,Pandas 将对这个 DataFrame所有的空位置填上你指定的默认。...比如,将表中所有 NaN 替换成 20 : ? 当然,这有的时候打击范围太大了。于是我们可以选择只对某些特定的或者进行填充。比如只对 'A' 进行操作,处填入该的平均值: ?... Pandas 里,主要用到 3 种方法: 首先是 .unique() 方法。比如在下面这个 DataFrame 里,查找 col2 所有不重复的: ?

25.8K64

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

操控缺失 把字符串分割为多 把 Series 里的列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合的输出结果 选择 重塑多重索引 Series 创建透视表...逗号前面的分号表示选择所有,逗号后面的 ::-1 表示反转列,这样一来,country 就跑到最右边去了。 6. 按数据类型选择 首先,查看一下 drinks 的数据类型: ?...一代码就可以解决这个问题,现在所有转成 float 了。 ? 8....用多个文件建立 DataFrame ~ 按 上个技巧按合并数据集,但是如果多个文件包含不同的,该怎么办? 本例将 drinks 数据集分为了两个 CSV 文件,每个文件包含 3 。 ?...用 dropna() 删除里的所有缺失。 ? 只想删除缺失高于 10% 的缺失,可以设置 dropna() 里的阈值,即 threshold. ? 16.

7.1K20

整理了25个Pandas实用技巧(上)

这种方式很好,但如果你还想把列名变为非数值型的,你可以强制地将一串字符赋值给columns参数: ? 你可以想到,你传递的字符串的长度必须与相同。...Africa 0.7 14 0 25 Algeria 3 Europe 12.4 312 138 245 Andorra 4 Africa 5.9 45 57 217 Angola 逗号之前的冒号表示选择所有...你可以对前两使用astype()函数: ? 但是,如果你对第三也使用这个函数,将会引起错误,这是因为这一包含了破折号(用来表示0)但是pandas并不知道如何处理它。...最后,你可以通过apply()函数一次性对整个DataFrame使用这个函数: ? 仅需一代码就完成了我们的目标,因为现在所有的数据类型转换成float: ?...按从多个文件构建DataFrame 上一个技巧对于数据集中每个文件包含记录很有用。但是如果数据集中的每个文件包含的信息呢?

2.2K20

Pandas Sort:你的 Python 数据排序指南

Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,带有标记的轴。您可以按以及索引对 DataFrame 进行排序。...都有索引,它是数据 DataFrame 位置的数字表示。您可以使用 DataFrame 的索引位置从特定检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。...如果有两个或更多相同的品牌,则按 排序model。列表中指定列名的顺序对应于 DataFrame 的排序方式。 更改排序顺序 由于您使用多进行排序,因此您可以指定的排序顺序。...使用排序方法修改你的 DataFrame所有的例子你迄今所看到的,.sort_values()和.sort_index()已经返回数据帧对象时,你叫那些方法。这是因为熊猫排序不工作到位默认。...本教程,您学习了如何: 按一或多对Pandas DataFrame进行排序 使用ascending参数更改排序顺序 通过index使用对 DataFrame 进行排序.sort_index(

13.8K00

【精心解读】用pandas处理大数据——节省90%内存消耗的小贴士

下图所示为pandas如何存储我们数据表的前十二: 可以注意到,这些数据块没有保持对列名的引用,这是由于为了存储dataframe的真实数据,这些数据块经过了优化。...两者占用相同的内存存储量,但无符号整型由于只存正数,所以可以更高效的存储只含正数的。 用子类型优化数值型 我们可以用函数pd.to_numeric()来对数值型进行向下类型转换。...你可以看到这些字符串的大小pandas的seriesPython的单独字符串是一样的。...我们先选择其中一个object,开看看将其转换成类别类型会发生什么。这里我们选用第二:day_of_week。 我们从上表可以看到,它只包含了7个唯一。...注意这一特殊可能代表了我们一个极好的例子——一个包含近172000个数据的只有7个唯一。 这样的话,我们把所有这种类型的转换成类别类型应该会很不错,但这里面也要权衡利弊。

8.6K50

Python进阶之Pandas入门(五) 数据流切片,选择,提取

我们已经学习了使用单括号进行简单的提取,并且使用fillna()输入null。下面是您需要经常使用的其他切片、选择和提取方法。...要将提取为DataFrame,需要传递的是列表。...为了进一步说明这一点,我们选择多行。 你会如何使用列表呢?Python,只需使用像example_list[1:4]这样的括号进行切片。...条件筛选 我们已经讨论了如何选择,但是如果我们想要进行条件选择呢?...与isnull()类似,它返回Series真值和假:对于雷德利·斯科特导演的电影为真,对于非雷德利·斯科特导演的电影为假。 我们想过滤掉所有不是雷德利·斯科特导演的电影,换句话说,我们不想要假电影。

1.7K10

Python进阶之Pandas入门(三) 最重要的数据流操作

、非空的数量、每个的数据类型以及DataFrame使用了多少内存。...请注意,我们的movies数据集中,Revenue和Metascore中有一些明显的缺失。我们将在下一讲处理这个问题。 快速查看数据类型实际上非常有用。...False:删除所有重复项。 由于我们在前面的例子没有定义keep代码,所以它默认为first。这意味着如果相同的,panda将删除第二并保留第一。...使用last有相反的效果:第一被删除。 另一方面,keep将删除所有重复项。如果相同的,那么这两行都将被删除。...如果您想知道为什么要这样做,一个原因是它允许您在数据集中查找所有副本。当条件选择显示在下面时,您将看到如何做到这一点。

2.6K20

Pandas 学习手册中文第二版:1~5

每个人对此列表的项目的支持,部署方式以及用户如何使用各不相同。...将列表传递给DataFrame的[]运算符将检索指定的,而Series将返回如果列名没有空格,则可以使用属性样式进行访问: 数据帧之间的算术运算与多个Series上的算术运算相同。...该技术很重要,并且存在,因为它是访问这些的一种非常高性能的方法。 选择数据帧的 使用[]运算符选择DataFrame特定的数据。 这与Series不同,Series,[]指定了。...DataFrame对象集都不相同,则 Pandas 将用NaN填充这些。...这是一个与布尔选择类似的过程,该过程,我们选择了除要删除的以外的所有。 假设我们要从sp500除去除前三个记录以外的所有记录。 执行此任务的片是[:3],它返回前三

8.1K10
领券