首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

30 个小例子帮你快速掌握Pandas

我们删除了4,因此列数从14减少到10。 2.读取时选择特定 我们只打算读取csv文件的某些。读取时,列表将传递给usecols参数。如果您事先知道列名,则比以后删除更好。...但将添加在末尾。如果要将放在特定位置,则可以使用插入函数。 df_new.insert(0, 'Group', group) df_new ?...第一个参数是位置的索引,第二个参数是的名称,第三个参数是。 19.where函数 它用于根据条件替换行或。默认替换是NaN,但我们也可以指定要替换。...Geography的内存消耗减少了近8倍。 24.替换 替换函数可用于替换DataFrame。 ? 第一个参数是要替换,第二个参数是。 我们可以使用字典进行多次替换。 ?...您可能需要更改的其他一些选项是: max_colwidth:显示的最大字符数 max_columns:要显示的最大数 max_rows:要显示的最大行数 28.计算的百分比变化 pct_change

10.6K10
您找到你想要的搜索结果了吗?
是的
没有找到

20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

where函数首先根据指定条件定位目标数据,然后替换为指定的数据。...上述代码,where(df['new_col']>0,0)指定'new_col'数值大于0的所有数据为被替换对象,并且被替换为0。...我们要创建一个,该显示“person”每个人的得分: df['Person_point'] = df.lookup(df.index, df['Person']) df ? 14....inner:仅在on参数指定的具有相同的行(如果未指定其它方式,则默认为 inner 方式) outer:全部数据 left:左一dataframe的所有数据 right:右一dataframe...Replace 顾名思义,它允许替换dataframe。第一个参数是要替换,第二个参数是。 df.replace('A', 'A_1') ? 我们也可以在同一个字典多次替换

5.5K30

太赞了!30 个 Python 函数,加速你的数据分析处理速度!

我们减了 4 ,因此列数从 14 个减少到 10 。 2.选择特定 我们从 csv 文件读取部分列数据。可以使用 usecols 参数。...df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True) 17.将特定设置为索引 我们可以将数据帧的任何设置为索引....where 函数 它用于根据条件替换行或。...df['Geography'] = df['Geography'].astype('category') 24.替换 替换函数可用于替换数据帧。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。

8.9K60

python数据分析笔记——数据加载与整理

2、当文件没有标题行时 可以让pandas为其自动分配默认的列名。 也可以自己定义列名。 3、将某一作为索引,比如使用message做索引。通过index_col参数指定’message’。...5、文本缺失处理,缺失数据要么是没有(空字符串),要么是用某个标记表示的,默认情况下,pandas会用一组经常出现的标记进行识别,如NA、NULL等。查找出结果以NAN显示。...(2)对于pandas对象(如Series和DataFrame),可以pandas的concat函数进行合并。...(2)将‘长格式’旋转为‘宽格式’ 2、转换数据 (1)数据替换,将某一或多个进行代替。(比较常用的是缺失或异常值处理,缺失一般都用NULL、NAN标记,可以用代替缺失标记)。...默认情况下,此方法是对所有的进行重复项清理操作,也可以用来指定特定的一或多进行。 默认情况下,上述方法保留的是第一个出现的组合,传入take_last=true则保留最后一个。

6K80

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

索引也是持久的,所以如果你对 DataFrame 的行重新排序,特定行的标签不会改变。 5. 副本与就地操作 大多数 Pandas 操作返回 Series/DataFrame 的副本。...在 Pandas ,您可以直接对整列进行操作。 pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同的方式分配。...提取第n个单词 在 Excel ,您可以使用文本到向导来拆分文本和检索特定。(请注意,也可以通过公式来做到这一点。)...填充柄 在一组特定的单元格按照设定的模式创建一系列数字。在电子表格,这将在输入第一个数字后通过 shift+drag 或通过输入前两个或三个然后拖动来完成。...查找和替换 Excel 查找对话框将您带到匹配的单元格。在 Pandas ,这个操作一般是通过条件表达式一次对整个或 DataFrame 完成。

19.5K20

如何用 Python 执行常见的 Excel 和 SQL 任务

如果要查看特定数量的行,还可以在 head() 方法插入行数。 ? ? 我们得到的输出是人均 GDP 数据集的前五行(head 方法的默认),我们可以看到它们整齐地排列成三以及索引。...在 Pandas ,这样做的方式是rename 方法。 ? 在实现上述方法时,我们将使用标题 「gdppercapita」 替换标题「US $」。...我们将使用正则表达式来替换 gdppercapita 的逗号,以便我们可以更容易地使用该。 ? re.sub 方法本质上是使用空格替换逗号。以下教程详细介绍了 re库的各个方法。...我们为一个的 dataframe 分配一个布尔索引的过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 的 dataframe」。现在我们可以显示gdp50000。 ?...现在可以显示一个 dataframe,其中只包含以 s 开头的国家。使用 len 方法快速检查(一个用于计算 dataframe 的行数的救星!)表示我们有 25 个国家符合。 ? ?

10.7K60

用Python执行SQL、Excel常见任务?10个方法全搞定!

如果要查看特定数量的行,还可以在 head() 方法插入行数。 ? ? 我们得到的输出是人均 GDP 数据集的前五行(head 方法的默认),我们可以看到它们整齐地排列成三以及索引。...在 Pandas ,这样做的方式是rename 方法。 ? 在实现上述方法时,我们将使用标题 「gdp_per_capita」 替换标题「US $」。...我们将使用正则表达式来替换 gdp_per_capita 的逗号,以便我们可以更容易地使用该。 ? re.sub 方法本质上是使用空格替换逗号。以下详细介绍了 re库 的各个方法。...我们为一个的 dataframe 分配一个布尔索引的过滤器,这个方法基本上就是说「创建一个人均 GDP 超过 50000 的 dataframe」。现在我们可以显示gdp50000。 ?...现在可以显示一个 dataframe,其中只包含以 s 开头的国家。使用 len 方法快速检查(一个用于计算 dataframe 的行数的救星!)表示我们有 25 个国家符合。 ?

8.2K20

使用pandas-profiling对时间序列进行EDA

在这篇文章,我将利用 pandas-profiling 的时间序列特性,介绍EDA的一些关键步骤。 我们这里使用的数据集是美国的空气质量数据集,可以从 EPA 网站下载。...在上面的pandas-profiling图中你会注意到的第一个区别是线图将替换被识别为时间相关的的直方图。使用折线图,我们可以更好地了解所选的轨迹和性质。...接下来,当切换该的更多详细信息时(如上图所示),我们将看到一个带有自相关和偏自相关图的选项卡。 对于时间序列,自相关显示时间序列现值处与其先前的关系。...从缺失图表还可以看到 SO2 和 CO2 空气质量指数存在缺失数据——所以应该进一步探索其影响以及插补或完全删除这些的范围。...Pandas Profiling 可以从用户获取特定于时间序列的分析报告 - 包括提示数据要点的警报、特定于时间序列分析的线图和相关图,这对于我们分析时间序列数据是非常有用的。

1.2K20

Pandas 学习手册中文第二版:1~5

最初有一个直接建立在 Pandas 的回归模型,但是已经移到 StatsModels 库。 这显示Pandas 常见的模式。...以下显示Missoula中大于82度的: 然后可以将表达式的结果应用于数据帧(和序列)的[]运算符,这仅导致返回求值为True的表达式的行: 该技术在 pandas 术语称为布尔选择,它将构成基于特定选择行的基础...具体而言,在本章,我们将介绍: 重命名列 使用[]和.insert()添加 通过扩展添加 使用连接添加 重新排序列 替换的内容 删除 添加行 连接行 通过扩展添加和替换行 使用.drop...替换的内容 通过使用[]运算符将的Series分配给现有,可以替换DataFrame的内容。 以下演示了用rounded_price的Price替换Price。...此外,我们看到了如何替换特定行和的数据。 在下一章,我们将更详细地研究索引的使用,以便能够有效地从 pandas 对象内检索数据。

8.1K10

Pandas之实用手册

:使用数字选择一行或多行:也可以使用标签和行号来选择表的任何区域loc:1.3 过滤使用特定轻松过滤行。...最简单的方法是删除缺少的行:fillna()另一种方法是使用(例如,使用 0)填充缺失。1.5 分组使用特定条件对行进行分组并聚合其数据时。...例如,按流派对数据集进行分组,看看每种流派有多少听众和剧目:Pandas 将两个“爵士乐”行组合为一行,由于使用了sum()聚合,因此它将两位爵士乐艺术家的听众和演奏加在一起,并在合并的爵士乐显示总和...除了 sum(),pandas 还提供了多种聚合函数,包括mean()计算平均值、min()、max()和多个其他函数。1.6 从现有创建通常在数据分析过程,发现需要从现有创建。...Pandas轻松做到。通过告诉 Pandas 将一除以另一,它识别到我们想要做的就是分别划分各个(即每行的“Plays”除以该行的“Listeners”)。

13710

Python数据科学(六)- 资料清理(Ⅰ)1.Pandas1.资料筛选2.侦测遗失3.补齐遗失

1.资料筛选 #存储元素与切割 import pandas as pd df = pd.DataFrame(info) df.ix[1] # 查看特定 df[['name', 'age']] # 查看特定特定内容...df = df.drop(6) 设定的索引 # 新增的栏位 df['userid'] = range(101, 107) # 设置的索引 df. set_index('userid', inplace...舍弃含有缺失 增加一包含缺失 df['employee'] = np.nan 舍弃皆为缺失 df.dropna(axis=1, how = 'all') 使用0表示沿着每一或行标签...df[df['物业费'] == ‘暂无资料’, ‘物业费’] = np.nan # 在打开文件的时候,直接把暂无资料替换成缺失 df = pandas.read_csv('data/house_data.csv...df.isnull().any() 统计栏位缺失的数量 df.isnull().sum() 舍弃参考月供这一 df = df.drop('参考月供', axis = 1) 筛选字段,筛选出产权性质各种产权所占的数量

2.2K30

KDnuggets 本月最受欢迎:5 个不容错过的机器学习项目

即使你不需要使用这些特定的工具,但检查它们的实现细节或项目的代码,可能带给你一些的启发。...Sklearn-pandas Star:763 GitHub地址:https://github.com/paulgb/sklearn-pandas 前面介绍的项目都是通用的机器学习工具包,或是特定算法的实现...Sklearn-pandas 是一个正在开发的模块,它的 GitHub 库介绍写道,它“在 Scikit-Learn 的机器学习方法和 pandas 风格的数据框架之间架起了桥梁”。...具体来说,它规定了以下两点: 将 DataFrame 的映射到变换的方法,这些变换以后会重新组合到特征。...需要注意的是,前三是 LabelBinarizer 的输出(分别对应_cat_,_dog_和_fish_),第四是children 数量的标准

68560

国外大神制作的超棒 Pandas 可视化教程

Pandas 同样支持操作 Excel 文件,使用 read_excel() 接口能从 EXCEL 文件读取数据。 2.选择数据 我们能使用标签来选择数据。...我们可以通过使用特定行的轻松筛选出行。比如我们想获取音乐类型(Genre)为为 Jazz 行。 ? 再比如获取超过 180万听众的 艺术家。 ?...import pandas as pd # 将填充为 0 pd.fillna(0) 5.分组 我们使用特定条件进行分组并聚它们的数据,也是很有意思的操作。...相加在一起,然后组合在 Jazz 显示总和。...这也是 Pandas 库强大之处,能将多个操作进行组合,然后显示最终结果。 6.从现有创建 通常在数据分析过程,我们发现自己需要从现有创建,使用 Pandas 也是能轻而易举搞定。

2.7K20
领券