首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas速查卡-Python数据科学

它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经优化了运行速度,与使用Python的内置函数进行数值数据处理相比,这是一个显著的优势。...按降序对排序 df.sort_values([col1,ascending=[True,False]) 将col1按升序排序,然后按降序排序col2 df.groupby(col) 从一列返回一组对象的...df.groupby([col1,col2]) 从多列返回一组对象的 df.groupby(col1)[col2] 返回col2中的的平均值,按col1中的分组(平均值可以用统计部分中的几乎任何函数替换...) df.pivot_table(index=col1,values=[col2,col3],aggfunc=max) 创建一个数据透视表,按col1分组计算col2和col3的平均值 df.groupby...() 查找每个列中的最大 df.min() 查找每列中的最小 df.median() 查找每列的中值 df.std() 查找每个列的标准差 点击“阅读原文”下载此速查卡的打印版本 END.

9.2K80
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas速查手册中文版

df.iloc[0,0]:返回第一列的第一个元素 数据清理 df.columns = ['a','b','c']:重命名列名 pd.isnull():检查DataFrame对象中的空返回一个Boolean...数组 pd.notnull():检查DataFrame对象中的非空返回一个Boolean数组 df.dropna():删除所有包含空 df.dropna(axis=1):删除所有包含空的列...df.dropna(axis=1,thresh=n):删除所有小于n个非空 df.fillna(x):用x替换DataFrame对象中所有的空 s.astype(float):将Series中的数据类型更改为...'):更改索引列 df.rename(index=lambda x: x + 1):批量重命名索引 数据处理:Filter、Sort和GroupBy df[df[col] > 0.5]:选择col列的大于...(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,计算col2和col3的最大的数据透视表 df.groupby(col1).

12.1K92

我用Python展示Excel中常用的20个操

数据插入 说明:在指定位置插入指定数据 Excel 在Excel中我们可以将光标放在指定位置右键增加一/列,当然也可以在添加时对数据进行一些计算,比如我们就可以使用IF函数(=IF(G2>10000...缺失处理 说明:对缺失(空)按照指定要求处理 Excel 在Excel中可以按照查找—>定位条件—>空来快速定位数据中的空,接着可以自己定义缺失的填充方式,比如将缺失用上一个数据进行填充...Pandas 在Pandas中对数据进行分组计算可以使用groupby轻松搞定,比如使用df.groupby("学历").mean()一代码即可对示例数据的学历进行分组求不同学历的平均薪资,结果与Excel...Pandas 在pandas中也有现成的函数describe快速完成对数据的描述性统计,比如使用df["薪资水平"].describe()即可得到薪资列的描述性统计结果 ?...数据可视化 说明:对数据进行可视化 Excel 在Excel中可以通过点击插入选择图表来快速完成对数据的可视化,比如制作薪资的直方图,并且有很多样式可以直接使用 ?

5.5K10

pandas技巧4

返回一个Boolean数组 pd.notnull() # 检查DataFrame对象中的非空返回一个Boolean数组 df.dropna() # 删除所有包含空 df.dropna(axis...=1) # 删除所有包含空的列 df.dropna(axis=1,thresh=n) # 删除所有小于n个非空 df.fillna(value=x) # 用x替换DataFrame对象中所有的空...1的 s.replace([1,3],['one','three']) # 用'one'代替1,用'three'代替3 df.rename(columns=lambda x: x + 1) # 批量更改列名...col3的最大、最小的数据透视表 df.groupby(col1).agg(np.mean) # 返回按列col1分组的所有列的均值,支持df.groupby(col1).col2.agg(['min...np.max df.groupby(col1).col2.transform("sum") # 通常与groupby连用,避免索引更改 数据合并 df1.append(df2) # 将df2中的添加到

3.4K20

太赞了!30 个 Python 函数,加速你的数据分析处理速度!

还可以使用 skiprows 参数从文件末尾选择。Skiprows=5000 表示我们将在读取 csv 文件时跳过前 5000 。...missing_index = np.random.randint(10000, size=20) 我们将使用 loc 将某些值更改为 np.nan(缺失)。...8.删除缺失 处理缺失的另一个方法是删除它们。以下代码将删除具有任何缺失。...我们可以通过重置索引来更改它。 print(df_summary.reset_index()) ? 16.重置删除原索引 在某些情况下,我们需要重置索引并同时删除原始索引。...但是,它可能会导致不必要的内存使用,尤其是当分类变量具有较低的基数。 低基数意味着列与行数相比几乎没有唯一。例如,地理列具有 3 个唯一和 10000

8.9K60

首次公开,用了三年的 pandas 速查表!

返回一个 Boolean 数组 pd.notnull() # 检查DataFrame对象中的非空返回一个 Boolean 数组 df.drop(['name'], axis=1) # 删除列 df.drop...([0, 10], axis=0) # 删除 del df['name'] # 删除列 df.dropna() # 删除所有包含空 df.dropna(axis=1) # 删除所有包含空的列...':'未知'}) # 指定列的空替换为指定内容 s.astype(float) # 将Series中的数据类型更改为 float 类型 df.index.astype('datetime64[ns]'...不能指定,如:df[100] df[:100] # 只取指定 df1 = df.loc[0:, ['设计师ID', '姓名']] # 将ages平分成5个区间指定 labels ages = np.array...gb, by='team') # 窗口计算 '2s' 为两秒 df.rolling(2).sum() # 在窗口结果基础上的窗口计算 df.expanding(2).sum() # 超出(大于、小于)的替换成对

7.4K10

Pandas 秘籍:6~11

由于数据是以这种方式构造的,因此我们可以将idxmax方法应用于数据的每一,以找到具有最大的列。 我们需要使用axis参数更改其默认行为。...以下四个代码块总结了使用groupby方法执行聚合的主要方式: 将agg与字典一起使用是最灵活的方法,它允许您为每一列指定聚合函数: >>> df.groupby(['grouping', 'columns...因此,完成对多列操作的最佳方法是使用apply: >>> college2.groupby('STABBR')['SATMTMID'] \ .agg(weighted_math_average...默认情况下,dropna方法删除具有一个或多个缺失。 我们必须使用subset参数来限制其查找缺少的列。 在第 2 步中,我们定义一个仅计算SATMTMID列的加权平均值的函数。...使用一个匿名函数,该函数隐式传递给调用序列,检查每个是否小于零。 第 5 步的结果是一个序列,其中仅保留负值,其余更改为缺失

33.8K10

数据导入与预处理-第6章-02数据变换

基于列重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一来形成结果DataFrame的轴。此函数不支持数据聚合,多个将导致列中的MultiIndex。...pivot()函数如下: DataFrame.pivot(index=None, columns=None, values=None) index:表示新生成对象的索引,若未指定说明使用现有对象的索引...columns:表示新生成对象的列索引。 values :表示填充新生成对象的。 要想了解pivot()函数,可以先了解下pivot_table()函数。...() 2.3.1.1 分组操作 pandas中使用groupby()方法根据键将原数据拆分为若干个分组。...使用pandas的groupby()方法拆分数据后会返回一个GroupBy类的对象,该对象是一个可迭代对象,它里面包含了每个分组的具体信息,但无法直接被显示。

19.2K20

30 个小例子帮你快速掌握Pandas

尽管我们对loc和iloc使用了不同的列表示形式,但没有改变。原因是我们使用数字索引标签。因此,的标签和索引都相同。 缺失的数量已更改: ? 7.填充缺失 fillna函数用于填充缺失。...12.groupby函数 Pandas Groupby函数是一种通用且易于使用的函数,有助于获得数据概览。它使探索数据集和揭示变量之间的潜在关系变得更加容易。 我们将为groupby函数写几个例子。...\groupby(['Geography','Gender']).agg(['mean','count']) ? 我们可以看到每组中观察)的数量和平均流失率。...低基数意味着与行数相比,一列具有很少的唯一。例如,Geography列具有3个唯一和10000。 我们可以通过将其数据类型更改为category来节省内存。...我们可以使用舍入函数轻松调整它。 df_new.round(1)#所需的小数位数 ? 27.更改显示选项 无需每次都手动调整显示选项,我们可以更改各种参数的默认显示选项。

10.6K10

Python常用小技巧总结

返回⼀个Boolean数组 pd.notnull() # 检查DataFrame对象中的⾮空返回⼀个Boolean数组 df.dropna() # 删除所有包含空的⾏ df.dropna...对象中所有的空,⽀持 df[column_name].fillna(x) s.astype(float) # 将Series中的数据类型更改为float类型 s.replace(1,'one')...(col) # 返回⼀个按列col进⾏分组的Groupby对象 df.groupby([col1,col2]) # 返回⼀个按多列进⾏分组的Groupby对象 df.groupby(col1)[col2...col3的最⼤、最⼩的数据透视表 df.groupby(col1).agg(np.mean) # 返回按列col1分组的所有列的均值,⽀持 df.groupby(col1).col2.agg([...(col1).col2.transform("sum") # 通常与groupby连⽤,避免索引更改 数据合并 df1.append(df2) # 将df2中的⾏添加到df1的尾部 df.concat

9.4K20

pandas基础:使用Python pandas Groupby函数汇总数据,获得对数据更好地理解

图3 实际上,我们可以使用groupby对象的.agg()方法将上述两代码组合成一,只需将字典传递到agg()。字典键是我们要处理的数据列,字典(可以是单个或列表)是我们要执行的操作。...图4 图5 使用字典方式,除非使用rename()方法,否则无法更改列名。...要更改agg()方法中的列名,我们需要执行以下操作: 关键字是新的列名 这些是命名元组 pd.namedagh,第一个参数用于列,第二个参数用于指定操作 图6 pd.NamedAgg是一个名称元组...,也允许使用正则元组,因此我们可以进一步简化上述内容: 图7 按多列分组 记住,我们的目标是希望从我们的支出数据中获得一些见解,尝试改善个人财务状况。...我们也可以使用内置属性或方法访问拆分的数据集,而不是对其进行迭代。例如,属性groups为我们提供了一个字典,其中包含属于给定组的的组名(字典键)和索引位置。

4.3K50

Pandas

,还可以写成类似于index=mapper的形式,默认情况下,mapper匹配不到的不会报错 更改 DataFrame 中的数据 更改 更改可以借助访问 DataFrame 的方法对进行修改。...] = 3#更改符合条件的记录的 删除或者列需要借助 drop 函数(要调整 inplace 参数,感觉这个函数主要是用来不显示某些列的)。...()(默认按列计算好像,返回的还是一个 dataframe,更改查找是否存在重复数据:df.duplicated()(返回布尔,默认将已经观察到先前有之后的返回 True 这个需要调整 keep...().sum():统计每列缺失的个数 #将数据按照指定列分组后统计每组中每列的缺失情况,筛选出指定列存在缺失的组升序排列 data_c=data.groupby('所在小区').apply(lambda...,分别返回各个类别的记录数量,即频次,根据 sort 的决定是否按频次排序。

9.1K30

通过Pandas实现快速别致的数据分析

我们可以通过直接打印数据框来查看前60数据。 print(data) 我们可以看到,所有的数据都是数值型的,而最终的类别是我们想要预测的因变量。...具体包括:数量、平均数、标准差、最小、最大、第一四分位数、第二四分位数(中位数)、第三四分位数。 我们可以查看这些统计数据,开始注意与我们的问题有关的有趣事实。...您可以更好地比较同一图表上每个类的属性: data.groupby('class').plas.hist(alpha=0.4) 通过绘制只包含plas一个属性的直方图,将数据按类别分组,其中红色的分类为...我们从快速和别致等妙语趣话开始,载入我们的CSV格式的数据,使用统计摘要进行了描述。 接下来,我们探索了各种不同的方法绘制我们的数据图像来揭示有趣的数据结构。...我们观察了箱线图和直方图中数据的分布情况、与类属性相比较的属性分布,以及最后在成对散点图矩阵中属性之间的关系。

2.6K80

Pandas 数据分析技巧与诀窍

要直接更改数据帧而不返回所需的数据帧,可以添加inplace=true作为参数。 出于解释的目的,我将把数据框架称为“数据”——您可以随意命名它。...在不知道索引的情况下检索数据: 通常使用大量数据,几乎不可能知道每一的索引。这个方法可以帮你完成任务。因此,在因此,在“数据”数据框中,我们正在搜索user_id等于1的一的索引。...sample = data.sample(n=2000) sorted_sample = sample.sort_values(by=[‘id’]) 使用GroupBy对记录分组: 如果您想知道每个用户...这些数据将为您节省查找自定义数据集的麻烦。 此外,数据可以是任何首选大小,可以覆盖许多数据类型。此外,您还可以使用上述的一些技巧来更加熟悉Pandas,了解它是多么强大的一种工具。...最后,我希望这篇文章对您有所帮助,感谢您花时间阅读它。

11.5K40

Python 数据分析初阶

同样的情况,我们可以增加分组获取对应的数据 data1 = data['score'].groupby(data['city']) data1.mean() 这种情况下可以类比为SQL语句: select...df.rename(columns={'category': 'category-size'}): 更改列名 df['city'].drop_duplicates(): 删除后出现的重复 df...,创建数据表,索引 df 的索引列,列名称为 category 和 size pd.DataFrame((x.split('-') for x in df['category...具体的使用见下: df.loc[3]: 按索引提取单行的数值 df.iloc[0:5]: 按索引提取区域行数据 df.reset_index(): 重设索引 df=df.set_index('...beijing 和 shanghai ,然后将符合条件的数据提取出来 pd.DataFrame(category.str[:3]): 提取前三个字符,生成数据表 数据筛选 使用与、或、非三个条件配合大于

1.3K20

用 Pandas 进行数据处理系列 二

获取指定的列和 import pandas as pd df = pd.read_csv('xxxx.xls') 获取操作df.loc[3:6]获取列操作df['rowname']取两列df[['...df.rename(columns={‘category’: ‘category-size’})更改列名df[‘city’].drop_duplicates()删除后出现的重复df[‘city’].drop_duplicates...,创建数据表,索引 df 的索引列,列名称为 category 和 size pd.DataFrame((x.split('-') for x in df['category...loc函数按标签进行提取iloc按位置进行提取ix可以同时按标签和位置进行提取 具体的使用见下: df.loc[3]按索引提取单行的数值df.iloc[0:5]按索引提取区域行数据df.reset_index...,然后将符合条件的数据提取出来pd.DataFrame(category.str[:3])提取前三个字符,生成数据表 数据筛选 使用与、或、非三个条件配合大于、小于、等于对数据进行筛选,并进行计数和求和

8.1K30

快速介绍Python数据分析库pandas的基础知识和代码示例

添加或插入行 要向DataFrame追加或添加一,我们将新创建为Series使用append()方法。...在本例中,将新初始化为python字典,使用append()方法将该行追加到DataFrame。...groupby 是一个非常简单的概念。我们可以创建一组类别,对类别应用一个函数。这是一个简单的概念,但却是我们经常使用的极有价值的技术。...使用max()查找每一和每列的最大 # Get a series containing maximum value of each row max_row = df.max(axis=1) ?...类似地,我们可以使用df.min()来查找每一或每列的最小。 其他有用的统计功能: sum():返回所请求的轴的的总和。默认情况下,axis是索引(axis=0)。

8.1K20

三个你应该注意的错误

你只需要使用groupby函数: promotion.groupby("promotion_code").agg( total_promo_sales = ("sales_qty",...由于某种原因,一些促销代码未被记录。 groupby函数默认忽略缺失。要包含它们在计算中,你需要将dropna参数设置为False。...我们可以使用和列标签以及它们的索引来访问特定的和标签集。 考虑我们之前示例中的促销DataFrame。假设我们想要更新第二的销售数量值。...现在让我们使用loc方法执行相同的操作。由于标签和索引是相同的,我们可以使用相同的代码(只需将iloc更改为loc)。...当我们使用loc方法时,我们多了一。 原因是使用loc方法时,上限是包含的,因此最后一(具有标签4的)被包括在内。 当使用iloc方法时,上限是不包含的,因此索引为4的不包括在内。

7610
领券