首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从Excel到Python:最常用36个Pandas函数

本文粉丝投稿《从Excel到Python》读书笔记 本文涉及pandas最常用36个函数,通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理,以及最常见数据分类,数据筛选,分类汇总,透视等最常见操作...7.查看列名称 Colums函数用来单独查看数据表中列名称。...Name: city, dtype: object city列中beijing存在重复,分别在第一和最后一 drop_duplicates()函数删除重复值 #删除后出现重复值 df['city...#对category字段值依次进行分列,并创建数据表,索引值df_inner索引列,列名称为category和size pd.DataFrame((x.split('-') for x in df_inner...#按索引提取区域行数值 df_inner.loc[0:5] ? Reset_index函数用于恢复索引,这里我们重新将date字段日期 设置数据表索引,并按日期进行数据提取。

11.4K31
您找到你想要的搜索结果了吗?
是的
没有找到

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

如果将整数值传递给random_state,则每次运行代码时都将生成相同采样数据。 5. Where where函数用于指定条件数据替换。如果不指定条件,则默认替换值 NaN。...上述代码中,where(df['new_col']>0,0)指定'new_col'列中数值大于0所有数据被替换对象,并且被替换为0。...列标签是列名。对于行标签,如果我们不分配任何特定索引,pandas默认创建整数索引。因此,行标签是从0开始向上整数。与iloc一起使用行位置也是从0开始整数。...使用更具体数据类型,某些操作执行得更快。例如,对于数值,我们更喜欢使用整数或浮点数据类型。 infer_objects尝试对象列推断更好数据类型。考虑以下数据: ?...Describe describe函数计算数字列基本统计信息,这些列包括计数、平均值、标准偏差、最小值和最大值、中值、第一个和第三个四数。因此,它提供了dataframe统计摘要。 ?

5.5K30

Pandas中你一定要掌握时间序列相关高级功能 ⛵

其实 Pandas 中有非常好时间序列处理方法,但是因为使用并不特别多,很多基础教程也会略过这一部。在本篇内容中,ShowMeAI对 Pandas 中处理时间核心函数方法进行讲解。...数据科学工具库速查表 | Pandas 速查表图解数据分析:从入门到精通系列教程 时间序列时间序列是指将同一统计指标的数值按其发生时间先后顺序排列而成数列。...简单说来,时间序列是随着时间推移记录某些取值,比如说商店一年销售额(按照月份从1月到12月)。图片 Pandas 时间序列处理我们要了解第一件事是如何在 Pandas创建一组日期。...下面我们创建一个包含日期和销售额时间序列数据,并将日期设置索引。...重采样Pandas 中很重要一个核心功能是resample,重新采样,是对原样本重新处理一个方法,是一个对常规时间序列数据重新采样和频率转换便捷方法。

1.7K63

时间序列采样pandasresample方法介绍

在本文中,我们将深入研究Pandas重新采样关键问题。 为什么重采样很重要? 时间序列数据到达时通常带有可能与所需分析间隔不匹配时间戳。...2、Downsampling 下采样包括减少数据频率或粒度。将数据转换为更大时间间隔。 重采样应用 重采样应用十广泛: 在财务分析中,股票价格或其他财务指标可能以不规则间隔记录。...在创建时间序列可视化时,通常需要以不同频率显示数据。重新采样够调整绘图中细节水平。 许多机器学习模型都需要具有一致时间间隔数据。在为模型训练准备时间序列数据时,重采样是必不可少。...重采样过程 重采样过程通常包括以下步骤: 首先选择要重新采样时间序列数据。该数据可以采用各种格式,包括数值、文本或分类数据。 确定您希望重新采样数据频率。...) # 将日期列设置索引 df.set_index('date', inplace=True) # 使用resample()方法进行重新采样 # 将每日数据转换为每月数据并计算每月总和

56730

Python面试十问2

四、如何快速查看数据统计摘要 区别df.describe()和df.info() df.describe():默认情况下,它会为数值型列提供中心趋势、离散度和形状统计描述,包括计数、均值、标准差、最小值...、下四数(25%)、中位数(50%)、上四数(75%)以及最大值。...此外,你可以通过传递参数来调整df.describe()行为,例如include参数可以设置'all'来包含所有列统计信息,或者设置'O'来仅包含对象列统计信息。...六、pandas运算操作  如何得到⼀个数列最⼩值、第25百、中值、第75和最⼤值?...九、分组(Grouping)聚合 “group by” 指的是涵盖下列⼀项或多项步骤处理流程: 分割:按条件把数据分割成多组; 应⽤:每组单独应⽤函数; 组合:将处理结果组合成⼀个数据结构。

7310

Python在Finance上应用4 :处理股票数据进阶

欢迎来到Python for Finance教程系列第4部。 在本教程中,我们将基于Adj Close列创建烛形/ OHLC图,这将允许我介绍重新采样和其他一些数据可视化概念。...因此,我们将创建自己OHLC数据,这也将使能够显示来自Pandas另一个数据转换: df_ohlc = df['Adj Close'].resample('10D').ohlc() 我们在这里所做创建一个基于...df ['Adj Close']列新数据框,重新封装10天窗口,并且重采样是一个ohlc(开高低关闭)。...由于我们数据是每日数据,因此将其重新采样10天数据会显着缩小数据大小。这是你可以如何规范化多个数据集。...如果你喜欢的话,这是更高级Pandas功能,你可以从中了解更多。 我们想要绘制烛形数据以及成交量数据。我们不必重新采样数据,应该,因为它与10D定价数据相比太细致。

1.9K20

50个超强Pandas操作 !!

创建 DataFrame 使用字典创建DataFrame import pandas as pd data = {'ID': [101, 102, 103, 104, 105], 'Name...描述性统计信息 df.describe() 使用方式: 提供DataFrame描述性统计信息,包括均值、标准差、最小值、25%位数、中位数(50%位数)、75%位数和最大值。...将离散型特征数据映射到一个高维空间中,每个可能取值都对应于高维空间一个点,在这些点上取值1,其余均为0,因此独热编码也被称为“一有效编码”或“One-of-K encoding”) 24....df['Date'] = pd.to_datetime(df['Date']) 26. 时间序列重采样 df.resample('D').sum() 使用方式: 对时间序列数据进行重新采样。...示例: 将数据按天重新采样并求和。 df.resample('D').sum() 27.

26210

pandas用法-全网最详细教程

大家好,又见面了,我是你们朋友全栈君。 一、生成数据表 各位读者朋友们,由于更新blog不易,如果觉得这篇blog对你有用的话,麻烦关注,点赞,收藏一下哈,十感谢。...= pd.DataFrame.from_records(items, columns=['reply', 'pv']) 3、用pandas创建数据表: df = pd.DataFrame({...,并创建数据表,索引值df_inner索引列,列名称为category和size pd.DataFrame((x.split('-') for x in df_inner['category']),...1、按索引提取单行数值 df_inner.loc[3] 2、按索引提取区域行数值 df_inner.iloc[0:5] 3、重设索引 df_inner.reset_index() 4、设置日期索引...八、数据统计 数据采样,计算标准差,协方差和相关系数 1、简单数据采样 df_inner.sample(n=3) 2、手动设置采样权重 weights = [0, 0, 0, 0, 0.5, 0.5

5.6K30

Python数据分析pandas之分组统计透视表

数据聚合统计 Padans里聚合统计即是应用分组方法对数据框进行聚合统计,常见有min(最小)、max(最大)、avg(平均值)、sum(求和)、var()、std(标准差)、百数、中位数等。...数据框概览 可以通过describe方法查看当前数据框里数值统计信息,主要包括条数、均值、标准差、最小值、25数、50数、75数、最大值方面的信息。...print(df2.describe()) #查看age列数据概况 print(df2.age.describe()) # 当然也可以指定percentiles,比如这里仅显示百之30、50数...#这里按照等级列进行分组,以求最大值例,其它聚合函数类似。...,不同级别最小值(min)、收入(income)总和交叉表。

1.5K30

Python中时间序列数据操作总结

在本文中,我们介绍时间序列数据索引和切片、重新采样和滚动窗口计算以及其他有用常见操作,这些都是使用Pandas操作时间序列数据关键技术。...t_string = t.strftime("%b/%d/%Y, %H:%M:%S") #Dec/26/2022, 14:39:32 Unix时间(POSIX时间或epoch时间)是一种将时间表示单个数值系统...这可以是'ffill'(向前填充)或'bfill'(向后填充)之类字符串。 采样 resample可以改变时间序列频率并重新采样。我们可以进行上采样(到更高频率)或下采样(到更低频率)。...resample方法参数: rule:数据重新采样频率。这可以使用字符串别名(例如,'M'表示月,'H'表示小时)或pandas偏移量对象来指定。...() 百比变化 使用pct_change方法来计算日期之间变化百比。

3.3K61

pandas时间处理

pandas处理技巧-时间处理 记录pandas中关于时间两个处理技巧 字符串类型和datatimens类型转化 如何将时分秒类型数据转成秒单位数据 字符串和时间格式转化 报错 import...2、想将上述时长全部转成秒:小时*24+分钟*60+秒 处理步骤 1、转成字符串并单独取出时分秒 # 1、先转成字符串 df["平均访问时长"] = df["平均访问时长"].apply(lambda...x: x.split("-")[-2]) 倒数第二 df["秒"] = df["平均访问时长"].apply(lambda x: x.split("-")[-1]) # 取出倒数第一数据 2、检查时...、、秒统计情况 没有超过1个小时数据 有00和超过10数据,需要特殊处理;秒也是类似情况 ?...3、分钟特殊处理 pandas中判断某个字符串开始和结尾字符:startswith()、endswith();使用了if循环来进行判断: 如果是0开头,但不是0结尾:取出后面的数值 如果是不是0开头

1K20

【Python环境】python 中数据分析几个比较常用方法

解决方法: df = pandas.read_excel('1.xls',sheetname= '店铺分析日报') df = df.loc[:,['关键词','带来访客数','跳失率']] #访问指定列...= read_csv("1.csv", sep="|"); #把计算结果添加为一个新df['result'] = df.price*df.num #新列名,后面是对应数值 print...(df) 4,如何对百数值进行计算,再将其输出 需求情况:比较蛋疼一个情况,电商很多数据都是百,带有百号,不能进行直接计算,需要对其进行转换,然后再输出 解决方法: from pandas...(float)/100; f.round(decimals=2) #保留小数点后面2 f_str = f.apply(lambda x: format(x, '.2%')); #再转换成百号并且保留...2数(精度可以调整) df['跳失率'] = f_str #重新赋值 5,如何获取导入数据有几行和几列(数值) 需求情况:有的时候需要写一个通用脚本,比如随机抽样分析,程序自动获取行和列的话

1.6K80

PySpark SQL——SQL和pd.DataFrame结合体

了解了Spark SQL起源,那么其功能定位自然也十清晰:基于DataFrame这一核心数据结构,提供类似数据库和数仓核心功能,贯穿大部分数据处理流程:从ETL到数据处理到数据挖掘(机器学习)。...注:这里Window单独类,用于建立窗口函数over中对象;functions子模块中还有window函数,其主要用于对时间类型数据完成重采样操作。...这里补充groupby两个特殊用法: groupby+window时间开窗函数时间重采样,对标pandasresample groupby+pivot实现数据透视表操作,对标pandaspivot_table...:删除指定列 最后,再介绍DataFrame几个通用常规方法: withColumn:在创建新列或修改已有列时较为常用,接收两个参数,其中第一个参数函数执行后列名(若当前已有则执行修改,否则创建新列...rank、dense_rank、ntile,以及前文提到可用于时间重采样窗口函数window等 数值处理类,主要是一些数学函数,包括sqrt、abs、ceil、floor、sin、log等 字符串类

9.9K20

文末福利|特征工程与数据预处理四个高级技巧

重新采样不平衡数据 实际上,我们经常会遇到不平衡数据。如果目标数据只有轻微不平衡,这并不一定是一个问题。...导入该包并使用fit_transform方法: import pandas as pd from imblearn.over_sampling import SMOTE # 导入数据创建x和y df...)”:重新采样除了多数类其他类; '所有(all)':重新采样所有类; "词典(dict)":键目标类,值对应于每个目标类所需样本数量。...如果你数据如果是一个简单表格,你可以简单地按照下面的代码: import featuretools as ft import pandas as pd # 创建实体 turnover_df = pd.read_csv...接下来,我们可以简单地运行ft.dfs来创建新变量。我们指定参数trans_primitives来表示以什么方式创建变量。这里我们选择将数值变量相加或相乘。 ?

1.2K40

Pandas profiling 生成报告并部署一站式解决方案

describe 函数输出: df.describe(include='all') 注意我使用了describe 函数 include 参数设置"all",强制 pandas 包含要包含在摘要中数据集所有数据类型...变量 报告这一部详细分析了数据集所有变量/列/特征。显示信息因变量数据类型而异。 数值变量 对于数值数据类型特征,可以获得有关不同值、缺失值、最小值-最大值、平均值和负值计数信息。...统计选项卡包括: 位数统计:Min-Max、百数、中位数、范围和 IQR(四间距)。 描述性统计:标准偏差、方差系数、峰度、均值、偏度、方差和单调性。...直方图选项卡显示变量频率或数值数据分布。通用值选项卡基本上是变量 value_counts,同时显示计数和百比频率。..., "Production": "产量多少", } } 当您将其添加到 ProfileReport 函数时,将在概览部分下创建一个名为“variables”单独选项卡: 报表控制参数 假设你不想显示所有类型相关系数

3.2K10

Pandas三百题

|数值 查看数值型列统计信息,计数,均值 df.describe().round(2).T 6-查看数据统计信息|离散 查看离散型列统计信息,计数,频率 df.describe(include=['...],"办学层次得分":["min", "max", "median", "mean"]}) 11-统计信息|完整 查看数值型数据统计信息(均值,位数),并保留两小数 df.describe().round...','education'])['salary'].mean()).rename_axis(['工作年限','教育']) 14 - 分组转换| transform 在原数据框 df 新增一列,数值该区平均薪资水平...索引设置日期,将 df1 数据向后移动一天 df1.set_index(['日期']).shift(1) 25 - 日期重采样|日 -> 周 按周对 df1 进行重采样,保留每周最后一个数据 df1...last() 28 - 日期重采样|低频 -> 高频 将 df2 5钟 数据改为 3钟,缺失数据向前填充 df_3min = df2.set_index('时间').resample('3min

4.6K22

精心整理 | 非常全面的Pandas入门教程

如何获得数值series值 # 设置随机数种子 state = np.random.RandomState(100) # 从均值5标准差25正态分布随机抽取5个点构成series ser...如何计算数值series自相关系数 ser = pd.Series(np.arange(20) + np.random.normal(1, 10, 20)) # 求series自相关系数,i偏移量...描述每列统计信息,如std,四数等 df_stats = df.describe() # dataframe转化数组 df_arr = df.values # 数组转化为列表 df_list =...如何将dataframe中所有值以百格式表示 df = pd.DataFrame(np.random.random(4), columns=['random']) # 格式化为小数点后两数...如何从series中查找异常值并赋值 ser = pd.Series(np.logspace(-2, 2, 30)) # 小于low_per数赋值low,大于low_per数赋值high

9.9K53
领券