首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas数据处理与分析教程:从基础到实战

Pandas两个主要数据结构是Series和DataFrame,可以理解NumPy数组增强版。它们提供了更多功能和灵活性,使得数据处理变得更加直观和方便。...数据透视表是一种用于对数据进行汇总和聚合功能。...NaN 300 NaN NaN Bob NaN 20 NaN NaN 250 NaN Charlie NaN NaN 35 NaN NaN 350 数据透视表每个单元格表示对应姓名和年份销售额和利润总和...# 查看数据基本信息 print(df.info()) 使用info方法打印出数据基本信息,包括列名称数据类型以及非空值数量等。...最后,使用groupby方法按照月份对数据进行分组,然后使用sum方法计算每个月总销售额和利润,并将结果存储在monthly_sales_profit

28910
您找到你想要的搜索结果了吗?
是的
没有找到

嵌入式AI —— 6. 糖葫芦加糖,浅谈深度学习数据增广

,一晃过去了两个月。。。。...闲话不多说,开始正题,小编这次带来是,进行深度学习部署时一段比较有用小插曲:浅谈深度学习数据增广。 数据增广,听起来很玄乎,其实很简单,就是把有限数据集变得更大更多。...我们需要减少数据集中无关特征数量。对于上面的猫狗分类器,一个简单办法就是数据集添加不同朝向猫狗图片。更好办法是,将数据集中照片进行水平翻转,再用新数据集就会训练得到你想要结果。...我们赋予每个技术一个增强因子,以增强数据集。 但是要注意,并不是所有的模型都适合进行数据集扩展,比如,人脸识别,一般不能进行水平翻转。 翻转:对图片进行水平或是垂直翻转 ?...裁剪,随机从原始图中采样一部分,然后调整原始大小,又称作随机裁剪。 ?

61330

Python在Finance上应用4 :处理股票数据进阶

名为烛形图OHLC图表是一种将开盘价,最高价,最低价和收盘价数据全部集中在一个很好格式图表。 另外,它有漂亮颜色和前面提到美丽图表?...Pandas自动你处理,但就像我说那样,我们没有烛形图奢侈品。 首先,我们需要适当OHLC数据。 目前数据确实有OHLC价值,除非我错了,特斯拉从未有过送转,但你永远不会是这样幸运。...我们也可以用.mean()或.sum()做10天平均值或10天总和。请记住,这10天平均值是10天平均值,而不是移动平均值。...由于我们数据是每日数据,因此将其重新采样10天数据会显着缩小数据大小。这是你可以如何规范化多个数据集。...有时,您可能会在每个月个月初记录一次数据每个月末记录其他数据,以可能终每周记录一些数据。您可以将该数据框重新采样到月末,每个月,并有效地将所有数据归一化!

1.9K20

玩转Pandas,让数据处理更easy系列6

Numpy只能通过位置找到对应行、列,因此Pandas是更强大具备可插可删可按照键索引工具库。...合地话就是映射具体某个数据结构。...04 分(splitting) 分组就是根据默认索引映射不同索引取值分组名称,来看如下所示DataFrame实例df_data,可以按照多种方式对它分组,直接调用groupby接口, ?...06 治:分组上操作 对分组上操作,最直接是使用aggregate操作,如下,求出每个分组上对应列总和,大家可以根据上面的分组情况,对应验证: agroup = df.groupby('A')...如果根据两个字段组合进行分组,如下所示,对应分组总和, abgroup = df.groupby(['A','B']) abgroup.aggregate(np.sum) ?

2.7K20

总结了25个Pandas Groupby 经典案例!!

大家好,我是俊欣~ groupby是Pandas数据分析中最常用函数之一。它用于根据给定列不同值对数据点(即行)进行分组,分组后数据可以计算生成组聚合值。...如果我们有一个包含汽车品牌和价格信息数据集,那么可以使用groupby功能来计算每个品牌平均价格。 在本文中,我们将使用25个示例来详细介绍groupby函数用法。...这25个示例还包含了一些不太常用但在各种任务中都能派上用场操作。 这里使用数据集是随机生成,我们把它当作一个销售数据集。...Daisy","PG1")) daisy_pg1.head() output 21、rank函数 rank函数用于根据给定列行分配秩。...我们可以使用rank和groupby函数分别对每个行进行排序。

3.3K30

Matplotlib类别比较图(3)

(可选参数) flows:数据流(流入流出)。(必要参数) oreintations:数据流方向。(必要参数) labels:每个数据名称。...(注意,输入总和1,输出也要为1) flows = [0.2, 0.1, 0.4, 0.3, -0.6, -0.05, -0.15, -0.2] #设置数据每个标签 labels = ['理财'...nodes:节点列表 links:连接列表 实例:现有一些数据,记录了一个月主要消费情况,使用桑基图表示消费类别关系,并反映每个类别的流向特征。...2、词云图 词云图是通过使每个大小与其出现频率成正比,显示不同单词再给定文本频率,然后将所有字排在一起,形成云状图案,也可以任意格式排列:水平线、垂直列或其他形状。...在词云图中使用颜色通常是毫无意义,主要是为了美观,我们可以用颜色对单词进行分类或显示另外一个数据变量。通常用于博客,也可以比较两个不同文本。

95310

25个例子学会Pandas Groupby 操作

groupby是Pandas数据分析中最常用函数之一。它用于根据给定列不同值对数据点(即行)进行分组,分组后数据可以计算生成组聚合值。...如果我们有一个包含汽车品牌和价格信息数据集,那么可以使用groupby功能来计算每个品牌平均价格。 在本文中,我们将使用25个示例来详细介绍groupby函数用法。...这25个示例还包含了一些不太常用但在各种任务中都能派上用场操作。 这里使用数据集是随机生成,我们把它当作一个销售数据集。...("Daisy","PG1") ) daisy_pg1.head() 21、rank函数 rank函数用于根据给定列行分配秩。...我们可以使用rank和groupby函数分别对每个行进行排序。

2.5K20

25个例子学会Pandas Groupby 操作(附代码)

来源:DeepHub IMBA本文约2300字,建议阅读5分钟本文用25个示例详细介绍groupby函数用法。 groupby是Pandas数据分析中最常用函数之一。...它用于根据给定列不同值对数据点(即行)进行分组,分组后数据可以计算生成组聚合值。 如果我们有一个包含汽车品牌和价格信息数据集,那么可以使用groupby功能来计算每个品牌平均价格。...在本文中,我们将使用25个示例来详细介绍groupby函数用法。这25个示例还包含了一些不太常用但在各种任务中都能派上用场操作。 这里使用数据集是随机生成,我们把它当作一个销售数据集。..."Daisy","PG1") ) daisy_pg1.head() 21、rank函数 rank函数用于根据给定列行分配秩。...我们可以使用rank和groupby函数分别对每个行进行排序。

3K20

手把手教你做一个“渣”数据师,用Python代替老情人Excel

3、导入表格 默认情况下,文件第一个工作表将按原样导入到数据。 使用sheet_name参数,可以明确要导入工作表。文件第一个表默认值0。...6、查看DataFrame数据类型 ? 三、分割:即Excel过滤器 描述性报告是关于数据子集和聚合,当需要初步了解数据时,通常使用过滤器来查看较小数据集或特定列,以便更好理解数据。...4、将总列添加到已存在数据集 ? 5、特定列总和,使用loc函数 ? 或者,我们可以用以下方法: ? 6、用drop函数删除行 ? 7、计算每列总和 ?...简单数据透视表,显示SepalWidth总和,行列SepalLength和列标签名称。 现在让我们试着复杂化一些: ? 用fill_value参数将空白替换为0: ?...可以非常自信地说它是电子表格上计算每个数据支柱。 不幸Pandas并没有vlookup功能! 由于Pandas没有“Vlookup”函数,因此Merge用与SQL相同备用函数。

8.3K30

pandas速成笔记(3)-joingroupbysort行列转换

接上篇继续 ,这回看下一些常用操作: 一、join 联表查询 有数据库开发经验同学,一定对sqljoin ... on 联表查询不陌生,pandas也有类似操作 假设test.xlsxsheet1..., sheet2分别有下面的数据(相当于2张表) 现在要以ID做为作为Key,将二张表join起来,可以这样写: import pandas as pd pd1 = pd.read_excel(...如果2个表格Key,名称不一样,比如第2个表格长这样,第1列不叫ID,而是stutent_id 也不影响,只要在读取时设置了索引即可,默认join时就是用index列做为key关联 二、groupby...希望按Category看看,在本月当中该CategoryAmount占"当月Amount总和"占比,比如2021-09月,Amount总和60,而9月之中,C类Amount=30,即9月C类Amount...print("------------") # 插入2列 df.insert(2, 'MonthTotal', 0) df.insert(3, 'MonthPercent', 0.0) # 计算每个月

68430

Pandas最详细教程来了!

导读:在Python,进行数据分析一个主要工具就是PandasPandas是Wes McKinney在大型对冲基金AQR公司工作时开发,后来该工具开源了,主要由社区进行维护和更新。...惯例是将pandas简写pd,命令如下: import pandas as pd Pandas包含两个主要数据结构:Series和DataFrame。...▲图3-7 loc方法将在后面的内容详细介绍。 索引存在,使得Pandas在处理缺漏信息时候非常灵活。下面的示例代码会新建一个DataFrame数据df2。...函数频率参数及说明如下所示: B:交易日 C:自定义交易日(试验) D:日历日 W:每周 M:每月底 SM:半个月频率(15号和月底) BM:每个月份最后一个交易日 CBM:自定义每个交易月 MS:...示例代码如下: import pandas as pd s=pd.Series([1,4,6,2,3]) s Out: 0 1 1 4 2 6 3 2 4 3 在这段代码

3.2K11

数据分析之matplotlib.pypl

刻度显示2倍 plt.figure(figsize=(8,18)) plt.plot(x,y)   4,设置x轴,y轴,图片名称 plt.xlabel('xxx') plt.ylabel('yyy...如果指定了多个数据集合,例如DataFrame对象,颜色序列将会设置相同顺序。...默认值vertical data=[1,2,3,2,3,1,4,5,2,2] plt.hist(data,bins=10) #data数据时1到5,所以它会把1到5之间分成11个区域,把每个区域所包含数据个数给统计出来...七、饼图   饼图主要有两种,取决于第一个数据参数,首先数据是一个列表,但列表中出现整数时,每块占比等于自身值除以所有值总和,这种情况下占比总和1;当每个值都是0到1之间,而且总和小于等于1,那么每个占比就是自身值...1,占比总和肯定为1 plt.pie([2,4,6]) #表示是2占12比例,4占12比例,6占12比例 ?

75410

一文归纳Python特征生成方法(全)

B6 :近期转账日期;C1 (后缀_fir表示上个月):存款;C2:存款产品数; X1:理财存款;X2:结构性存款; label:资金情况上升下降情况。...# 一键数据分析 import pandas_profiling pandas_profiling.ProfileReport(df) 3 特征生成方法(手动) 特征生成方法可以分为两类:聚合方式...如以上述数据集,同一cust_no对应多条记录,通过对cust_no(客户编号)做分组聚合,统计C1字段个数、唯一数、平均值、中位数、标准差、总和、最大、最小值,最终得到按每个cust_no统计C1平均值...自动化特征工程是通过Fearturetools等工具,从一组相关数据自动生成有用特征过程。对比人工生成特征会更为高效,可重复性更高,能够更快地构建模型。...# df1原始特征数据 df1 = df.drop('label',axis=1) # df2客户清单(cust_no唯一值) df2 = df[['cust_no']].drop_duplicates

89420

解决pandas.core.frame.DataFrame格式数据与numpy.ndarray格式数据不一致导致无法运算问题

问题描述在pandasDataFrame格式数据,每一列可以是不同数据类型,如数值型、字符串型、日期型等。而ndarray格式数据需要每个元素都是相同类型,通常数值型。...例如,我们有一个销售数据DataFrame,其中包含了产品名称、销售数量和单价。现在我们希望计算每个产品销售总额。...我们希望通过计算​​Quantity​​列和​​Unit Price​​列乘积来得到每个产品销售总额。但是由于列包含了不同数据类型(字符串和数值),导致无法进行运算。...同质性:ndarray存储数据类型必须是相同,通常是数值型数据。高效性:ndarray底层采用连续内存块存储数据,并且对于数组每个元素,采用相同大小内存空间。...**sum()**:计算数组元素总和。例如​​a.sum()​​可以计算数组​​a​​中元素总和。ndrray索引和切片ndarray支持基于索引和切片灵活数据访问和操作。

36020

数据科学学习手札99)掌握pandas时序数据分组运算

,经常需要对原始时间粒度下数据,按照不同时间粒度进行分组聚合运算,譬如基于每个交易日股票收盘价,计算每个月最低和最高收盘价。   ...图1 2 在pandas中进行时间分组聚合   在pandas根据具体任务场景不同,对时间序列进行分组聚合可通过以下两类方式实现: 2.1 利用resample()对时序数据进行分组聚合 resample...如果你熟悉pandasgroupby()分组运算,那么你就可以很快地理解resample()使用方式,它本质上就是在对时间序列数据进行“分组”,最基础参数rule,用于设置按照何种方式进行重采样...# 以6个月统计窗口计算每月股票平均收盘价且显示当月第一天 ( AAPL .set_index('date') # 设置dateindex .resample('6MS'...) # 以6个月单位 .agg({ 'close': 'mean' }) ) ?

1.8K20

掌握pandas时序数据分组运算

pandas分析处理时间序列数据时,经常需要对原始时间粒度下数据,按照不同时间粒度进行分组聚合运算,譬如基于每个交易日股票收盘价,计算每个月最低和最高收盘价。...图1 2 在pandas中进行时间分组聚合 在pandas根据具体任务场景不同,对时间序列进行分组聚合可通过以下两类方式实现: 2.1 利用resample()对时序数据进行分组聚合 resample...如果你熟悉pandasgroupby()分组运算,那么你就可以很快地理解resample()使用方式,它本质上就是在对时间序列数据进行“分组”,最基础参数rule,用于设置按照何种方式进行重采样...( AAPL .set_index('date') # 设置dateindex .resample('6MS') # 以6个月单位 .agg({ '...它通过参数freq传入等价于resample()rule参数,并利用参数key指定对应时间类型列名称,但是可以帮助我们创建分组规则后传入groupby(): # 分别对苹果与微软每月平均收盘价进行统计

3.3K10

通过Pandas实现快速别致数据分析

您需要激发关于您可以追踪数据问题,并且,去更好地了解您拥有的数据。您可以通过对数据进行汇总和可视化来做到这一点。...Pandas PythonPandas库是专为进行快速数据分析和操作而建立,它是非常简单和容易上手,如果你在R等其他平台上进行过数据分析等操作。...加载数据 首先将文件CSV数据作为数据框加载到内存。因为我们知道数据集提供数据名称,所以我们将在从文件加载数据时设置这些名称。...您可以点击链接了解更多有关Pandas数据可视化知识。 特征分布 第一个容易查看性质是每个属性分布情况。 我们首先可以通过箱线图来了解每个属性数值散布情况。...from pandas.tools.plotting import scatter_matrix scatter_matrix(data, alpha=0.2, figsize=(6, 6), diagonal

2.6K80

手把手 | 数据科学速成课:给Python新手实操指南

数据文摘作品 编译:王梦泽、丁慧、笪洁琼、Aileen 数据科学团队在持续稳定发展壮大,这也意味着经常会有新数据科学家和实习生加入团队。...我们聘用每个数据科学家都具有不同技能,但他们都具备较强分析背景和在真正业务案例运用此背景能力。例如,团队中大多数人都曾研究计量经济学,这概率论及统计学提供了坚实基础。...因此,Pandas让Python数据科学工作变得更加简单! 使用pd.read_csv()读取数据集 我们Python代码第一步是加载Python两个数据集。...删除首次活动后所有会话 在上一步中使用简单合并,我们每个会话添加了首次活动时间标记。通过比较会话时间标记与首次活动时间标记,你应该能够过滤掉无用数据并缩小问题规模。...添加自变量X:访问量累计总和 我们自变量是页面访问量。但是,我们不能简单地将会话页面访问量计算在内,因为早期会话页面访问会影响转换概率。

1.1K50
领券