首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas库常用方法、函数集合

Pandas是Python数据分析处理核心第三方库,使用二维数组形式,类似Excel表格,并封装了很多实用函数方法,你可以轻松地对数据集进行各种操作。...qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间频率 join:通过索引合并两个dataframe stack: 将数据框列“堆叠”为一个层次化...:绘制堆积图 pandas.DataFrame.plot.bar:绘制柱状图 pandas.DataFrame.plot.barh:绘制水平条形图 pandas.DataFrame.plot.box:绘制箱线图...pandas.DataFrame.plot.density:绘制核密度估计图 pandas.DataFrame.plot.hexbin:绘制六边形分箱图 pandas.DataFrame.plot.hist...:绘制直方图 pandas.DataFrame.plot.line:绘制线型图 pandas.DataFrame.plot.pie:绘制饼图 pandas.DataFrame.plot.scatter:

24010

Pandas 学习手册中文第二版:11~15

创建一个新DataFrame,其列是步骤 1 中标识标签,然后是两个对象中所有非键标签。 它与两个DataFrame对象键列中匹配。...库还提供了.join()方法,该方法可用于使用两个DataFrame对象索引标签(不是列中)执行连接。...同样,枢轴引上保留相同数量级别的情况下,堆叠和非堆叠总是会增加其中一个轴(用于堆叠列和用于堆叠行)引上级别,而会降低另一轴上级别。...像这样序列一个例子是给定月份不是特定时间证券平均值。 当我们将时间序列重新采样到另一个频率时,这变得非常有用。...本章之前,我们花费了大部分时间来学习 Pandas 功能,并且许多情况下,使用是设计用来演示概念数据,不是使用实际数据。

3.3K20
您找到你想要的搜索结果了吗?
是的
没有找到

《python数据分析与挖掘实战》笔记第3章

对于定量数据,欲了解其分布形式是对称还是非对称,发现某些特大或特小可疑,可通过绘制频率分布表、绘制频率分布直方 图、绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况...5) 计划完成程度相对数:是某一时期实际完成数与计划数对比,用以说明计划完成 程度。 6) 动态相对数:将同一现象不同时期指标数值进行对比,用以说明发展方向和变 化速度。...3.2.5、贡献度分析 贡献度分析又称帕累托分析,原理是帕累托法则,又称20/80定律。同样投入放 不同地方会产生不同效益。...Series对象方法而出现,因此命令格式为 D.cumsum(),rolling_系列是pandas函数,不是DataFrame或Series对象方法,因此,它们使用格式为pd.rolling_mean...D为PandasDataFrame或Series,代表着均值数据列,error则 是误差列,此命令y轴方向画出误差棒图;类似地,如果设置参数xerr = error,则在x轴 方向画出误差棒图。

2K20

Python一个万万不能忽略警告!

1 一个警告 Pandas中有一个警告,很有意思,并且出现频率很高,它就是 SettingWithCopyWarning, 既然是个警告,那么我们是不是可以忽略呢。就像标题说那样,万万不可。...造一组数据,出现这个warning In [2]: df = pd.DataFrame({'name':['gz','lg','zx'],'score':[80,70,90]})...5 配置警告 Pandas mode.chained_assignment 选项可以采用以下几个之一: 'raise' - 抛出异常(exception)不是警告 'warn' - 生成警告(默认...实际上,视图 NumPy 中很有用,因为它们能够可预测地返回。由于 NumPy 数组是单一类型,因此 Pandas 尝试使用最合适 dtype 来最小化内存处理需求。...因此,包含单个 dtype DataFrame 切片可以作为单个 NumPy 数组视图返回,这是一种高效处理方法。但是,多类型切片不能以相同方式存储 NumPy 中。

1.5K30

Pandas进阶修炼120题,给你深度和广度船新体验

来源:早起Python 本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。 Pandas 是基于 NumPy 一种数据处理工具,该工具为了解决数据分析任务创建。...深度和广度上,都相较之前Pandas习题系列有了很大提升。...np.median(df['salary']) 32.绘制薪资水平频率分布直方图 #执行两次 df.salary.plot(kind='hist') 33.绘制薪资水平密度曲线 df.salary.plot...temp = pd.DataFrame(columns = data.columns.to_list()) 62.打印所有换手率不是数字行 for i in range(len(data)):...isin(df['col2'])] 90.提取第一列和第二列出现频率最高三个数字 temp = df['col1'].append(df['col2']) temp.value_counts().index

6K31

【Python环境】Python中结构化数据分析利器-Pandas简介

Pandas最初被作为金融数据分析工具开发出来,因此,pandas为时间序列分析提供了很好支持。...(以单独列名作为columns参数),也可以进行多重排序(columns参数为一个列名List,列名出现顺序决定排序中优先级),多重排序中ascending参数也为一个List,分别与columns...df.groupby(['A','B']).sum()##按照A、B两列分组求和 对应R函数: tapply() 实际应用中,先定义groups,然后再对不同指标指定不同计算方式。...时间序列Pandas中就是以Timestamp为索引Series。...画图 Pandas也支持一定绘图功能,需要安装matplot模块。 比如前面创建时间序列,通过plot()就可以绘制出折线图,也可以使用hist()命令绘制频率分布直方图。

15K100

数据分析之Pandas快速图表可视化各类操作详解

一、基础绘图:plot Series和DataFrameplot方法只是plt.plot()简单包装,这里我们用一段实际数据来进行可视化展示: import pandas as pd import...包装后kind关键字我们梳理一下底图种类: 也可以使用DataFrame.plot方法创建这些其他绘图不是提供kind关键字参数。...这里我们不用上一个数据集,不好展示,换用一个数据集: df_example[['出现频次','需求总数']].plot.hexbin(x='出现频次',y='需求总数',gridsize=25) 效果不是很好...(x="a", y="b", gridsize=25); 关键字参数gridsize:控制x方向六边形数量,默认为100。...本例中,位置由a列和b列给出,由z列给出。这些箱子通过NumPymax函数进行聚合。

33441

7个Pandas数据分析高级技巧

一个有用技巧是使用生成器并使用Ctrl + Enter不是Shift + Enter来迭代地查看同一个单元格中不同样本。...因为所有的数据集都是不同。然而,有一个神奇 pandas_profiling 包使得这种逻辑毫无意义。这个包实际上自动化了数据探索和数据质量评估步骤!看一看: ?...链接方法允许你把你想法“翻译”成实际操作。...变量是根据系数(或变量重要性)进行排序,彩色条允许我们快速找到最重要变量。Pclass列有最大(负)系数,绝对是第二大系数Embarked_Q两倍。...6 tqdm 处理大型数据集时,数据操作需要时间。使用tqdm来跟踪你代码是否正在实际运行,以及需要多长时间,不是在你Jupyter Notebook无聊等待,不知道发生了什么。

1.6K31

收藏 | 11个Python Pandas小技巧工作更高效(附代码实例)

这是因为df2 = df1并不是生成一个df1复制品并把赋值给df2,而是设定一个指向df1指针。所以只要是针对df2改变,也会相应地作用在df1上。...比如说,如果你想把“c”列近似取整,那么请用round(df[‘c’], 0)或df['c'],round(0)不是上文apply函数。...你想要检查下“c”列中出现以及每个出现频率,可以使用: df['c'].value_counts( 下面是一些有用小技巧/参数: normalize = True:查看每个出现频率不是频次数...dropna = False: 把缺失也保留在这次统计中。 sort = False: 将数据按照来排序不是按照出现次数排序。...另一个技巧是用来处理整数值和缺失混淆在一起情况。如果一列含有缺失和整数值,那么这一列数据类型会变成float不是int。

1.2K30

【技巧】11 个 Python Pandas 小技巧你更高效

Pandas是一个Python中广泛应用数据分析包。市面上有很多关于Pandas经典教程,但本文介绍几个隐藏炫酷小技巧,我相信这些会对你有所帮助。...比如说,如果你想把“c”列近似取整,那么请用round(df[‘c’], 0)或df[ c ],round(0)不是上文apply函数。...你想要检查下“c”列中出现以及每个出现频率,可以使用: df[ c ].value_counts( 下面是一些有用小技巧/参数: normalize = True:查看每个出现频率不是频次数...dropna = False: 把缺失也保留在这次统计中。 sort = False: 将数据按照来排序不是按照出现次数排序。...另一个技巧是用来处理整数值和缺失混淆在一起情况。如果一列含有缺失和整数值,那么这一列数据类型会变成float不是int。

95840

利用Python绘图和可视化(长文慎入)

线型图还可以加上一些标记(marker),以强调实际数据点。由于matplotlib创建是连续线型图(点与点之间插),因此有时可能不太容易看出真实数据点位置。...还可以将其写成更为明确形式: ? 在线型图中,非实际数据点默认是按线性方式插。可以通过drawstyle选项修改: ? ?...9、pandas绘图函数 不难看出,matplotlib实际上是一种比较低级工具。...=0.5) 注意: 柱状图有一个非常不错用法:利用value_counts图形化显示Series中各出现频率,比如s.value_counts().plot(kind=‘bar‘)。...12、直方图和密度图 直方图(histogram)是一种可以对频率进行离散化显示柱状图。数据点被拆分到离散、间隔均匀面元中,绘制是各面元中数据点数量。

8.4K70

时间序列数据处理,不再使用pandas

而对于多变量时间序列,则可以使用带有多列二维 Pandas DataFrame。然而,对于带有概率预测时间序列,每个周期都有多个情况下,情况又如何呢?...图(A)中,第一周期为 [10,15,18]。这不是一个单一,而是一个列表。例如,未来一周概率预测可以是 5%、50% 和 95% 量级三个。习惯上称为 "样本"。...比如一周内商店概率预测,无法存储二维Pandas数据框中,可以将数据输出到Numpy数组中。...() 作为一般转换工具,该类需要时间序列基本元素,如起始时间、和周期频率。...拥有用户友好界面和交互式plotly风格输出,分析师几乎不需要人工干预即可生成预测结果。Prophet因其灵活趋势建模功能和内置不确定性估计深受欢迎。

10010

Pandas图鉴(二):Series 和 Index

尽管与DataFrame相比,实际重要性正在减弱(你完全可以不知道Series是什么情况下解决很多实际问题),但如果不先学习Series和Index,可能很难理解DataFrame工作原理。...Pandas中,它被称为MultiIndex(第4部分),索引内每一列都被称为level。 索引另一个重要特性是它是不可改变。与DataFrame普通列相比,你不能就地修改。...>>> len(s.compare(s)) == 0 True 这里,比较函数返回一个差异列表(实际上是一个DataFrame),array_equal直接返回一个布尔。...std,样本标准差; var,无偏方差; sem,无偏标准误差平均值; quantile,样本四分位数(s.quantile(0.5) ≈ s.median()); mode,即出现频率最高;...这对于groupby来说是不需要实际上,如果组内元素不是连续存储,它也同样能工作,所以更接近collections.defaultdict不是itertools.groupby。

21420

Python数据可视化——matplotlib使用

(%matplotlib inline)则是直接显示在编程界面,不重新跳出做图框。 如果我们没有指定在哪个ax上进行作图,matplotlib会默认选择最后一个(如果没有则创建一个)上进行绘制。...06|Pandas作图: matplotlib是一种比较低级工具,要组装一张图表,需要用到各种组件才可以,包括图表类型(线型图、柱状图、盒形图、散布图、等值线图等)、图例、标题、刻度标签以及其他注释信息...这是因为制作一张完整图表都需要用到这些,但是matplotlib要实现这种功能需要很多行代码,pandas可能只需要几行代码就可以搞定。...线型图:Series和DataFrame都有自己plot方法,plot默认创建是线形图,Series.plot()和DataFrame.plot()。...还可以利用s.value_counts().plot(kind="bar")来图形化显示Series中各出现频率。 直方图:是一种可以对频率离散化显示柱状图。

1.7K50

独家 | 11个Python Pandas小技巧工作更高效(附代码实例)

这是因为df2 = df1并不是生成一个df1复制品并把赋值给df2,而是设定一个指向df1指针。所以只要是针对df2改变,也会相应地作用在df1上。...比如说,如果你想把“c”列近似取整,那么请用round(df[‘c’], 0)或df['c'],round(0)不是上文apply函数。...你想要检查下“c”列中出现以及每个出现频率,可以使用: df['c'].value_counts( 下面是一些有用小技巧/参数: normalize = True:查看每个出现频率不是频次数...dropna = False: 把缺失也保留在这次统计中。 sort = False: 将数据按照来排序不是按照出现次数排序。...另一个技巧是用来处理整数值和缺失混淆在一起情况。如果一列含有缺失和整数值,那么这一列数据类型会变成float不是int。

66420
领券