首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据科学系列:pandas入门详细教程

还是dataframe,均支持面向对象绘图接口 正是由于具有这些强大数据分析与处理能力,pandas还有数据处理"瑞士军刀"美名。...这三者是构成递进包容关系,panel即是dataframe容器,用于存储多个dataframe。...自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列或多行:单或多值(多个列名组成列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....4 合并与拼接 pandas又一个重量级数据处理功能是对多个dataframe进行合并与拼接,对应SQL两个非常重要操作:union和join。...另外,均支持两种形式绘图接口: plot属性+相应绘图接口,如plot.bar()用于绘制条形图 plot()方法并通过传入kind参数选择相应绘图类型,如plot(kind='bar') ?

13.8K20

30 个小例子帮你快速掌握Pandas

我们删除了4列,因此列数14减少到10。 2.读取时选择特定列 我们只打算读取csv文件某些列。读取时,列列表将传递给usecols参数。如果您事先知道列名,则比以后删除更好。...选择特定列 3.读取DataFrame一部分行 read_csv函数允许按行读取DataFrame一部分。有两种选择。第一个是读取前n行。...考虑DataFrame抽取样本情况。该示例将保留原始DataFrame索引,因此我们要重置它。...method参数指定如何处理具有相同行。first表示根据它们在数组(即列)顺序对其进行排名。 21.列唯一数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。...Geography列内存消耗减少了近8倍。 24.替换 替换函数可用于替换DataFrame。 ? 第一个参数是要替换,第二个参数是新。 我们可以使用字典进行多次替换。 ?

10.6K10
您找到你想要的搜索结果了吗?
是的
没有找到

数据科学原理与技巧 三、处理表格数据

使用.loc切片 为了选择DataFrame子集,我们使用.loc切片语法。...对于每一个特定年份和性别,找到最常见名字。 几乎总是有一种更好替代方法,用于遍历pandas DataFrame。特别是,遍历DataFrame特定,通常应该替换为分组。...1920 1940 1960 1980 2000 多个分组 我们在 Data8 中看到,我们可以按照多个列分组,基于唯一来获取分组。...我们现在可以将最后一个字母一列添加到我们婴儿数据帧。...通过在pandas文档查看绘图,我们了解到pandas将DataFrame一行列绘制为一组条形,并将每列显示为不同颜色条形。 这意味着letter_dist表透视版本将具有正确格式。

4.6K10

8 个 Python 高效数据分析技巧

在Pandas,删除一列或在NumPy矩阵求和时,可能会遇到Axis。...回想一下Pandasshape df.shape (# of Rows, # of Columns) Pandas DataFrame调用shape属性返回一个元组,第一个代表行数,第二个代表列数...如果你想在Python对其进行索引,则行数下标为0,列数下标为1,这很像我们如何声明轴。 Concat,Merge和Join 如果您熟悉SQL,那么这些概念对您来说可能会更容易。...无论如何,这些函数本质上就是以特定方式组合DataFrame方式。在哪个时间跟踪哪一个最适合使用可能很困难,所以让我们回顾一下。...Concat允许用户在表格下面或旁边追加一个或多个DataFrame(取决于您如何定义轴)。 ? Merge将多个DataFrame合并指定主键(Key)相同行。 ?

2.7K20

8个Python高效数据分析技巧。

在Pandas,删除一列或在NumPy矩阵求和时,可能会遇到Axis。...df.shape (# of Rows, # of Columns) Pandas DataFrame调用shape属性返回一个元组,第一个代表行数,第二个代表列数。...如果你想在Python对其进行索引,则行数下标为0,列数下标为1,这很像我们如何声明轴。 6 Concat,Merge和Join 如果您熟悉SQL,那么这些概念对你来说可能会更容易。...无论如何,这些函数本质上就是以特定方式组合DataFrame方式。 在哪个时间跟踪哪一个最适合使用可能很困难,所以让我们回顾一下。...Concat允许用户在表格下面或旁边追加一个或多个DataFrame(取决于您如何定义轴)。 ? Merge将多个DataFrame合并指定主键(Key)相同行。 ?

2.2K10

【数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

isna()部分检测dataframe缺少,并为dataframe每个元素返回一个布尔。sum()部分对真值数目求和。...它可以通过调用: msno.bar(df) 在绘图左侧,y轴比例0.0到1.0,其中1.0表示100%数据完整性。如果条小于此,则表示该列缺少。 在绘图右侧,用索引测量比例。...有数据时,绘图以灰色(或您选择颜色)显示,没有数据时,绘图以白色显示。...这是在条形图中确定,但附加好处是您可以「查看丢失数据在数据框分布情况」。 绘图右侧是一个迷你图,范围左侧0到右侧数据框总列数。上图为特写镜头。...如果在零级将多个列组合在一起,则其中一列是否存在空与其他列是否存在空直接相关。树列越分离,列之间关联null可能性就越小。

4.7K30

Python数据分析常用模块介绍与使用

Series:Series是一维标记数组,类似于一维数组或者一列数据。它由一组数据和与之相关标签(索引)构成。可以通过索引对数据进行选择和过滤。...它由一组有序列组成,每个列可以是不同数据类型(数值、字符串、布尔等)。可以通过行和列标签进行选择和过滤。...如果把Series看作Excel表一列DataFrame就是Excel一张工作表。...示例 创建DataFrame语句如下: index和columes参数可以指定,当不指定时,0开始。通常情况下,列索引都会给定,这样每一列数据属性可以由列索引描述。...Statsmodels包含多个子模块,每个子模块都提供了特定类型统计工具和模型。以下是一些子模块介绍: Statsmodels.api:这个子模块提供了主要统计模型类和函数。

14610

数据分析之Pandas快速图表可视化各类操作详解

上,plot()可以方便地用标签绘制所有列: 可以使用plot()x和y关键字绘制一列与另一列对比,比如我们想要使用星期六客流量和星期日客流量作对比: df_flow_7=df_flow[df_flow...如果要使用不同进行删除或填充,调用plot之前可以使用DataFrame.dropna()或DataFrame.fillna()。...下面的示例显示了一个气泡图,它使用DataFrame一列作为气泡大小。...C指定每个(x,y)点,reduce_C_function是一个参数函数,它将bin所有聚合为一个数字(例如mean、max、sum、std)。...在本例,位置由a列和b列给出,而由z列给出。这些箱子通过NumPymax函数进行聚合。

34041

数据可视化干货:使用pandas和seaborn制作炫酷图表(附代码)

你可以其基本组件组装一个图表:数据显示(即绘图类型:线、条、框、散点图、轮廓等)、图例、标题、刻度标记和其他注释。 在pandas,我们可能有多个数据列,并且带有行和列标签。...▲图9-14 简单DataFrame绘图 plot属性包含了不同绘图类型方法族。例如,df.plot( )等价于df.plot.line( )。我们之后将会探索这些方法一部分。...在DataFrame,柱状图将每一行分组到并排柱子一组。...因为day列中有多个观测,柱子是tip_pct平均值。柱子上画出黑线代表是95%置信区间(置信区间可以通过可选参数进行设置)。...06 其他Python可视化工具 和开源代码一样,在Python语言下创建图形选择有很多(太多而无法一一列举)。自从2010年以来,很多开发工作都集中在创建web交互式图形上。

5.3K40

这 8 个 Python 技巧让你数据分析提升数倍!

---- ---- 在Pandas,删除一列或在NumPy矩阵求和时,可能会遇到Axis。...回想一下Pandasshape df.shape (# of Rows, # of Columns) Pandas DataFrame调用shape属性返回一个元组,第一个代表行数,第二个代表列数...如果你想在Python对其进行索引,则行数下标为0,列数下标为1,这很像我们如何声明轴。...无论如何,这些函数本质上就是以特定方式组合DataFrame方式。在哪个时间跟踪哪一个最适合使用可能很困难,所以让我们回顾一下。...Concat允许用户在表格下面或旁边追加一个或多个DataFrame(取决于您如何定义轴)。 ? Merge将多个DataFrame合并指定主键(Key)相同行。 ?

2K10

干货:可视化项目实战经验分享,轻松玩转Bokeh(建议收藏)

CDS 是一个专门用于绘图对象,包括数据以及多个方法和属性。CDS 允许我们为图形添加注释和交互性,并且可以pandas dataframe 构建。...格式化提示工具显示数据可能令人沮丧,因此我通常在 dataframe 中使用正确格式创建另一列。...例如,在直方图中,一个有价值特征是能够选择特定航空公司进行比较,或者选择更改 bins 宽度以更精细地检查数据。 幸运是,这些都是可以使用 Bokeh 在现有绘图之上添加功能。...第二类交互称为主动交互,因为它会更改绘图上显示实际数据。 这可以是选择数据子集(例如特定航空公司)到改变多项式回归拟合自由度任何事情。...每次,我们创建窗口小部件,编写更新函数以更改绘图上显示数据,并使用事件处理程序将更新功能链接到窗口小部件。 我们甚至可以通过重写函数来多个元素中使用相同更新函数,以从小部件中提取需要

2.7K20

Python数据分析——以我硕士毕业论文为例

pandaspd.read_csv()方法,具体参数有: index_col:设置行索引为哪一列,可以使用序号或者列名称; sep:csv文件分隔符,默认常见用法都可以自动识别,不需要设置;...数据表合并 首先遇到第一个需求就是,所有样本点列变量存储在不同数据表,比如,样本点指标分为上覆水指标与沉积物指标两部分,分别存储在两个或者多个数据表,那么如何将两个或者多个数据表进行合并呢...这种数据类型有两个问题: 如果数据矩阵有几十万行,那么这两列会占用很大内存空间; 对数据进行绘图过程,我想把River变量按照Nanfei River、Pai River、Hangbu River顺序排列...异常值处理 缺失填充 Pandas缺失填充所用方法时pd.fillna(),具体参数可以填写: In [16]: pd.DataFrame.fillna Out[16]: <function...数据处理与可视化 绘图小准备 画图格式定义 如何在Matplotlib显示中文: plt.rcParams['font.sans-serif'] = ['SimHei'] # 用于显示中文 plt.rcParams

3.1K20

干货推荐 | 掌握这几点,轻松玩转 Bokeh 可视化 (项目实战经验分享)

CDS 是一个专门用于绘图对象,包括数据以及多个方法和属性。 CDS 允许我们为图形添加注释和交互性,并且可以pandas dataframe 构建。...格式化提示工具显示数据可能令人沮丧,因此我通常在 dataframe 中使用正确格式创建另一列。...例如,在直方图中,一个有价值特征是能够选择特定航空公司进行比较,或者选择更改 bins 宽度以更精细地检查数据。 幸运是,这些都是可以使用 Bokeh 在现有绘图之上添加功能。...第二类交互称为主动交互,因为它会更改绘图上显示实际数据。 这可以是选择数据子集(例如特定航空公司)到改变多项式回归拟合自由度任何事情。...每次,我们创建窗口小部件,编写更新函数以更改绘图上显示数据,并使用事件处理程序将更新功能链接到窗口小部件。 我们甚至可以通过重写函数来多个元素中使用相同更新函数,以从小部件中提取需要

2.3K40

掌握这几点,轻松玩转 Bokeh 可视化 (项目实战经验分享)

CDS 是一个专门用于绘图对象,包括数据以及多个方法和属性。 CDS 允许我们为图形添加注释和交互性,并且可以pandas dataframe 构建。...格式化提示工具显示数据可能令人沮丧,因此我通常在 dataframe 中使用正确格式创建另一列。...例如,在直方图中,一个有价值特征是能够选择特定航空公司进行比较,或者选择更改 bins 宽度以更精细地检查数据。 幸运是,这些都是可以使用 Bokeh 在现有绘图之上添加功能。...第二类交互称为主动交互,因为它会更改绘图上显示实际数据。 这可以是选择数据子集(例如特定航空公司)到改变多项式回归拟合自由度任何事情。...每次,我们创建窗口小部件,编写更新函数以更改绘图上显示数据,并使用事件处理程序将更新功能链接到窗口小部件。 我们甚至可以通过重写函数来多个元素中使用相同更新函数,以从小部件中提取需要

2.1K30

数据分析必备!Pandas实用手册(PART III)

不过你时常会想要把样本(row)里头多个栏位一次取出做运算并产生一个新,这时你可以自定义一个Python function并将apply函数套用到整个DataFrame之上: 此例apply函数将...join right:right outer join outer: full outer join inner:inner join 注意合并后DataFrame最后一列:因为是left join...: 找出栏位里所有出现过 针对特定栏位使用unique函数即可: 分组汇总结果 很多时候你会想要把DataFrame里头样本依照某些特性分门别类,并依此汇总各组(group)统计数据。...另外小细节是你可以利用numpybroadcasting运算轻松地将DataFrame所有数值做操作(初始df_date时用到*10) 简易绘图并修改预设样式 在Python世界里有很多数据可视化工具供你选择...DataFrameapply函数进度。

1.8K20

Python进阶之Pandas入门(一) 介绍和核心

pandas将从CSV中提取数据到DataFrame,这时候数据可以被看成是一个Excel表格,然后让你做这样事情: 计算统计数据并回答有关数据问题,比如每一列平均值、中值、最大或最小是多少...C列数据分布情况如何? 通过删除缺失和根据某些条件过滤行或列来清理数据 在Matplotlib帮助下可视化数据。绘制条形图、线条、直方图、气泡等。...pandas数据通常用到SciPy统计分析 pandas数据分析结果展示会通过Matplotlib绘图函数 pandas数据处理后会通过Scikit-learn机器学习算法挖掘信息...从头创建DataFrame有许多方法,但是一个很好选择是使用简单dict字典 假设我们有一个卖苹果和橘子水果摊。我们希望每个水果都有一列,每个客户购买都有一行。...数据每个(键、)项对应于结果DataFrame一个列。这个DataFrame索引在创建时被指定为数字0-3,但是我们也可以在初始化DataFrame时创建自己索引。

2.7K20
领券