首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

超全pandas数据分析常用函数总结:下篇

6.2 区域索引 6.2.1 用loc取连续多行 提取索引为2到索引为4所有行,即提取第3行到第5行,注意:此时切片开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...6.2.2 用loc取不连续多行 提取索引为2和索引为4所有行,即提取第3行和第5行。 data.loc[[2,4]] 输出结果: ?...6.2.5 用iloc取连续多行和多 提取第3行到第6行,第4到第5,取得是行和交叉点位置。 data.iloc[2:6,3:5] 输出结果: ?...6.2.6 用iloc取不连续多行和多 提取第3行和第6行,第4和第5交叉 data.iloc[[2,6],[3,5]] 输出结果: ?...6.2.7 用iloc取具体 提取第3行第7 data.iloc[2,6] 输出结果:‘high’ 总结:文字变代码,数值少1;代码变文字,数值加1;代码从0开始计数;文字从1开始计数

3.8K20

超全pandas数据分析常用函数总结:下篇

6.2 区域索引 6.2.1 用loc取连续多行 提取索引为2到索引为4所有行,即提取第3行到第5行,注意:此时切片开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...6.2.2 用loc取不连续多行 提取索引为2和索引为4所有行,即提取第3行和第5行。 data.loc[[2,4]] 输出结果: ?...6.2.5 用iloc取连续多行和多 提取第3行到第6行,第4到第5,取得是行和交叉点位置。 data.iloc[2:6,3:5] 输出结果: ?...6.2.6 用iloc取不连续多行和多 提取第3行和第6行,第4和第5交叉 data.iloc[[2,6],[3,5]] 输出结果: ?...6.2.7 用iloc取具体 提取第3行第7 data.iloc[2,6] 输出结果:‘high’ 总结:文字变代码,数值少1;代码变文字,数值加1;代码从0开始计数;文字从1开始计数

4.9K20
您找到你想要的搜索结果了吗?
是的
没有找到

稀疏矩阵概念介绍

有两种常见矩阵类型,密集和稀疏。主要区别在于稀疏指标有很多。密集指标没有。这是一个具有 4 和 4 行稀疏矩阵示例。 在上面的矩阵中,16 个中有 12 个是。...数组 Value array:顾名思义,它将所有非元素存储在原始矩阵中。数组长度等于原始矩阵中非条目的数量。在这个示例中,有 7 个非元素。因此数组长度为 7。...索引数组 Column index array:此数组存储数组中元素索引。...(这里使用从开始索引) 行索引数组 Row index array:该数组存储所有当前行和之前行中非累积计数。row_index_array [j] 编码第 j 行上方非总数。...最后一个元素表示原始数组中非元素数量。长度为 m + 1;其中 m 定义为原始矩阵中行数。

1.1K30

快乐学习Pandas入门篇:Pandas基础

索引对齐特性 这是Pandas中非常强大特性,在对多个DataFrame 进行合并或者加减乘除操作时,行和索引都重叠时候才能进行相应操作,否则会使用NA进行填充。...4. describe & info info() 函数返回有哪些、有多少非缺失、每类型;describe() 默认统计数值型数据各个统计量,可以自行选择分位数位置。...对于Series,它可以迭代每一(行)操作;对于DataFrame,它可以迭代每一个操作。 # 遍历Math所有,添加!...答:df.mean(axis=1)意思是对df按均值;axis = 0表示保持标签不变,对行进行操作;axis = 1表示保持行标签不变,对进行操作。...(c)以单词计数,谁说了最多单词?

2.4K30

稀疏矩阵概念介绍

有两种常见矩阵类型,密集和稀疏。主要区别在于稀疏指标有很多。密集指标没有。这是一个具有 4 和 4 行稀疏矩阵示例。 在上面的矩阵中,16 个中有 12 个是。...数组 Value array:顾名思义,它将所有非元素存储在原始矩阵中。数组长度等于原始矩阵中非条目的数量。在这个示例中,有 7 个非元素。因此数组长度为 7。...索引数组 Column index array:此数组存储数组中元素索引。...(这里使用从开始索引) 行索引数组 Row index array:该数组存储所有当前行和之前行中非累积计数。row_index_array [j] 编码第 j 行上方非总数。...最后一个元素表示原始数组中非元素数量。长度为 m + 1;其中 m 定义为原始矩阵中行数。

1.5K20

pandas系列5-分组_groupby

groupby 是pandas 中非常重要一个函数, 主要用于数据聚合和分类计算. 其思想是“split-apply-combine”(拆分 - 应用 - 合并)....demo groupby后面接上分组属性名称(单个) 多个属性用列表形式表示,形成层次化索引 In [1]: df = pd.DataFrame({'A': ['foo', 'bar', 'foo'...(分组之后对年龄平均再排序) 分别找出男人和女人每种职业的人数?(按照男女分组) 更进一步, 如何找出男人和女人在不同职业平均年龄?...(先按男女分组,再按照不同职业分组,再平均年龄) ---- 问题1 : 如何找出每一种职业平均年龄?并按照平均年龄从大到小排序?...分组用groupby 平均mean() 排序sort_values,默认是升序asc 操作某个属性,通过属性方式df.column df.groupby("occupation").age.mean

1.7K20

Pandas库常用方法、函数集合

qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间频率 join:通过索引合并两个dataframe stack: 将数据框“堆叠”为一个层次化...mean:计算分组平均值 median:计算分组中位数 min和 max:计算分组最小和最大 count:计算分组中非NA数量 size:计算分组大小 std和 var:计算分组标准差和方差...计算分组累积和、最小、最大、累积乘积 数据清洗 dropna: 丢弃包含缺失行或 fillna: 填充或替换缺失 interpolate: 对缺失进行插 duplicated: 标记重复行...astype: 将一数据类型转换为指定类型 sort_values: 对数据框按照指定进行排序 rename: 对或行进行重命名 drop: 删除指定或行 数据可视化 pandas.DataFrame.plot.area...cut: 将连续数据划分为离散箱 period_range: 生成周期范围 infer_freq: 推断时间序列频率 tz_localize: 设置时区 tz_convert: 转换时区 dt:

24210

Pandas_Study01

DataFrame是一种表格型数据结构,它含有一组有序,每可以是不同DataFrame既有行索引,也有索引,它可以看作是由Series组成字典,不过这些Series公用一个索引。...dataframe 常用属性 1. columns 属性 获取df 标签(索引) 2. shape 属性 获取df 形状,即几行几列 3. size 属性 获取df value个数 4....3. count() 方法 统计series中非nan ,即非空计数。 4. sort_index() 和 sort_values() 方法 按索引排序 或 按数值排序,默认升序排列。...series 中统计函数 1. sum() 方法 和 mean() 方法 sum 求和函数。mean 均值,同时有skipnan参数可选是否忽略nan 空。...2. describe() 方法 可获取一系列统计信息,包含最大最小,标准差,计数等统计信息。

16610

python数据分析——数据选择和运算

可以采用arr<=15得到布尔作为索引,将小于或者等于15数归。具体程序代码如下所示: 2....数据获取 ①索引取值 使用单个或序列,可以从DataFrame中索引出一个或多个。...: 四、数据运算 pandas中具有大量数据计算函数,比如计数、求和、平均值、最大、最小、中位数、众数、方差、标准差等。...非空计数 【例】对于存储在该Python文件同目录下某电商平台销售数据product_sales.csv,形式如下所示,请利用Python对数据读取,并计算数据集每非空个数情况。...关键技术:可以利用行号索引和count()方法来进行计数,程序代码如下所示: 【例】对于给定DataFrame数据,按索引进行求和并输出结果。

11910

高效5个pandas函数,你都用过吗?

Nunique Nunique用于计算行或列上唯一数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2}) df 对year进行唯一计数: df.year.nunique...() 输出:10 对整个dataframe每一个字段进行唯一计数: df.nunique() 3. infer_objects infer_objects用于将object类型推断为更合适数据类型..., size=1000000)}) df_large.shape 返回每一占用字节大小: df_large.memory_usage() 第一行是索引index内存情况,其余是各内存情况...5. replace 顾名思义,replace是用来替换df中,赋以新

1.1K40

9个value_counts()小技巧,提高Pandas 数据分析效率

默认参数 按升序对结果进行排序 按字母顺序排列结果 结果中包含空 以百分比计数显示结果 将连续数据分入离散区间 分组并调用 value_counts() 将结果系列转换为 DataFrame 应用于DataFrame...默认情况下,结果系列按降序排列,不包含任何 NA 。例如,让我们从 Titanic 数据集中获取“Embarked”计数。...在进行探索性数据分析时,有时查看唯一百分比计数会更有用。...一个常见用例是按某个分组,然后获取另一唯一计数。例如,让我们按“Embarked”分组并获取不同“Sex”计数。...Pandas DataFrame.value_counts() 返回一个包含 DataFrame 中唯一行计数系列。

6.5K61

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

这样得到累积在某些情况下意义不大,因为我们更需要不同小组计数据。对于这个问题有一个非常简单方便解决方案,我们可以同时应用groupby和cumsum函数。...Melt Melt用于将维数较大 dataframe转换为维数较少 dataframe。一些dataframe中包含连续度量或变量。在某些情况下,将这些列表示为行可能更适合我们任务。...Describe describe函数计算数字基本统计信息,这些包括计数、平均值、标准偏差、最小和最大、中值、第一个和第三个四分位数。因此,它提供了dataframe统计摘要。 ?...Merge Merge()根据共同组合dataframe。考虑以下两个数据: ? 我们可以基于共同合并它们。设置合并条件参数是“on”参数。 ?...inner:仅在on参数指定中具有相同行(如果未指定其它方式,则默认为 inner 方式) outer:全部数据 left:左一dataframe所有数据 right:右一dataframe

5.5K30

9个value_counts()小技巧,提高Pandas 数据分析效率

默认参数 按升序对结果进行排序 按字母顺序排列结果 结果中包含空 以百分比计数显示结果 将连续数据分入离散区间 分组并调用 value_counts() 将结果系列转换为 DataFrame 应用于DataFrame...默认情况下,结果系列按降序排列,不包含任何 NA 。例如,让我们从 Titanic 数据集中获取“Embarked”计数。  ...在进行探索性数据分析时,有时查看唯一百分比计数会更有用。...一个常见用例是按某个分组,然后获取另一唯一计数。例如,让我们按“Embarked”分组并获取不同“Sex”计数。  ...Pandas DataFrame.value_counts() 返回一个包含 DataFrame 中唯一行计数系列。

2.6K20

『数据分析』关于亲和性分析简单案例讲解

关于亲和性分析,大家估计都会看到以下这个经典例子: 在美国售业有着这样一个传奇故事,沃尔玛百货将他们纸尿裤和啤酒并排摆在一起销售,结果纸尿裤和啤酒销量双双增长!...苹果->香蕉亲和性 根据概念,置信度需要知道支持度中某商品交易数,这里我们拿香蕉举例,看看其交易数。...计算规则:遍历苹果数据,为1则计数+1 num_apple_purchases = 0 for sample in X: if sample[3] == 1: # 第4...因此需要创建1个字典用于存储匹配规则,字典key是X—>Y,则是支持度;另外一个字典用于存储对应X—>Y中X出现次数。...那么,这里算法优化其实是指对案例中非常直接计算方式进行优化,这里用到是pandas工具以及我们之前介绍过itertools《itertools拼装迭代器与生成器》。

1.1K20
领券