首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在pandas数据框中创建一列计数

可以使用pandas库中的Series对象的value_counts()方法。该方法可以统计数据框中某一列中各个值出现的频次,并返回一个新的Series对象,其中包含了每个值及其对应的计数。

以下是创建一列计数的步骤:

  1. 导入pandas库:
代码语言:python
复制
import pandas as pd
  1. 创建一个数据框:
代码语言:python
复制
data = {'Name': ['John', 'Mike', 'Sarah', 'John', 'Mike', 'John'],
        'Age': [25, 30, 28, 25, 30, 25]}
df = pd.DataFrame(data)
  1. 使用value_counts()方法统计某一列的计数,并将结果赋值给新的列:
代码语言:python
复制
df['Count'] = df['Name'].value_counts()

完整的代码如下:

代码语言:python
复制
import pandas as pd

data = {'Name': ['John', 'Mike', 'Sarah', 'John', 'Mike', 'John'],
        'Age': [25, 30, 28, 25, 30, 25]}
df = pd.DataFrame(data)

df['Count'] = df['Name'].value_counts()

print(df)

输出结果为:

代码语言:txt
复制
   Name  Age  Count
0  John   25      3
1  Mike   30      2
2  Sarah  28      1
3  John   25      3
4  Mike   30      2
5  John   25      3

在这个例子中,我们统计了Name列中每个值的计数,并将结果存储在新的Count列中。可以看到,John出现了3次,Mike出现了2次,Sarah出现了1次。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

使用 Pandas Python 绘制数据

在有关基于 Python 的绘图库的系列文章,我们将对使用 Pandas 这个非常流行的 Python 数据操作库进行绘图进行概念性的研究。...Pandas 是 Python 的标准工具,用于对进行数据可扩展的转换,它也已成为从 CSV 和 Excel 格式导入和导出数据的流行方法。 除此之外,它还包含一个非常好的绘图 API。...这非常方便,你已将数据存储 Pandas DataFrame ,那么为什么不使用相同的库进行绘制呢? 本系列,我们将在每个库制作相同的多条形柱状图,以便我们可以比较它们的工作方式。...本系列文章,我们已经看到了一些令人印象深刻的简单 API,但是 Pandas 一定能夺冠。...轴上绘制按年份和每个党派分组的柱状图,我只需要这样做: import matplotlib.pyplot as plt ax = df.plot.bar(x='year') plt.show() 只有四行,这绝对是我们本系列创建的最棒的多条形柱状图

6.8K20

Excel实战技巧74: 工作表创建搜索来查找数据

本文主要讲解如何创建一个外观漂亮的搜索,通过它可以筛选数据并显示搜索结果。...End Sub 代码,对要搜索的文本使用了通配符,因此可以搜索部分匹配的文本。此外,对数据区域使用了“硬编码”,你可以将其修改为实际的数据区域。代码运行的结果如下图2所示。 ?...形状单击右键,如下图4所示。 ? 图4 选取“指定宏”命令,“指定宏”对话中选择宏名,如下图5所示。 ?...图5 可以在此基础上进一步添加功能,例如,搜索完成后,我想恢复原先的数据,可以工作表再添加一个代表按钮的矩形形状,如下图6所示。 ?...我们编写的代码,有很多注释掉的代码语句,可供参考。

14.9K10

pandas利用hdf5高效存储数据

Python操纵HDF5文件的方式主要有两种,一是利用pandas内建的一系列HDF5文件操作相关的方法来将pandas数据结构保存在HDF5文件,二是利用h5py模块来完成从Python原生数据结构向...接下来我们创建pandas不同的两种对象,并将它们共同保存到store,首先创建Series对象: import numpy as np #创建一个series对象 s = pd.Series(np.random.randn...还可以从pandas数据结构直接导出到本地h5文件: #创建新的数据 df_ = pd.DataFrame(np.random.randn(5,5)) #导出到已存在的h5文件,这里需要指定key...') #查看指定h5对象的所有键 print(store.keys()) 图7 2.2 读入文件 pandas读入HDF5文件的方式主要有两种,一是通过上一节类似的方式创建与本地h5文件连接的...csv格式文件、h5格式的文件,在读取速度上的差异情况: 这里我们首先创建一个非常大的数据,由一亿行x5列浮点类型的标准正态分布随机数组成,接着分别用pandas写出HDF5和csv格式文件的方式持久化存储

2.8K30

pandas利用hdf5高效存储数据

Python操纵HDF5文件的方式主要有两种,一是利用pandas内建的一系列HDF5文件操作相关的方法来将pandas数据结构保存在HDF5文件,二是利用h5py模块来完成从Python原生数据结构向...h5文件: #创建新的数据 df_ = pd.DataFrame(np.random.randn(5,5)) #导出到已存在的h5文件,这里需要指定key df_.to_hdf(path_or_buf...图7 2.2 读入文件 pandas读入HDF5文件的方式主要有两种,一是通过上一节类似的方式创建与本地h5文件连接的IO对象,接着使用键索引或者store对象的get()方法传入要提取数据的key...图10 2.3 性能测试 接下来我们来测试一下对于存储同样数据的csv格式文件、h5格式的文件,在读取速度上的差异情况: 这里我们首先创建一个非常大的数据,由一亿行x5列浮点类型的标准正态分布随机数组成...图12 csv比HDF5多占用将近一倍的空间,这还是我们没有开启HDF5压缩的情况下,接下来我们关闭所有IO连接,运行下面的代码来比较对上述两个文件数据还原到数据框上两者用时差异: import pandas

5.2K20

数据科学小技巧1:pandas库apply函数

阅读完本文,你可以知道: 1 pandas库apply函数的实用(向量化操作) "学以致用,活学活用" 第一个数据科学小技巧:pandas库apply函数。...pandas库apply函数是用于数据处理和创建新变量最常用的函数之一。把数据的每一行或者每一列传送到一些处理函数,可以返回一些结果。函数可以是默认函数或者自定义函数。...举例说明:计算数据一列(变量)或者每一行(样本)的缺失值个数 一 参考代码 # -*- coding: utf-8 -*- """ Created on Sun Mar 8 07:30:05 2020.../data/loan_train.csv', index_col='Loan_ID') # 数据检视 print(loan.head()) # 统计数据一列(变量)缺失值个数 print('每一列缺失值的个数...:') print(loan.apply(missing_count, axis=0).head()) # 统计数据每一行(样本)缺失值个数 print('每一行缺失值的个数:') print(loan.apply

76320

PandasPython可视化机器学习数据

为了从机器学习算法获取最佳结果,你就必须要了解你的数据。 使用数据可视化可以更快的帮助你对数据有更深入的了解。...在这篇文章,您将会发现如何在Python中使用Pandas来可视化您的机器学习数据。 让我们开始吧。...单变量图 本节,我们可以独立的看待每一个特征。 直方图 想要快速的得到每个特征的分布情况,那就去绘制直方图。 直方图将数据分为很多列并为你提供每一列的数值。...您可以为数据的每对变量特征创建一个散点图。然后将所有的散点图绘制在一起,这就是散点图矩阵。 散点图对于发现变量之间的结构关系非常有用,例如两个变量之间是否呈线性关系。...[Scatterplot-Matrix.png] 概要 在这篇文章,您学会了许多在Python中使用Pandas来可视化您的机器学习数据的方法。

6.1K50

PandasPython可视化机器学习数据

您必须了解您的数据才能从机器学习算法获得最佳结果。 更了解您的数据的最快方法是使用数据可视化。 在这篇文章,您将会发现如何使用PandasPython可视化您的机器学习数据。...单变量图 本节,我们将看看可以用来独立理解每个属性的技巧。 直方图 获取每个属性分布的一个快速方法是查看直方图。 直方图将数据分组为数据箱,并为您提供每个箱中观察数量的计数。...这是有用的,因为如果有高度相关的输入变量您的数据,一些机器学习算法如线性和逻辑回归性能可能较差。...您可以为数据的每对属性创建一个散点图。一起绘制所有这些散点图被称为散点图矩阵。 散点图对于发现变量之间的结构关系非常有用,例如是否可以用一条线来总结两个变量之间的关系。...概要 在这篇文章,您发现了许多方法,可以使用Pandas更好地理解Python的机器学习数据

2.8K60

问与答62: 如何按指定个数Excel获得一列数据的所有可能组合?

excelperfect Q:数据放置列A,我要得到这些数据任意3个数据的所有可能组合。如下图1所示,列A存放了5个数据,要得到这5个数据任意3个数据的所有可能组合,如列B中所示。...Dim n AsLong Dim vElements As Variant Dim lRow As Long Dim vResult As Variant '要组合的数据在当前工作表的列...A Set rng =Range("A1", Range("A1").End(xlDown)) '设置每个组合需要的数据个数 n = 3 '在数组存储要组合的数据...Then lRow = lRow + 1 Range("B" & lRow) = Join(vResult, ", ") '每组组合放置多列...如果将代码中注释掉的代码恢复,也就是将组合结果放置多列,运行后的结果如下图2所示。 ? 图2

5.5K30

【学习】Python利用Pandas库处理大数据的简单介绍

loop = False print "Iteration is stopped." df = pd.concat(chunks, ignore_index=True) 下面是统计数据...首先调用 DataFrame.isnull() 方法查看数据哪些为空值,与它相反的方法是 DataFrame.notnull() ,Pandas会将表中所有数据进行null计算,以True/False...接下来是处理剩余行的空值,经过测试, DataFrame.replace() 中使用空字符串,要比默认的空值NaN节省一些空间;但对整个CSV文件来说,空列只是多存了一个“,”,所以移除的9800万...进一步的数据清洗还是移除无用数据和合并上。...DataFrame.astype() 方法可对整个DataFrame或某一列进行数据格式转换,支持Python和NumPy的数据类型。

3.2K70

Pandas速查卡-Python数据科学

刚开始学习pandas时要记住所有常用的函数和方法显然是有困难的,所以Dataquest(https://www.dataquest.io/)我们主张查找pandas参考资料(http://pandas.pydata.org...来开始学习pandas数据科学课程。...('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据的前n行 df.tail(n) 数据的后n行 df.shape() 行数和列数...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据的列之间的相关性 df.count() 计算每个数据的列的非空值的数量 df.max

9.2K80

numpy和pandas库实战——批量得到文件夹下多个CSV文件的第一列数据并求其最值

当然这只是文件内容的一小部分,真实的数据量绝对不是21个。 2、现在我们想对第一列或者第二列等数据进行操作,以最大值和最小值的求取为例,这里以第一列为目标数据,来进行求值。 ?...通常我们通过Python来处理数据,用的比较多的两个库就是numpy和pandas本篇文章,将分别利用两个库来进行操作。...3、其中使用pandas库来实现读取文件夹下多个CSV文件的第一列数据并求其最大值和最小值的代码如下图所示。 ? 4、通过pandas库求取的结果如下图所示。 ?...通过该方法,便可以快速的取到文件夹下所有文件的第一列的最大值和最小值。 5、下面使用numpy库来实现读取文件夹下多个CSV文件的第一列数据并求其最大值和最小值的代码如下图所示。 ?.../小结/ 本文基于Python,使用numpy库和pandas库实现了读取文件夹下多个CSV文件,并求取文件一列数据的最大值和最小值,当然除了这两种方法之外,肯定还有其他的方法也可以做得到的,欢迎大家积极探讨

9.3K20

使用PythonNeo4j创建数据

列,在行创建作者列表。...return [e[1] + ' ' + e[0] for e in line] def get_category_list(line): # 清除“category”列,该行创建类别列表...正如你创建窗口中看到的那样,还有许多其他有用的沙箱,但是我们将选择这个选项,因为我们将用我们自己的数据填充数据库。休息几分钟,等待运行完成。一旦完成,你将得到你的连接信息,如下所示: ?...category和author节点创建数据,我们将使用它们分别填充到数据: def add_categories(categories): # 向Neo4j图中添加类别节点。...本例,假设我们想计算每个类别的相关度,并返回前20个类别的类别。显然,我们可以Python完成这个简单的工作,但让我们Neo4j完成它。

5.2K30
领券