如何在python pandas中做group by和take一列除以第二列数据帧唯一计数？

文章/答案/技术大牛

发布

1回答

、、、

我有熊猫数据框架与4列说' col1 '，' col2 '，'col3‘和'col4’现在我想按col1和col2分组，并想采取聚合如下所说。Count(col3)/(Count(unique col4)) As result_col 我该怎么做呢？我正在对熊猫使用MySql。

浏览 0提问于2017-02-03得票数 3

回答已采纳

1回答

如何按子类别的不同计数对数据帧/数据透视表进行排序？

、、、

我尝试通过与第一列值相对应的第二列的不同计数来对数据帧的第一列进行排序。数据透视表中未排序的数据：investor1 Foo A 10 investor2 Bar A公司) distinct count是3，因此investor4和匹配值应该在顶部。investor3和inves

浏览 10提问于2019-11-03得票数 1

回答已采纳

3回答

在两个数组中查找重复的值，Python

、、

我有两个数组(A和B)，每个数组大约有50000个值。每个值代表一个ID。我想创建一个有三列的pandas数据帧，col1:来自数组A的值，col2:来自数组B的值，col3:标签为“唯一”或“重复”的字符串。在每个数组中，ID:s是唯一的。数组的长度不同。np.array([1, 2, 3, 4, 5])pd.DataFrame({'a':a, 'a

浏览 80提问于2021-01-28得票数 2

回答已采纳

1回答

自联接可将两个日期列与两个日期的groupby count列合并

、、、、

我有请求日期和提货日期列。它们是相似的，但不是相同的。我目前使用两个独立的查询和pandas来连接这两个数据帧。我使用SQLAlchemy在Flask中运行，因此WHERE中的所有内容都将传递给变量。在DB浏览器中测试过原始SQL之后，我使用text()方法来运行它。ReqDate >= '2014-01-01'AND PUD

浏览 9提问于2020-06-20得票数 0

4回答

Python pandas:如何根据多列对唯一值进行分组和计数？

、、、

datafarme df：1 sam 762 peter 8 我想在'id‘列上分组，并根据(name，number)对计算唯一值的数量

浏览 1提问于2016-02-01得票数 4

1回答

CSV文件的第一行是一个字符串的列表，其余行是Python中的元素列表

、、

我是一个新手，正在尝试使用Python3从大量的CSV文件中执行一些计算和分析一些数据。每个CSV文件的数据存储在大约30000行中，由分号分隔。但在我这样做之前，当我读取CSV文件的第一行时，列表中有一个由';‘分隔的字符串，而其余的行都被正确地提取出来了。我已经尝试了拆分文本和其他方法，但它们都不会对输出产生任何影响。这就是为什么我需要找出每个CSV文件中各个参数的位置。任何想法如何才能做得最好也是值得感谢的。提前谢谢。

浏览 1提问于2015-06-02得票数 0

2回答

基于Pandas数据帧中的几个变量计算概率

、、、

我对Python和Pandas还很陌生，所以请耐心听我说……def survivability(total_pass_df, column, value): survivors我确实为这两个组制作了

浏览 2提问于2017-01-08得票数 1

3回答

Pandas df.describe() -如何将值提取到Dataframe？

、、、

我正在尝试一种朴素的贝叶斯方法，在将一些数据加载到Pandas的数据帧中之后，describe函数捕获了我想要的数据。我想从表的每一列中捕获均值和标准差，但不确定如何做到这一点。我可以在R中用summary做类似的事情，但不知道如何在Python中做。有人能给点建议吗？

浏览 36提问于2019-01-28得票数 6

3回答

如何查找和查找列引用中特定列中的值，并将其值放入Pandas中的新列中

、、

我想在pandas中做一些类似Vlookup的事情，我有一个两列的数据框，需要检查第二列值(B)在第一列(A)中是否有效，如果是，则将行和第二列值插入到名为C的新列中，下面是示例表：原始数据帧为：A B b ad b e d 首选

浏览 30提问于2021-01-12得票数 0

回答已采纳

1回答

有条件地在数据帧中填充值

、、

我在一个数据帧中有一列，我需要用它来填充另一列。我在这个列中有四个值-- E、H、N和P。每个不同的值都用来填充"Size“列中的一个值。对于"N“类型，我想填写"-” 对于"H“和"P”类型，我想从相应的数据帧("H数据“或"P数据”)中填写一个值。-

浏览 17提问于2019-12-15得票数 1

回答已采纳

2回答

Pandas:如何动态使用df.name.unique()方法来查找所有唯一的列条目？

、、

这并不是关于如何在数据帧的列中找到所有唯一条目的问题，因为我知道如何做到这一点： import pandas as pd uni = set(df[key]) 这实际上是关于如何使用pandas自己的动态方法/函数和这种奇怪的语法来实现它，我不明白为什么有

浏览 70提问于2019-09-20得票数 0

回答已采纳

1回答

如何在熊猫数据帧中查找重复项

、

这里是第0行和第2行的副本，因为前3列(坐标)是相同的。我想也许在比较之前对数据帧进行排序会加快代码的速度。但是我不确定如何在python中正确地对它进行排序(我会按第一列进行排序。然后，对于第一列中相同的元素，第二列中的元素和第三列中的元素相同。因此，数据帧： 0 1 1 1 1 0 1

浏览 8提问于2019-06-07得票数 0

1回答

DataFrame --如何使用变量进行连接？

、、、、

在python上使用Spark数据帧连接两个数据帧时，我遇到了一些麻烦。我有两个数据帧，为了使它们对于每个数据帧都是唯一的，我必须更改列的名称，所以稍后我可以知道哪一列是哪一列。我这样做是为了重命名列(firstDf和secondDf是使用createDataFrame函数创建的火花DataFrames )： oldColumn

浏览 3提问于2016-09-20得票数 3

回答已采纳

2回答

Python中的趋势“预测者”？

、、、、

我目前使用的数据框(在pandas中)有两列:第一列是一些数字定量数据，如重量、某天花费的金额、GPA等，第二列是日期值，即添加相应列1条目的日期。我想知道，在Python中，有没有办法“预测”时间X之后的下一个值？例如，如果我有100个权重条目，跨越2-3个月(不是所有条目都有相同的时间差，所以1个条目可能在第3天、第二天5和第二天10)，并想

浏览 1提问于2018-04-08得票数 1

1回答

使用Pandas创建唯一列表

、、、、

我有一个包含超过1000列数据的xlsx文件。我想首先解析数据文件中的每隔一列(可以包含数字和字母)，然后根据解析的数据创建一个唯一的列表。我是一个彻头彻尾的新手&我尝试过" for“和"do while”循环，但这两个循环对我都不起作用。到目前为止，我有： workbook = pd.read_excel('C:\

浏览 1提问于2016-09-16得票数 1

回答已采纳

1回答

Pandas多索引数据帧合并问题

、、、、

我想合并两个数据帧，df1和df2，它们有多个索引列： mi1 = pd.MultiIndex.from_tuples([('id', '0'), ('car', '2018')], names=['中，第一列索引引用变量名，而第二列索引引用年份。一些变量，如本例中的'id‘，与特定年份无关，因此值为'0’，

浏览 61提问于2020-12-15得票数 0

回答已采纳

2回答

大多数pandas-获取列表长度统计数据的方式(平均长度、最大长度等)在pandas* df列中*

、

我想在pandas df专栏中获得列表长度的统计数据，如平均长度、最低长度、最高长度、标准差等。subject1 [3, 4, 6, 7] [2, 2, 7]因此，对于此数据帧，我希望获得trial_num和subject列的统计数据。_libs.hashtable.value_count_object() Ty

浏览 25提问于2019-10-21得票数 1

回答已采纳

2回答

通过将一列的所有值与另一数据帧的列的所有值进行比较来对数据帧进行切片

、、、

我有一个关于切片数据帧的问题。我有两个数据帧:索引为3447,4024的halo_field ...subhalo_field中，以便它只包含具有halo_index列值的行，该列的值也包含在halo_field.index中。问题是，这两列的长度当然不一样，我不能这样做(比较行与行，将一列的所有值与另一列的所有值进行比较)： subhalo_field=subhalo[subha

浏览 1提问于2018-10-29得票数 0

1回答

选择多索引数据帧的最新示例

、

我有一个和Getting the last element of a level in a multiindex类似的问题。在前面提到的问题中，多索引数据帧对于每个组都有一个始终相同的起始号。我又有两列。一列包含整数(在下面的MWE中为bool)，另一列包含datetime索引。与上面的示例类似，我希望为第一列最后一行中的每个唯一值执行select。在我的示例中，它指的是具有最近时间戳的值。上面问题

浏览 6提问于2021-06-25得票数 1

回答已采纳

1回答

如何使用pandas添加重复列

、

我正在做作业，我遇到了一个问题，我有一个很大的矩阵，第一列Y002是一个标称变量，它有3个级别，分别编码为1,2,3。另外两列V96和V97只是数字。我写了这样的代码然后我用索引来得到每组的平均值group2 = group["V97"] 现在，我想将这个组均值作

浏览 1提问于2015-07-18得票数 0

点击加载更多