我有这样的数据帧 City Gender
0 A M
1 B F
2 C F
3 A M
4 A M
5 B F 然后,我想使用.nunique on City列来了解表中有多少内容占据了前两个位置 我从https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nunique.html那里学到了很多东西,我试着运行这个 df_dataset['City'].nunique() 但是有些事情是不合理的
我正在试着写一些能做以下事情的东西: 读取超过1m行、100列数据的CSV;按照从最大行到最少行的顺序列出重复行的出现情况来总结每列 到目前为止,我所拥有的: import pandas as pd
df = pd.read_csv (r'infile.csv')
outfile = ('outfile.csv')
for i in df:
df.pivot_table(index=i, aggfunc='size').to_csv(outfile, mode='a') 下面的代码输出如下: ColumnA,0
as
我有一个数据帧,其中包含100行中的10个唯一国家。现在,通过应用value_counts(),我试图获得每个国家/地区的出现频率。我需要把这个放在数据框里。
This is the output of value_counts:
South Africa 166
USA 164
Spain 134
Sweeden 119
France 115
Russia 97
India 95
UK 95
Ukraine 9
Irel
当我使用TypeError方法时,我遇到了一个带有熊猫稀疏数据帧的value_counts。我已经列出了我正在使用的软件包的版本。
对如何使这项工作有什么建议吗?
提前谢谢。此外,如果需要更多的信息,请告诉我。
Python 2.7.6 |Anaconda 1.9.1 (x86_64)| (default, Jan 10 2014, 11:23:15)
[GCC 4.0.1 (Apple Inc. build 5493)] on darwin
Type "help", "copyright", "credits" or "license
我有一个数据帧,由名称和每0.1秒的速度测量值组成。我想要得到速度超过限速0.3秒(即连续3行)的次数。 limit = 25.3
Name speed time
Mary 25.6 0.1
Mary 25.8 0.2
Mary 25.1 0.3
Mary 24.4 0.4
Mary 24.2 0.5
Mary 25.8 0.6
Mary 25.9 0.7
Mary 25.8 0.8
Mary 25.4 0.9
Mary 24.9 1.0
Mary 25.6 1.1
Mar
我希望在pandas dataframe列中只保留重复四次以上的行。下面是示例数据帧和所需的输出。有谁能帮我一下吗?任何帮助都将不胜感激!提前感谢!
当前数据帧
Shop Name Number
Nike Tom 45
Nike Keith 245
Nike Justin 876
Nike Thomas 65
Nike George 06
Adidas Tom 34
Adidas Thomas 652
Adidas Jennifer 872
Apple Louise 79
A
我试图从一个超过10.000行的数据帧中提取出一个新的数据帧,其中包含客户ID的行,这是现有数据帧中最常见的前3行。 因此,当我现有的数据帧看起来像这样时: Customer-ID Name Order-ID Year
0 1 John 00001 2014
1 2 Doe 00002 2014
2 3 Erik 00003 2015
3 4 Paul 00004
我有一个数据帧,比如:
a b c d e
a 1 2 3 5 2
b 2 1 3 4 3
c 2 4 1 5 6
d 1 5 6 1 1
e 2 3 4 1 1
(1)我需要找到索引(i,i)以外的MAX和MIN值。对于这个例子:我需要得到的解为Max: 6,在(c,e),(d,c)处出现2次。对于最小值也是如此。我如何使用Pandas/Python来做这件事?
(2)类似地,如果一个指定了行(或列),我需要得到它的最大和最小值,而不是行索引(或列索引)。因此,如果我指定行a,我需要将MAX val设为5,并出现在(a,b),(a,e)处。谢谢。
我知道一个非常基本的问题,但我对python还不熟悉,就这样吧。我正在编写一个程序,它同时“抛出”4个骰子,并将它们的可能结果加在一起。现在,我的代码完全正常工作,但我只希望它打印"18.0“的计数,而不是打印每个唯一值的计数。即以下80个
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
four_dice = np.zeros([pow(6,4),5]) # 1296 rows x 5 columns
n = 0
outcomes = [1,2,3,4,5,6]
for i in out
我有一个像这样的数据框,
df
col1 col2
1 A
2 B
1 A
2 A
3 B
4 A
5 A
6 A
7 B
8 A
9 B
现在我要过滤这个数据帧,并取所有行,直到倒数第三个B,这样数据帧看起来就像,
col1 col2
3 B -->third B
4 A
5 A
6 A
7 B -->second B
8 A
9