我有一个从csv文件读取的数据帧y,它有两列,一列用于文本,另一列用于投票
>>> y = pd.read_csv("./path/to/my/doc.csv",encoding="utf-8")
>>> y
<class 'pandas.core.frame.DataFrame'>
Int64Index: 43977 entries, 2 to 72308
Data columns:
vote 43977 non-null values
text 43977 non-null va
我尝试在pandas groupby上运行聚合函数,其中我将其中一列作为kwarg或arg传递。我可以通过传递一个常量来做到这一点,但是我不知道如何传递一个列值。
例如
import pandas as pd
import datetime
import numpy as np
def sum_corr(vector, cor):
a = vector.tolist()
radicand = sum([a[i]*a[j] * (1 if i == j else cor) for i in range(len(a)) for j in range(len(a))])
r
有没有办法告诉pandas不要按字符列索引?我的代码是
A=['a','b','c']
B=[1,2,3]
pd.DataFrame(A,B)
0
1 a
2 b
3 c
我想要的是两列,这样我就可以按A列分组了,我该怎么做呢?我可以这样做,但我想跳过列名,以获得尽可能多的性能。
pd.DataFrame({'A':A,'B':B})
A B
0 a 1
1 b 2
2 c 3
我有一个只有两列的数据帧。我尝试将一列的值转换为标题,将另一列的值转换为其值。已尝试使用pivot和all,但不起作用。
df_pivot_test = sc.parallelize([('a',1), ('b',1), ('c',2), ('d',2), ('e',10)]).toDF(["id","score"])
id score
a 1
b 1
c 3
d 6
e 10
尝试将其转换为
a b c d e
1 1 3 6
我正在数据中的两列之间做交叉列表。下面是列中的一个示例:
column_1 column_2
A -8
B 95
A -93
D 11
C -62
D -14
A -55
C 66
B 76
D -49
我正在寻找一个代码,它返回A、B、C和D的小计。例如,对于A,小计将是-156 (-8-93-55 = -156)。
我试着用panda