我有以下问题。我有一个有几个列的dataframe,其中一个列包含字符串作为值。我想循环遍历该列,更改这些值,并将更改后的值保存到新列中。
到目前为止,我编写的代码如下:
def get_classes(x):
for index, string in df['column'].iteritems():
listi = string.split(',')
Classes=[]
for value in listi:
count=listi.count(value)
if count >= 3:
Classes.append(value)
Unique=(',').join(sorted(list(set(Classes))))
df['NewColumn']=Unique
End.apply(get_classes)
它循环遍历df['column']
的行,在每个,
处拆分字符串(创建一个名为listi的列表),并创建一个名为list
的空类。然后对listi中的每个值进行计数,如果在列表中发生至少三次,则将其附加到类中。最终完成的列表是sorted
和set()
,因此列表中的所有对象都是唯一的,最后在逗号处再次连接到一个字符串。然后,我想在一个新列中追加这个唯一的值列表,并将其与派生出的行值位于相同的索引位置。例如:
df
column NewColumn
0 A,A,A,C A
1 C,B,C,C C
2 B,B,B,B B
当我执行print Unique
而不是df['NewColumn']=Unique
时,我的代码似乎工作得很好,因为它会打印所有转换后的值。但是,如果我像在我的示例中一样执行代码,那么dataframe的NewColumn
将完全填充相同的值,这似乎与df中最后一行的原始值相对应。有人能给我解释一下这是什么问题吗?
发布于 2015-12-02 10:26:09
您可以使用来自集合的强力Counter
:
from collections import Counter
foo = lambda x: ','.join(sorted([k for k,v in Counter(x).iteritems() if v>=3]))
df['new'] = df['column'].str.split(',').map(foo)
#In [33]: df
#Out[33]:
# column NewColumn new
#0 A,A,A,C A A
#1 C,B,C,C C C
#2 B,B,B,B B B
https://stackoverflow.com/questions/34039290
复制相似问题