我有一个数据帧'trips‘,看起来像这样:
Name Age Stops
a jack 34 [A,B,C]
b john 30 [B]
c ralph 31 [A,C]
d olaf 32 [A,B]
其中列" stops“包含可变长度的来自A、B、C的停靠点列表。我已经能够为A、B、C创建另外3个零值的列,方法是:
for col in list_stops:
trips[col] = 0
我希望对于每一行,根据每个列表的值将二进制值0/1添加到新列,使新数据帧
我需要过滤一个巨大的熊猫数据帧,它在'A‘列中包含列表中的两个单词。我已经只考虑了word_list中的一个值来过滤它,但是我不知道如何对两个值进行过滤。
new_df = df[df["A"].apply(lambda x: any(i in x.split() for i in word_list))]
谢谢大家
我有一个列表字典,并构造了一个数据框架,其中索引是字典键,列是列表中包含的一组可能的值。dataframe值表示字典中包含的每个列表的每个列的存在性。最有效的构造方法是什么?下面是我现在使用for循环的方式,但我确信有一种更有效的方法,使用向量化或级联。
import pandas as pd
data = {0:[1,2,3,4],1:[2,3,4],2:[3,4,5,6]}
cols = sorted(list(set([x for y in data.values() for x in y])))
df = pd.DataFrame(0,index=data.keys(),column
我在dataframe中有一个列,其中所有值都是列表(通常是每行一项的列表)。所以,我想使用get_dummies来对所有的值进行一个热编码。但是,可能有一些行没有该列的值。我最初认为它是一个nan,然后我用一个空列表替换了那个nan,但在这两种情况下,我都没有看到get_dummies的结果是0和1,而是每个生成的列都是空的(我希望每个生成的列都是0)。 如何让get_dummies处理空列表? # create column from dict where value will be a list
X['sponsor_list'] = X['bill_id
假设我有以下数据。
import pandas as pd
age = [[1,2,3],[2,1],[4,2,3,1],[2,1,3]]
frame = {'age': age }
result = pd.DataFrame(frame)
ver=pd.DataFrame(result.age.values.tolist(), index= result.index)
listado=pd.unique(ver.values.ravel('K'))
cleanedList = [x for x in listado if str(x) !=
我在dask数据框中有一列,其中包含不同类别的逗号分隔列表。我正在寻找复制sklearn的MultiLabelBinarizer或pandas函数pd.get_dummies(',')的功能,就像这个线程描述的那样:Create dummies from column with multiple values in dask 有没有绝对没有办法做到这一点,就像那里的一个答案所说的那样?如果我得到了所有值的列表,有没有办法实现这一点?
这是我的熊猫资料
Movie Tags
0 War film tank;plane
1 Spy film car;plane
我希望用带有0和1的标记列创建新列,并在列的名称中添加一个前缀,如'T_‘。
比如:
Movie Tags T_tank T_plane T_car
0 War film tank;plane 1 1 0
1 Spy film car;plane 0 1 1
例如,我对如何用拆分(“;”)和df.loc:、'T_plane‘
我有一个函数get_tags,它返回一个对应于文本的标签列表:
def get_tags(text):
# Do some analysis and return a list of tags
return tags
例如,get_tags(text1)返回['a', 'b', 'c'],而get_tags(text2)返回['a', 'b']
我还有一个pandas DataFrame df,它的列[text, a, b, c, d, e, f]有500,000行。我想将1作为标签填充到特定行中的
我希望扩展此数据框架的“功能”列,以便创建一个新的数据框架,其中这些功能将成为列名。
例如。从这里,
为了这个,
我的解决方案有效,但我不认为它很好,因为有很多的for-循环。也许有一种更好的方法可以利用Pandas.DataFrame类的特性?
生成特征矩阵的代码如下,
def feature_data_frame_by_exploding_column(input_df, col_name):
# Create data frame with same columns minus the column you want to explode
df =
我有一些数据,如下所示:
Owner Label1 Label2 Label3
Bob Dog N/A N/A
John Cat Mouse N/A
Lee Dog Cat N/A
Jane Hamster Rat Ferret
我想把它重塑成一个热编码。如下所示:
Owner Dog Cat Mouse Hamster Rat Ferret
Bob 1 0 0