假设我有一个名为df1的Python/Pandas数据帧,其中包含列a和b,每个列只有一条记录(a =1和b= 2)。我想创建第三列c,它的值等于a+b或3。
使用Pandas,我会写道:
df1['c'] = df1['a'] + df1['b']
我更喜欢写一些更简单、更容易阅读的东西,比如下面这样:
with df1:
c = a + b
SAS允许在其“数据步骤”中使用这种更简单的语法。如果Python/Pandas有类似的东西,我会很高兴的。
非常感谢!肖恩
目前有一个堆栈溢出的答案,它解释了如何为单值列重新映射Remap values in pandas column with a dict。我想知道如何将其有效地扩展到由列表组成的列。 di = {1: "A", 2: "B"}
col1 col2
0 w a
1 [1,2] 2
2 [2,2] NaN
transform to this
col1 col2
0 w a
1 [A,A] 2
2 [B,B]
我正在尝试开发一个文档分类器。我是python的新手,我正在尝试找出创建存储结构的最佳/标准方法。我正在寻找引入机器学习算法的数据集。
我正在摄取txt文件,我想让一列保存整个文档内容,第二列保存类(在我的例子中是0-1)。我最初尝试创建一个列表列表--比如list ["the skye is blue",1]["the sky is grey",1]["the sky is red",0]。
我还试图创建一个pandas Dataframe,因为我认为它的结构可能更适合数据操作。
我刚接触pandas,对此感到相当困惑,特别是与列表和使用列表理解相比。
我有一个有4列的数据帧。我想在第四列"m“的基础上创建第五列"c”。我可以通过对"m“列中的每一行应用我的函数来获得"c”的值。
如果"m“是一个列表,并且使用列表理解,那么它将是
c = [myfunction(x) for x in m]
如何将此“逻辑”应用于数据帧?
我在我的数据集上使用statsmodels.api。我有一张熊猫系列的清单。熊猫系列有键值对。键是列的名称,值包含数据。但是,我有一个序列列表,其中的键(列名)是重复的。我想将熊猫列表中的所有值保存到一个单独的数据中,其中列名是熊猫系列的键。列表中的所有系列都有相同的键。我希望将它们保存为一个单一的数据框架,这样我就可以将数据作为CSV导出。是否知道如何将键保存为df的列名,然后让值填充其余的信息。
列表中的每个系列都返回如下内容:
index 0 of the list: <class 'pandas.core.series.Series'>
height
我是Python和Pandas的初学者,但我觉得可以很简单地完成一些事情,我遇到了一些小麻烦。我试图将单个列的字符串值缩短到您在末尾看到的缩写。任何帮助都将不胜感激。谢谢。
以下是我的当前代码,仅显示列Driver中的驱动程序列表。
In[1]: drivers=df_results[0].loc[0:, 'Driver']
Out[1]:0 Sebastian Vettel VET
1 Lewis Hamilton HAM
2 Kimi Räikkönen RAI
3 Daniel
作为一名语言学家和python初学者,我希望在我自己的(德语)tweet语料库中找到单词搭配。如何将pandas dataframe (只有一列= tweet)中的tweet转换为单词列表,以便能够使用nltk-collocation-finder?我的版本(如下)创建了一个字母列表,而不是单词列表,只给出了字母搭配。任何建议都是很棒的!
这就是我到目前为止所知道的:
import pandas as pd
data = pd.read_csv("tweets.csv")
import regex as re
def cleaningTweets(twt):
twt