假设我有一个名为df1的Python/Pandas数据帧,其中包含列a和b,每个列只有一条记录(a =1和b= 2)。我想创建第三列c,它的值等于a+b或3。
使用Pandas,我会写道:
df1['c'] = df1['a'] + df1['b']
我更喜欢写一些更简单、更容易阅读的东西,比如下面这样:
with df1:
c = a + b
SAS允许在其“数据步骤”中使用这种更简单的语法。如果Python/Pandas有类似的东西,我会很高兴的。
非常感谢!肖恩
我是新来的达斯克,列被删除的方式让我感到困惑。我已经把一个csv文件读到了Dask数据文件中。那么假设我有这个:
print(len(columns_to_drop)) # There are 66
print(len(list(df.columns))) # The Dask columns before the drop
df.drop(columns_to_drop, axis=1).compute(). # Drop the columns
pd_df = df.compute() # Create a Pandas dataframe
print(pd_df.shape[1
我得到了这个错误 File "pandas/_libs/tslib.pyx", line 356, in pandas._libs.tslib.array_with_unit_to_datetime
pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: cannot convert input with unit 's' 尝试将pandas列转换为日期时间格式时。 我检查了这个答案Convert unix time to readable date in pandas dataframe 但这并没有帮助我
我用pandas库创建了一个数据帧。我想向dataframe中添加一列。然而,我得到了以下error.But,我想我必须输入与lines.How数量一样多的数据,我可以在我想要的行和列中输入信息吗?如果不输入数据,如何创建列? import pandas as pd
kd = pd.DataFrame(data)
insertColumns = kd.insert(0, "Age", [21, 23, 24, 21],True )
print(kd) 错误: ValueError: Length of values (4) does not match length o
我有一个用#分隔的文件,它有三列:第一列是整型,第二列看起来像浮点型,但实际上不是,第三列是字符串。我尝试用pandas.read_csv将其直接加载到python中。
In [149]: d = pandas.read_csv('resources/names/fos_names.csv', sep='#', header=None, names=['int_field', 'floatlike_field', 'str_field'])
In [150]: d
Out[150]:
<class
因此,我有一个包含多个列的数据帧,但真正重要的列称为A和B。如果列A不包含值X,或者列B不包含值Y,则必须删除该行。
我尝试使用这个函数:
def removeRows(df, value):
df.drop(df[ (df['A'] != value) | (df['B'] != value)].index, inplace = True)
return df
But i got this error:
A value is trying to be set on a copy of a slice from a DataFrame
S
这样做是正确的:
import pandas as pd
def fnc(m):
return m+4
df = pd.DataFrame({"m": [1,2,3,4,5,6], "c": [1,1,1,1,1,1], "x":[5,3,6,2,6,1]})
df
# apply a self created function to a single column in pandas
df["y"] = df['m'].apply(fnc)
df
我试着修改上面的代码。在这里,我需要将列m值添加到
由于一些regex错误,.csv文件中有许多行相同,但格式略有不同,所以URL始终是常见的变量。我需要找到列"tx“中的url的所有副本,并删除第一列以外的所有其他内容。
.csv为50K行。系统是Windows。
我试过的是:
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("dupes.csv")
# dropping ALL duplicte values
df = data.drop_duplica
此问题是以下问题Check if pandas column contains all elements from a list的扩展 在问题中,为了派生输出,在Pandas列中检查列表的所有成员。我需要检查列表的一个或多个元素,即即使列表中只有一个元素与pandas列中的元素匹配,我也希望在输出中考虑这一点 示例数据将为 frame = pd.DataFrame({'a' : ['a,b,c', 'a,c,f', 'b,d,f','a,z,c']})
letters = ['a','