我正在尝试通过连接两个具有特定条件的列来创建一个新列。 master['work_action'] = np.nan
for a,b in zip(master['repair_location'],master['work_service']):
if a == 'Field':
master['work_action'].append(a + " " + b)
elif a == 'Depot':
master['work
因此,我有一个熊猫dataframe,并且我试图将每个值(在我的例子中是一个字符串)替换为一个列表的元素,如果该字符串包含thyat元素(一个子字符串)。为了澄清,我有一个简单的dataframe:
data = {'column': ['I have a dog', 'and I have two cats', 'I have nothing', 'I like pandas', " "]}
df = pd.DataFrame(data)
list = ['dog', 'c
当我通过DataFrame方法和包含单个元素的列表为df.loc分配新的值时,熊猫的行为与我预期的不同。
例如,(在python 3.6和熊猫0.22.0中):
import pandas as pd
df = pd.DataFrame([[1,2,3]],columns=["A", "B", "C"])
# a list has two or more elements
df.loc[0, ["A", "B"]] = ["X", "Y"]
df
A B C
0 X
我传递了一个索引类型变量(Pandas.Index),它包含了我想从DataFrame中删除的列的标签,并且它工作正常。它是索引类型,因为我是根据DataFrame本身的特定条件提取列名的。
之后,我需要向该列表添加另一个列名,因此我将Index对象转换为Python列表,以便追加附加的标签名。但是,当将列表作为列参数传递给Dataframe上的drop()方法时,我现在继续得到错误:
ValueError: Need to specify at least one of 'labels', 'index' or 'columns'
如何解决此错
我用下面的代码创建了一个DataFrame: import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
data = pandas.read_csv('cost_revenue_clean_v1.csv')
data.describe()
X = DataFrame(data,columns = ['production_budget_usd']
我将.xlsx文件解析为pandas dataframe,并希望将其转换为元组列表。pandas dataframe有两列。
元组列表需要与product_id一起分组的transaction_id。我看到了一个关于创建一个元组列表的,但是代码结果与用`product_id分组的transaction_id分组。
如何在页面底部获得所需格式的元组列表?
import pandas as pd
import xlrd
#Import data
trans = pd.ExcelFile('/Users/Transactions.xlsx')
#parse xlsx file in
我有以下数据
# Import pandas library
import pandas as pd
import numpy as np
# initialize list elements
data = ['george',
'instagram',
'nick',
'basketball',
'tennis']
# Create the pandas DataFrame with column name is provided expli
这里是Python/Pandas初学者。我有一个名字列表,每个名字都代表我的计算机上的一个csv文件。我想为每个csv文件创建一个单独的熊猫数据文件,并使用相同的名称作为数据。通过为列表中的每个名称创建单独的代码行,以及随着列表随时间的变化手动添加/删除这些代码行,我可以以一种非常低效的方式做到这一点,比如,当我有3个名称Mark、Frank和Peter时:
path = 'C:\\Users\\Me\\Desktop\\Names'
Mark = pd.read_csv(path+"Mark.csv")
Frank = pd.read_csv(path+
我希望选择符合特定条件的列,并将它们添加到生成的DataFrame中。
import pandas as pd
df = pd.read_csv('outputData.csv')
for col in df.columns:
for index in col: #how can I do this?
if(index > 0) #... check some conditions
那么,我如何迭代列的索引呢?或者,是否有更好的方法来做到这一点?
编辑:
要读取的DataFrame如下所示:
col1 col2 col3 ....
1 1
我是Pandas的新手,我处理一个dataset,其中一个列是string和pipe (|)分隔的值。现在,我有一项任务,要删除这个分隔的字段中任何不符合特定条件的文本。
我天真的方法是逐行迭代dataframe,并将字段分解为list并以这种方式进行验证。然后将修改后的行写回原始的dataframe。请参阅此元示例:
for index, row in dataframe.iterrows():
fixed = [x[:29] for x in row['field'].split('|')]
dataframe.loc[index, '
我需要获取DataFrame系列的一些特定索引的列表,以及所有这些列表的列表。
我可以用列表理解来做这件事,但我想知道我是否能用DataFrame的apply方法来做这件事。这是一个玩具模型:
a=pd.DataFrame({'a':[1,1,1,0,0,1],'b':[1,0,1,0,0,1]})
[a[a[name]==1].index for name in a.columns]
可能只是因为我对pandas了解不深,但当我使用apply方法时,我将序列想象成一个列表,因此我不知道如何“放入”index属性。
我对Pythonand还比较陌生,完全是Pandas的新手,所以我很抱歉,如果这真的很简单的话。我有一个dataframe,我想对特定列中的所有元素进行操作,但前提是具有相同索引的不同列满足特定条件。
float_col int_col str_col
0 0.1 1 a
1 0.2 2 b
2 0.2 6 None
3 10.1 8 c
4 NaN -1 a
例如,如果float_col中的值大于
我正在试图替换dataframe (C栏)中的列表名称:
名称的列表(很小的例子,列表太大):
Jack
Liam
John
Ethan
George
...
小数据格式示例:
A B C
French house Phone <phone_numbers>
English house email <adresse_mail>
French apartment