Python 3.8,使用Pandas。 我正在尝试去掉pandas数据框列' data‘中负数的符号,只留下幅度,即所有值都是正数。本质上,将一列中的值乘以-1,但仅当它为负值时。这是比较容易的一点。然后在数据帧中创建一条它已被颠倒的记录。因此在本例中创建另一个名为"Tubes Inverted“列 #Check sign and create a column recording if this has been inverted.
num = df['DATA']._get_numeric_data()
我有一组男性和女性工人的工资数据,由他们的名字表示。
Male Female Male_Wage Female_Wage
James Lori 8 9
Mike Nancy 10 8
Ron Cathy 11 12
Jon Ruth 15 9
Jason Jackie 10 10
在pandas中,我想在数据框中创建一个新列,用于显示收入最高的人员的姓名。
我是Python和Pandas的新手,所以这可能是一个显而易见的问题。
我有一个数据框,里面列出了年龄。我想创建一个具有年龄带的新字段。我可以使用lambda语句来捕获单个if / else语句,但我希望使用多个if语句,例如if age < 18 then 'under 18' elif age < 40 then 'under 40' else '>40'。
我不认为我可以使用lambda做到这一点,但我不确定如何用一种不同的方式做到这一点。到目前为止,我有以下代码:
import pandas as pd
import n
我有一个包含多个列(20)和行(16404)的pandas数据帧。其中一列是“age”。我希望能够绘制其他指标,例如在某个年龄类别上的“收入”。20岁以下的男性和20岁到40岁的女性的收入是多少?
我尝试过这种情况:
for i in range(len(df['age'])):
if df['age'][i]<25 and df['Gender'][i]==1:
df['group'][i]=1
但是我得到了以下错误:The truth value of a Series is ambiguous.
pandas中有没有一种方法来计算一列中有多少个True或False条件。
例如:如果一个数据框有5列,并且我想选择至少有三列且值大于3的行,可以在不使用迭代器的情况下完成吗?因此,在下面的示例中,我将选择b和c行。
In [12]: df2
Out[12]:
A B C D E
a 1 2 2 8 6
b 3 6 5 8 8
c 6 2 5 5 2
我不知道如何清理和矢量化数据。
train=pd.read_csv('longilati.csv',encoding='mac_roman')
train`
Index(['Comment ', 'Polarity'], dtype='object')
以下数据在我的数据框中:
但是,每当我尝试使用以下代码清理数据时
def remove_pattern(text,pattern):
r = re.findall(pattern,text)
for i in r:
我正在执行一个for,我想从数据框中同时排除'date‘和'unix’列。 我该怎么做呢? from sklearn import preprocessing
from tensortrade.data.cdd import CryptoDataDownload
import pandas as pd
cdd = CryptoDataDownload()
data = cdd.fetch("Bitstamp", "USD", "BTC", "1h")
for col in data.columns: