我想在Pandas中创建一个新列,使用为dataframe中的另一列分割的字符串。
例如。
Sample Value New_sample
AAB 23 A
BAB 25 B
其中,New_sample是由Sample的简单[:1]切片形成的新列
我尝试了许多方法,但都无济于事--我觉得我错过了一些简单的东西。
做这件事最有效的方法是什么?
我尝试根据第四列中的值填充另两列中的一列中的值。
我有一个包含四列的pandas数据帧: A、B、C、D
df_copy = df.copy()
for i, row in df.iterrows():
if 'Test' in row.D:
df_copy.loc[i, 'A'] = row.B
elif 'Other' in row.D:
df_copy.loc[i, 'A'] = row.C
这是可行的,但速度非常慢。有没有更有效的方法?
我如何在pandas中创建一个新列,它是由字符串组成的另外两个列的差异的结果?
我有一个标题为"Good_Address“的专栏,它有像"123 Fake Street apt101”这样的条目,还有一个标题为"Bad_Address“的专栏,它有像"123 Fake Street”这样的条目。我希望"Address_Difference“列中的输出是”Apt101“。
我试过这样做:
import pandas as pd
data = pd.read_csv("AddressFile.csv")
data['Address D
我得到了一组格式不佳的数据来清理,有几列数据包含多条信息,每条信息都需要分成多列。一个例子是一个名为DaysOfWeek的列,它包含一个人可以工作的天数,以及一个自由文本字段。我想创建8列,一列表示一周中的每一天,另一列表示不是一周中某一天的任何内容(可能包含一周中某一天的名称,如下面的示例所示)。我已经将数据导入到Pandas中,并尝试使用"in“列表功能来扫描一周中的几天,但我得到的所有信息都是错误的。下面是重现我的问题的代码:
import pandas as pd
# First example - Testing it in regular code:
x = 'M
我有请求日期和提货日期列。它们是相似的,但不是相同的。我目前使用两个独立的查询和pandas来连接这两个数据帧。我使用SQLAlchemy在Flask中运行,因此WHERE中的所有内容都将传递给变量。在DB浏览器中测试过原始SQL之后,我使用text()方法来运行它。我尝试着单独使用sql来获得我想要的输出,但是没有取得任何进展。 SELECT r.PUDate, COUNT(r.PUDate) as trips
FROM requests r
WHERE PULoc IN ("list of location ID's")
AND r.'TO' IN
想知道如果你有两列(A = 'Name',B= 'Name_Age'),有没有一种快速的方法从'Name_Age‘中删除'Name’,这样你就可以快速获得'Age',就像反向连接一样??
我考虑过“字符串拆分”,但在某些情况下(当没有字符串拆分因子时),我真的需要一种方法来从另一列的字符串中删除一列的字符串。
#example data below:
import pandas as pd
data = {'Name':['Mark','Matt','Michael
嗨,我想知道是否有一种方法可以使用pandas read_csv从csv文件中读取数据,除了第一列之外,每个条目都用空格分隔: Alabama 400 300 200
New York 400 200 100
Missouri 400 200 50
District of Columbia 450 100 250 因此将有4列,第一列是state。
我有以下数据。我现在想要做的是增加一列与字数。
import pandas as pd
df = pd.DataFrame([['These are two words', 1], ['Two words', 2]], columns=('body', 'ticketID'))
因此,我这样做:
data['Count'] = ''
for index, i in data.iterrows():
y = len(i['Content'])
i['Count
在应用pandas.to_numeric时,Pandas返回的dtype是float64或int64,这取决于所提供的数据.
在极地上这样做是公平的吗?
我已经看到了这个,但是我不想单独地投出每一列。有几个字符串列我想要变成数字。这可以是int值或浮点值。
#code to show casting in pandas.to_numeric
import pandas as pd
df = pd.DataFrame({"col1":["1","2"], "col2":["3.5", "4.6"]})
我在R中有一个数据框架,它由大约100列组成。大多数列是双倍的,但有两个字母不同。我想保留这些列,并删除那些不加倍的列。
下面是一个示例:
234-rgz SK 234-rgz PV 556-gft SK 456-hjk SK 456-hjk PV
产出应是:
234-rgz SK 234-rgz PV 456-hjk SK 456-hjk PV
所有列都有相同的命名约定。从2开始到150,然后在这4个或5个字母之后的"-“,然后是空格,然后是"SK”或"PV“。我曾想过使用正则表达式,但后来我没有解决如何摆脱那些单一列的问