我正在尝试创建一个年份列,其中的年份来自于我的dataframe中的title列。此代码可以工作,但列dtype是object。例如,在第1行中,年份显示为2013年。
我如何才能做到这一点,但将列dtype更改为float?
year_list = []
for i in range(title_length):
year = re.findall('\d{4}', wine['title'][i])
year_list.append(year)
wine['year'] = year_list
这是我的数据中心的头:
co
我有一个旅行的数据与一列如何使旅行类似于列"a“下面。
我的目标是根据列"a“的值向每一行添加一个新的数据列。
下面的功能工作,但似乎是一个过于复杂的方式,以实现一个相当简单的目标。
new_var <- 0似乎会导致一个bug。
如果我不附加dataframe并以这种方式调用列,函数就不能工作,这显然不是很好。
显然有更好的方法吗?
a <- c("On the Subway", "On a train", "Driving","On the Subway", "On a train"
我有一个dataframe,我想根据另一个dataframe中已有的项添加一个列"exists“。
使用isin函数仅根据另一个数据帧返回1个匹配项。当我将要筛选的列设置为索引时,锁定筛选器也是如此。
当我像这样使用对另一个DF的列表或列的引用时,它不会像预期的那样工作:
table.loc[table.index.isin(tableOther'column'),:]
在这种情况下,它只返回1项。
import pandas as pd
import numpy as np
# Source that i like to enrich with additional
这是我正在经历的问题。
dataframe中的原始列包含与此"(Do Not Use) Healthfirst"类似的保险名称,该列的名称为"InsuranceNames"。我正在使用以下代码尝试将"(Do Not Use) "部件划分为空白,并保留保险名称:
df["InsuranceNames"] = df["InsuranceNames"].str.replace('(Do Not Use) ','',regex=True)
但是当我把这个导出给csv时,“不使用”仍然存
我正试着在熊猫的第二栏中计算一栏的内容。我想把频率计数放在一个叫做频率的新列中。
我希望在一个名为频度的新列的Description列中找到关键字列中的字符串的次数。
期望输出
[keyword] [Description] [Frequency]
car car dog car car 3
car car dog dog dog 1
new car old car car dog 0
代码我试过
我希望将列放在包含banned_columns列表中任何单词的pyspark中,并从其余列中形成一个新的dataframe。
banned_columns = ["basket","cricket","ball"]
drop_these = [columns_to_drop for columns_to_drop in df.columns if columns_to_drop in banned_columns]
df_new = df.drop(*drop_these)
banned_columns的思想是删除以basket和cricket
我有一个TSV文件,我加载到一个熊猫数据文件中进行一些预处理,我想知道哪些行在其中有问题,并在一个新的列中输出1或0。因为它是TSV,所以我是这样加载它的:
import pandas as pd
df = pd.read_csv('queries-10k-txt-backup', sep='\t')
下面是它的外观示例:
QUERY FREQ
0 hindi movies for adults 595
1 are panda dogs real
我正在尝试搜索一个列(在我的例子中是第3列),看看它是否将字符串传递到函数提取。当If语句命中时,它将从同一行的另一列复制文本(在我的示例中为第6列),并退出For循环。函数中的For循环是扫描第3列中的所有行。为了检查是否匹配,我使用了VBA中可用的工作表函数。
Function Extract(x As String, Y As Integer) As String
Dim i As Integer
For i = 2 To Y
If Application.WorksheetFunction.IsNumber(Application.Worksheet
我有两个熊猫数据帧:
数据帧1:
ITEM ID TEXT
1 some random words
2 another word
3 blah
4 random words
数据帧2:
INDEX INFO
1 random
3 blah
我想要将( dataframe 2的) INFO列的值与dataframe 1的TEXT列进行匹配。如果匹配,我希望看到一个新的列带有"1“。
如下所示:
ITEM ID TEXT MATCH
1 some random words
我有一些JSON数据转换成一个熊猫DataFrame。我希望找到其字符串内容匹配多词短语列表的所有列。
我正在使用大量的Twitter JSON数据 (因此Twitter API的使用不适用)。这个JSON被转换成一个Pandas DataFrame。其中一个可用的列是text,它是tweet的主体。一个例子是
We’re kicking off the first portion of a citywide traffic calming project to make residential streets more safe & pedestrian-friendly, next
我正在尝试确保dataframe中的特定列不包含任何非法值(非数字数据)。为此,我尝试使用使用rlike的正则表达式匹配来收集数据中的非法值:
我需要收集包含字符串字符、空格、逗号或任何其他不像数字的字符的值。我试过了:
spark.sql("select * from tabl where UPC not rlike '[0-9]*'").show()
但这不管用。它产生0行。
任何帮助都是非常感谢的。谢谢。
我正在通过读取PDF文件生成一个Dataframe。读取文件时,可能会发生其中一列只包含NaN值的情况。
我需要在所有列中搜索字符串,但在列上运行str.contains,其中包含AttributeError: Can only use .str accessor with string values!中的所有NaN结果。
下面的代码会导致错误。但是,将其中一个NaN值更改为字符串,它就可以工作。我怎么才能避开这一切?
d = {'col': [np.nan, np.nan, np.nan, np.nan, np.nan]}
df = pd.DataFrame(data=d)
我想检查一个dataframe中的列中的值是否存在于另一个dataframe的列中。如果存在,则将该值添加到第二个dataframe中同一行的新列中。所有值都是字符串值。两个数据帧的大小不同。第二个数据帧也有大约70万条记录。因此,我拥有的数据帧:
DF1
THINGS
book+pen
CAR
chair
laptop
DF2
Description
I want a new book.
I will pen down this things
A quick ride in my new car.
Cars are awesome.
My laptop's memory is b