我尝试在两个dataframe列之间查找字符串之前和之后的前三个单词,并在名为“words after”和“Words after”的两个新列中返回。 我的数据帧 Keyword Description
pet cat car dog pet day bye are 我想要的输出 Keyword Description Words Before Words After
pet cat car dog pet day bye are
我是Scala新手,在这个用例中苦苦挣扎,我有一个名称列表,我需要搜索这些名称中的任何一个,我是DataFrame的一个特定列。
我的DataFrame有两列,如下所示:
no. |description
12342|my name is jack
2345 |daniel is my neighbour
2122 |his wife sofia is my schoolmate
我有一个名称列表,比如名称列表{"jack","daniel"},现在我需要遍历DataFrame的description列,看看列表中的任何单词是否存在于description列
dataframe列包含几个没有意义的三个和两个字母单词的句子。我希望在dataframe列中找到所有这样的单词,然后从dataframe列中删除它们。df-
id text
1 happy birthday syz
2 vz
3 have a good bne weekend
我希望1)找到长度小于3的所有单词。(这将返回syz,vz,bne) 2)删除这些单词(注意,停止词已经被移除,所以像"a“、”现在在dataframe列中不存在了,上面的dataframe只是一个例子)。“
我尝试了下面的代码,但它不起作用
def word_l
我有一个包含文本数据的dataframe列。它很少有重复字母的单词。我希望找到所有这样的单词,然后将这些单词作为键存储在字典中,并将它们的正确拼写作为值存储在字典中,然后用字典中的值替换数据帧中的单词。例如,如果我的dataframe有这样的词- id text
1 Hiiiiiii
2 Good morninggggggg
3 See you soooonnnn 1)我需要在dataframe列中找到这些单词2)将这些单词存储在字典中{Hiiiiiii : Hi,morninggggggg : words,soooonnnn :soooonnnn} 3)然后将数
我有一个dataframe,df,有3列如下所示:
company | year | text
Apple | 2016 |"The Company sells its products worldwide through its..."
我想在df['text']中搜索"products“,在"products”之前和之后提取3个单词,并将前后三个单词分别插入数据框架中的df['before']和df['after']两列中。
这就是我到目前为止所做的:
m = re.search(r'((?
我有一本字典,它基本上把所有的单词存储在一个大的Dataframe(很多行和12列)中,字典看起来如下:
vocabulary = {'hello':[3,1998,876,3888], 'beautiful':[677, 4, 56],......}
其中值是单词所在的dataFrame的行。
我想做的是,接受一个字符串(查询)作为输入,
query = 'a beautiful house with big windows'
返回Dataframe的某些列(让我们称之为A、B、C、D),这些列只包含输入句子中的所有单词。我已经
我正在尝试使用以下代码按客户组连接几个csv文件:
files = glob.glob(file_from + "/*.csv") <<-- Path where the csv resides
df_v0 = pd.concat([pd.read_csv(f) for f in files]) <<-- Dataframe that concat all csv files from files mentioned above
问题是csv中列的数量因客户而异,而且它们没有头文件。
我试图看看是否可以添加一个带有标签(如col_1,col_2 )的虚拟
示例dataframe:
data = pd.DataFrame({'Name': ['Nick', 'Matthew', 'Paul'],
'Text': ["Lived in Norway, England, Spain and Germany with his car",
"Used his bikes in England. Loved his bike",
我正在尝试在DataFrame中创建一个新列,其中包含相应行的单词计数。我在找单词的总数,而不是每个不同单词的频率。我以为会有一种简单/快速的方式来完成这个常见的任务,但是在谷歌上搜索并阅读了少量的SO帖子(、、、)之后,我被困住了。我已经尝试过在链接所以帖子中提出的解决方案,但是得到了很多属性错误。
words = df['col'].split()
df['totalwords'] = len(words)
结果:
AttributeError: 'Series' object has no attribute 'split'
我有两个列的dataframe和一个单词列表。我希望通过这个列表过滤数据的一个列,并将该列的匹配行保存到一个新列表中,同时从另一个列中获取相同索引的值,以便将该值保存在第二个列表中。
所以我基本上想用一列过滤我的数据,除了我有字符串,我想要和单词进行比较,所以我必须遍历它们。
我的代码:
dataframe:
letter | sentence
----------------------------------------
L | "Lorem ipsum dolor sit amet"
C | "consectetur adipiscing el
如果列表中的任何单词与dataframe字符串列完全匹配,我希望创建一个带有1或0的新列。
列表中的单词在之间可以有多个空格,因此我无法使用str.split()进行精确匹配。
list_provided=["mul the","a b c"]
#how my dataframe looks
id text
a simultaneous there the
b simultaneous there
c mul why the
d mul the
e simul a b c
f a c b
预期输出
id text
我有一个dataframe,它在一列中包含句子、我从该列中提取的特定单词,第三列包含第二列中单词的同义词列表:
data= {"sentences":["I am a student", "she is my friend", "that is the new window"],
"words": ["student","friend", "window"],
"synonyms":[["pupil"],[&
我有一个有点大的CSV文件(>2000行),我已经读到了Pandas,并且希望根据某个数据列中是否出现一个特定的单词来创建一个新的指示器列。我一直在尝试使用regex搜索,这可能过于致命,因为单词总是会被空格分隔,但是DataFrame的单元格是字符串列表的列表。我尝试过使用双列表理解进行迭代,但也存在错误,而且作为Python新手,我也很好奇,是否有一个通用的解决方案来处理未指定数量的嵌套列表。下面是一个示例,其中我的最终目标是一个新列,其中的行中有1,其中单词'saddle'在选定列的任何位置出现在单元格中,如果没有,则为0。
我的DataFrame看起来像这样
im
我正在尝试过滤我的数据框(医院),以确定“脑出血”列为True的情况。然后,我想在brain_info列中搜索一个特定的单词(“癌症”),然后创建一个包含该单词(“癌症”)的新列。 我以前在没有过滤组件的情况下这样做过,但我在这个场景中遇到了问题。 #What I have
| brain bleeding| brain info | |final diagnosis|
|---------------|-------------| --------------
我有一个message_id和msg_lower两列的dataframe。我也有一个名为术语的关键字列表。我的目标是在msg_lower字段中搜索术语列表中的任何单词。如果它们匹配,我想返回一个包含message_id和关键字的元组。
数据如下:
|message_id|msg_lower |
|1116193453|text here that means something |
|9023746237|more text there meaning nothing|
terms = [text, nothing, there meaning]
术语
我有以下清单:
pre = ["unable to", "would not", "was not", "did not", "there is not", "could not", "failed to"]
在dataframe列中,我希望找到包含列表中单词的文本,以便生成一个新列,该列可以与下一个单词一起打印这些单词,例如,在列单元格中有以下文本WOULD NOT PRIME CORRECTLY DURING VIRECTOMY.,我希望有一个新列打印以下内容:WOULD NOT