我有一个大约2M字符串的列表和一个大约800个单词的列表。我已经创建了一个数据帧,其中字符串作为行,单词作为列。除了字符串变量之外,所有其他变量都是true或false值,与单词是否在字符串中相对应。不存在缺失值。 即 import pandas as pd
df = pd.DataFrame({'strings':['a string with california',
'a string with lobster',
我的问题基本上是这样的。我有一个pandas dataframe,它的一个列包含相当多的文本(通常是20到200个单词)。这个数据帧大约有600k行。最重要的是,我有一个单词列表,大约有15万个条目长,需要从数据帧中的字符串中过滤掉。我目前正在使用这个方法来做这件事:
for word in uncommon_words:
reports['Report_Clean_Filtered'] = reports['Report_Clean'].str.replace(word, '')
其中uncommon_words是单词列表,报告是数据帧
我有一个DataFrame和一个值列表。在我列表中的单词中,我想找出在我的DataFrame中哪个单词的值最高。
这是我的DataFrame:
words sum
284 call 85
937 im 55
2158 ur 41
762 get 40
779 go 37
1098 like 37
1342 now 36
1998 text 36
717 free 35
543 dont 34
1369 ok 31
2045 time 31
这是我的清单:
syy = ['
我想从Pandas DataFrame的每一行中对给定查询的单词进行排序,然后从它们中删除重复的单词。如何在每一行上分别执行此任务,如:给定DataFrame:
Sr.No | Query
-------------
1. war gears of war
2. call of duty
3. legend of troy legend
4. resident evil
由此产生的DataFrame应该是:
Sr.No | Query
-------------
1. gears of war
2. call duty of
3. legend of
我在python中有以下数据帧,它们是列表的一部分。 dataframe_list= []## CREATE AN EMPTY LIST
import pandas as pd
A=pd.DataFrame()
A["name"]=["A", "A", "A"]
A["att"]=["New World", "Hello", "Big Day now"]
B=pd.DataFrame()
B["name"]=["A2", "A
我得到了两个描述,一个在数据帧中,另一个是单词列表,我需要计算描述中每个单词相对于列表中每个单词的levensthein距离,并返回等于0的levensthein距离的计数
import pandas as pd
definitions=['very','similarity','seem','scott','hello','names']
# initialize list of lists
data = [['hello my name is Scott'], ['
我想从次要数据帧中删除主数据帧中的单词。
这是主要的数据框架:
+----------+--------------------+
| event_dt| cust_text|
+----------+--------------------+
|2020-09-02|hi fine i want to go|
|2020-09-02|i need a line hold |
|2020-09-02|i have the 60 packs|
|2020-09-02|hello want you teach|
下面是单列辅助数据帧.在第二数据帧中的单词需要从列cust_
我想在数据帧的列中用另一个单词替换另一个单词。下面是我的python代码: import pandas as pd
text="age engage"
df=pd.DataFrame([x.split(';') for x in text.split('\n')])
df['text'] = df[0].str.replace(r"age","âge") 我在stackoverflow上找到的代码(包括这段代码)允许我在想要获取df['text']="âge engage&
我有一个包含单词嵌入的pandas数据帧。单词是列名。为了得到句子的最终嵌入,我这样做:
st = ['some','random','text']
a = df[st].sum(axis=1)
当所有术语都出现在数据帧中时,这种方法效果很好。但是,当数据帧中不存在该列时,它会引发一个键错误。目前,我对每一项都进行了循环,并进行了try操作。我想避免循环,在一行中做事情。熊猫有没有提供同样的选择。
我有两个数据帧,如下所示:
df1 : contains one variable ['search_term'] and 100000 rows
这些是我想要在我的文件中搜索的单词/短语
df2: contains parsed file contents in a column called file_text
此数据帧中有20000行和两列'file_name‘、'file_text’
我需要的是file_text中搜索词的每次出现的索引。
我找不到一种有效的方法来执行这种搜索。
我使用了str.find()函数和groupby,但是每个file_tex
我对Python还是个新手,所以请耐心听我说。 我有一个数据帧,其中每列引用一个不同的id (公司),我还有两个包含在list1和list2中的字符串(单词)列表。如果某一列中的任何行至少包含一个来自List1的单词,并且至少包含一个来自列表2的单词,我该如何返回一个哑元(1或0)?我不确定如何将每一列的虚拟对象附加到列表中,以便将其连接到df1。下面的代码返回一个语法错误。 dummy=[]
display(df1())
for column in df1:
if df1.iloc[:,0].str.contains[list1,list2]:
return
我在函数内部的for循环中遇到了问题。我正在计算单词向量列表的余弦距离。对于每个向量,我计算余弦距离,然后将其作为新列附加到pandas数据框中。问题是有几个模型,所以我将模型1中的单词向量与其他模型中的单词进行比较。 这意味着有些单词并不是在所有模型中都存在。在本例中,我对KeyError使用了异常,并允许循环继续运行而不抛出错误。如果发生这种情况,我还要求在pandas dataframe中添加0值。这会导致重复的索引,并且我会坚持从这里向前移动。代码如下: from scipy.spatial.distance import cosine
import pandas as pd
de
我有一个数据框架: import pandas as pd
test_df = pd.DataFrame({
'_id': ['1a','2b','3c','4d'],
'column': ['und der in zu',
'Kompliziertereswort something',
'Lehrerin in zu [Buch]',
'Buch (Lehrerin)