在dataframe列中搜索单词_在列值中搜索整个单词_在多个列中搜索多个单词 - 腾讯云开发者社区

python、pandas、dataframe、filter、mask

我有一个像这样的数据文件： dataFrame = pd.DataFrame({'Name': [' Compound Mortar ', ' lime plaster ', 'mortar Screed ', ' Gypsum Plaster ',

浏览 6提问于2022-03-13得票数 1

2回答

显示从列中的一组单词中找到的单词

python、pandas、text

我试图在python中搜索dataframe行中的一个列表中的单词，以获得两个新列，显示用逗号分隔的单词和另一个列，并对找到的单词进行计数这是我的字符串列表 string_list = ["never sounded", "she", "was time", "against"]

浏览 8提问于2022-03-14得票数 1

1回答

如何将Pandas DataFrame中加载的嵌入转换为Gensim模型？

python、pandas、gensim

我有一个DataFrame，其中索引是单词，我有100个列和浮点数，所以对于每个单词，我将其嵌入为一个100 d向量。我想把我的DataFrame对象转换成一个，以便我可以使用它的方法；特别是gensim.models.keyedvectors.most_similar()，这样我可以在我的子集中搜索类似的单词。哪一种是最好的方法？谢谢

浏览 2提问于2017-09-19得票数 3

回答已采纳

1回答

我有下面的代码，在整行中搜索给定的单词。代码来自我之前的。目前，python在行中搜索给定单词的出现。但我只想找到完整的单词。当python搜索‘jo’时，它不应该返回任何结果，因为没有单词'jo'，但是当搜索'jones‘时，python应该在第一行返回5 1)我应该如何修改我的搜索？我知道我必须使用正则表达式。但我不确定如何实现它。我尝试了findall((?i)\bsearch_string\b)，但得到一个错误 2)如果任何列的数据类型为float，则下面的代码会给出错误。为了解决这个问题，我将原始数据帧分成非数字列和数字列，在下面的代码中运行，然后将数字列连

浏览 0提问于2018-01-22得票数 0

回答已采纳

1回答

为什么.str.contains()在这里找不到部分匹配？(熊猫资料)

python、string、pandas、string-matching、partial-matches

熊猫的dataframe "df1“有一列(”接收者“)的字符串值。 df1 Receiver 44 BANK 106 restaurant 149 Tax office 63 house 55 car insurance 我想查看该列的每一行，检查它们是否与另一个dataframe ("df2")中的值(主要是一个或两个单词的搜索词)匹配，并在正确的行上返回匹配列的标题。我试图用以下函数来完成这个任务： df1.Receiver.apply(lambda x: ''.join(

浏览 1提问于2019-01-10得票数 0

1回答

根据dataframe2中列表中的值更新dataframe1中的单元格

python

我有一个具有列的dataframe1，它的单元格条目类似于- "are, boy, cat, dog, ear, far, gone" (每个单元格是一组逗号分隔的单词)。 Dataframe2有一个列，其中包含像这样的单元格条目(每个单元格是一个字母或单词)- "are"、"boy"或"gone"。我想在dataframe1中添加一个列，如果dataframe1中的每个单元格中的每个单词都包含dataframe2中的单词，则该列将具有布尔值条目。例如, DF1 =(是，男孩，猫，狗，耳朵，远，走了)，(家，家伙，高，蛋)，(猫

浏览 0提问于2021-10-10得票数 0

2回答

在两个Pandas Dataframe列之间查找匹配关键字之前和之后的单词，并在新列中返回

python、pandas、dataframe

我尝试在两个dataframe列之间查找字符串之前和之后的前三个单词，并在名为“words after”和“Words after”的两个新列中返回。我的数据帧 Keyword Description pet cat car dog pet day bye are 我想要的输出 Keyword Description Words Before Words After pet cat car dog pet day bye are

浏览 29提问于2021-07-21得票数 1

1回答

SAS中R类PRXMATCH()中的字符串匹配

r、sas、text-analysis

寻求您的帮助以理解如何在R中匹配字符串，就像PRXMATCH()在SAS中所做的那样。 List1 <-c("lead","good") List2 <-c("Quality","understand") Name <-c("grp1","grp2") 我有一个包含sentence列的dataframe。我需要说的每一句话：在List1中查找单词如果找到单词，则查找List2的相应单词。如果在与List1的单词的+-5字距离处找到word，则应将来自Name的名

浏览 2提问于2016-05-30得票数 0

回答已采纳

2回答

从一列数据帧中查找另一个数据帧的子字符串

apache-spark、pyspark、apache-spark-sql

我有两种不同的字符串类型的电火花数据。第一，数据是单一的工作，第二是一个字串，即句子。我必须从第二个dataframe列检查第一个dataframe列的存在性。例如，df2 +------+-------+-----------------+ |age|height| name| Sentences | +---+------+-------+-----------------+ | 10| 80| Alice| 'Grace, Sarah'| | 15| null| Bob|

浏览 1提问于2022-04-22得票数 0

回答已采纳

1回答

列表中的搜索元素出现在dataframe列中。

scala

我是Scala新手，在这个用例中苦苦挣扎，我有一个名称列表，我需要搜索这些名称中的任何一个，我是DataFrame的一个特定列。我的DataFrame有两列，如下所示： no. |description 12342|my name is jack 2345 |daniel is my neighbour 2122 |his wife sofia is my schoolmate 我有一个名称列表，比如名称列表{"jack","daniel"}，现在我需要遍历DataFrame的description列，看看列表中的任何单词是否存在于description列

浏览 1提问于2018-05-24得票数 1

回答已采纳

1回答

从dataframe列中删除无意义的单词

python、nlp、text-processing

dataframe列包含几个没有意义的三个和两个字母单词的句子。我希望在dataframe列中找到所有这样的单词，然后从dataframe列中删除它们。df- id text 1 happy birthday syz 2 vz 3 have a good bne weekend 我希望1)找到长度小于3的所有单词。(这将返回syz，vz，bne) 2)删除这些单词(注意，停止词已经被移除，所以像"a“、”现在在dataframe列中不存在了，上面的dataframe只是一个例子)。“ 我尝试了下面的代码，但它不起作用 def word_l

浏览 0提问于2019-03-31得票数 0

回答已采纳

1回答

找出带有扩展字母的单词，只保留该字母的第一次出现

python、python-3.x、nlp、text-processing、stop-words

我有一个包含文本数据的dataframe列。它很少有重复字母的单词。我希望找到所有这样的单词，然后将这些单词作为键存储在字典中，并将它们的正确拼写作为值存储在字典中，然后用字典中的值替换数据帧中的单词。例如，如果我的dataframe有这样的词- id text 1 Hiiiiiii 2 Good morninggggggg 3 See you soooonnnn 1)我需要在dataframe列中找到这些单词2)将这些单词存储在字典中{Hiiiiiii : Hi，morninggggggg : words，soooonnnn :soooonnnn} 3)然后将数

浏览 17提问于2019-03-31得票数 0

1回答

在R中使用反连接

text-mining

我是R中的一个菜鸟，我试着比较两个数据帧，这两个数据帧是通过文本挖掘得到的，它有两列，一列有单词，另一列有计数。假设它们是dataframe1和dataframe2。我试图找出如何编写代码，以选择那些单词在dataframe2中存在，而在dataframe1中不存在。如果我们必须在excel中使用它，我们只需在dataframe2和VLOOKUP中使用word作为引用，从dataframe1中选择相同的单词列表，并选择存在的#N/A，然后根据最高计数对#N/A进行排序。下面是详细说明的图片: dataframe1 dataframe2：如您所见，C&F一词在

浏览 1提问于2021-04-23得票数 0

回答已采纳

1回答

在DataFrame中用字典替换句子中的单词

python、pandas、dataframe、pandas-loc

我正试图用字典来替换dataframe句子中的单词。我怎样才能取代原来的数据？字典: rep_vocab包含{wrong words: correct words} dataframe: data_test列‘质询1’句子列‘d5’包含一组单词，这些单词在句子中拼写错误。我用这个列快速定位出有错误单词的句子行。我的代码： data_test.loc[data_test['d5']!=set()['question1'].replace(rep_vocab,regex=True) 它返回正确的结果，但是dataframe中的原始值不会改变。我尝试过其他方式，比

浏览 0提问于2019-08-20得票数 0

1回答

Pandas:统计单词的出现次数(来自另一个数据帧)，并输出计数和匹配的单词

python、pandas

我有一个包含句子的列的dataframe (df)。我有第二个dataframe (df2)，它有一个包含单词的列。在df中的每一行，我想计算来自df2的单词在句子中出现的次数，如果确实出现，则将计数输出到新列中，并将匹配的单词输出到新列中。我已经知道如何计算，但我不知道如何输出匹配的单词-请参阅df_desiredoutput数据帧以了解我想要的内容。提前谢谢。下面是一些虚拟代码 <code>A0</code>

浏览 17提问于2020-08-05得票数 2

回答已采纳

1回答

用R中另一个Dataframe中的值替换Dataframe中的单词

r、string、dataframe、loops、replace

我正在尝试用另一个中的数字值替换Dataframe中的字符串值。让我举一个例子： df1 <- data.frame("Time" = seq(1, 3, 1), "Words" = c("dog cat", "bird fish", "elephant shark turtle")) 这是我的主要数据中心。这很简单:第一列指花费的时间，第二列显示在特定时间注册的每个单词。另一个Dataframe是： df2 <- data.frame("Words" = c

浏览 1提问于2022-03-18得票数 1

回答已采纳

1回答

删除由重复字母组成的单词

python、regex、nlp、text-processing

我有一个包含文本数据的dataframe列。它几乎没有完全由重复字母组成的单词，也没有几个部分由重复字母组成的单词。我想删除由完全重复的字母组成的单词，只保留第一次出现的字母(如果重复字母的计数超过2)在dataframe列中。该怎么做呢？例如，如果我的dataframe有这样的词- <code>A0</code> 输出应为- <code>A1</code>

浏览 15提问于2019-03-31得票数 0

回答已采纳

1回答

Python -从列表中在dataframe列中搜索和表示字符串

python、regex、pandas、dataframe、text

如何在Python中显示从给定的单词列表中找到的单词，在每一行的文本列中。如果文本列中有几个单词，我想把它们用"，“隔开。示例：我有以下清单： color_list = ['White','Yellow','Blue','Red'] 我需要在dataframe (Df)中搜索： doc text 0 3000 'colors White Yellow' 1 3001 'Green Black' 2 3002 'I w

浏览 5提问于2019-11-20得票数 0

回答已采纳

2回答

海量数据中累积的唯一单词

python、pandas、dataframe、nlp

如何从dataframe列中获得累积的唯一单词，该列每列有500多个单词。Dataframe有300,000行我在带有文本数据的A列的dataframe中读取csv文件。我尝试创建两个列(B & C)，方法是循环遍历A列，并将A列中的唯一单词设置为set，并在列B后面加上唯一的单词和C列的计数随后，我从前一行(Set)中取A栏和B栏(Union)来取独特的词。这适用于少数行。但是，一旦行数超过10,000，性能就会下降，内核最终会死亡。有什么更好的方法来为巨大的数据做这个吗？尝试用唯一的单词和计数创建单独的数据格式，但仍然有问题。样本代码： for index, row i

浏览 0提问于2019-04-08得票数 0

回答已采纳

1回答

如何提取大熊猫数据栏中所有列中字符串中的大写单词？

python-3.x、pandas、dataframe、data-processing

数据集附呈。在名为“转录”的列中，我希望从列中的每一行中提取大写单词，并将其作为dataframe的特性，并将大写单词后面的字符串作为该特性下的数据点的值。预期的输出将是dataframe中的另一列，名称为字符串中的大写单词，而特定的数据点将在该特性下具有一个值。尽我最大的努力解释。示例输出的链接(前2个数据点显示)

浏览 2提问于2020-02-28得票数 0

回答已采纳

1回答

提取单词周围的单词并插入结果为dataframe列

python、pandas

我有一个dataframe，df，有3列如下所示： company | year | text Apple | 2016 |"The Company sells its products worldwide through its..." 我想在df['text']中搜索"products“，在"products”之前和之后提取3个单词，并将前后三个单词分别插入数据框架中的df['before']和df['after']两列中。这就是我到目前为止所做的： m = re.search(r'((?

浏览 2提问于2017-08-02得票数 3

回答已采纳

1回答

完成python搜索引擎的最后一步(熊猫)

python、pandas、search-engine

我有一本字典，它基本上把所有的单词存储在一个大的Dataframe(很多行和12列)中，字典看起来如下： vocabulary = {'hello':[3,1998,876,3888], 'beautiful':[677, 4, 56],......} 其中值是单词所在的dataFrame的行。我想做的是，接受一个字符串(查询)作为输入， query = 'a beautiful house with big windows' 返回Dataframe的某些列(让我们称之为A、B、C、D)，这些列只包含输入句子中的所有单词。我已经

浏览 0提问于2018-11-27得票数 0

回答已采纳

1回答

熊猫:类如:在系列列表中的“价值”

python、pandas、series

例如，我们有一个名称列表和名称中每个单词的散列： data = [ ['John Doe', ['JN','D0']], ['John Mitchel', ['JN','MTL']], .... ] df = pd.DataFrame(data, columns=['name', 'hashes']) 是否可以通过单个哈希值筛选(搜索)。换句话说，使用散列'JN‘查找所有记录。我试过这样的方法： df.hashes[lambda x: '

浏览 5提问于2017-02-01得票数 1

回答已采纳

3回答

R中的文本列-尝试按顺序计数关键字

r、string、matching

我正在处理一个具有文本列的数据集。这篇文章有许多用分号分隔的句子。我正试图在dataframe的一个新列中获得一个单词计数，用于匹配我的关键字的单词。然而，在一句话中，如果有重复的关键字，则应只考虑一次。例如- 关于电池和组件的第201节太阳能贸易案；关于进口商品太阳能电池板的第201条关税、Tawian关税、贸易贸易问题影响太阳能产业的问题是dataframe的一列中的文本。我的关键词包括太阳能，太阳能电池板，201节我想计数每个句子中与我的关键字匹配的单词，但是如果句子中有两个或所有的单词，那么它只被计数一次。字数应该只考虑不同句子中的关键词。如果一个句子没有特定的关键字，那么就转向

浏览 6提问于2022-02-06得票数 0

1回答

把前两个单词和熊猫放在牢房里。

python、pandas、dataframe

我想在列中只保留一个单元格在dataframe中的头两个单词。例如： df = pd.DataFrame(["I'm learning Python", "I don't have money"]) 我希望列中的结果具有以下输出： "I'm learning" ; "I don't" 在此之后，如果可能的话，我想在每个单词之间加上“*”。所以就像： "*I'm* *learning*" ; "*I* *don't*" 谢谢你的帮助！

浏览 1提问于2022-05-25得票数 0

1回答

如果一个单词位于dataframe的列中，请用另一个替换该词，并使用新信息创建一个新行并添加到另一个DataFrame中。

python、pandas、dataframe

我有两个DataFrames，如果一个单词在dataframe1的文本列中，用另一个替换这个单词，然后用新的信息创建一个新的行，然后添加到dataframe2中，那么每个列都有两个['abstract', 'text', 'label']。对所有有目标词的行执行此操作。例如，如果列文本中有“美丽”：摘要:123 短信：“这是个美好的日子” 标签：“好” 然后生成以下数据并添加到其他DataFrame中：摘要：“bf” 课文：“今天是bf日” 标签：“漂亮”

浏览 0提问于2021-11-19得票数 0

回答已采纳

1回答

熊猫-在csv中添加虚拟头列

python-3.x、pandas、csv、header

我正在尝试使用以下代码按客户组连接几个csv文件： files = glob.glob(file_from + "/*.csv") <<-- Path where the csv resides df_v0 = pd.concat([pd.read_csv(f) for f in files]) <<-- Dataframe that concat all csv files from files mentioned above 问题是csv中列的数量因客户而异，而且它们没有头文件。我试图看看是否可以添加一个带有标签(如col_1，col_2 )的虚拟

浏览 0提问于2018-11-02得票数 1

回答已采纳

1回答

在dataframe列中搜索列表中的术语，将找到的项添加到新列中。

python

示例dataframe: data = pd.DataFrame({'Name': ['Nick', 'Matthew', 'Paul'], 'Text': ["Lived in Norway, England, Spain and Germany with his car", "Used his bikes in England. Loved his bike",

浏览 1提问于2022-09-12得票数 1

回答已采纳

5回答

每行字数

python、string、python-3.x、pandas、dataframe

我正在尝试在DataFrame中创建一个新列，其中包含相应行的单词计数。我在找单词的总数，而不是每个不同单词的频率。我以为会有一种简单/快速的方式来完成这个常见的任务，但是在谷歌上搜索并阅读了少量的SO帖子(、、、)之后，我被困住了。我已经尝试过在链接所以帖子中提出的解决方案，但是得到了很多属性错误。 words = df['col'].split() df['totalwords'] = len(words) 结果： AttributeError: 'Series' object has no attribute 'split'

浏览 0提问于2018-04-23得票数 35

回答已采纳

1回答

Pandas从一列获取值索引，以便在dataframe中应用于另一列。

python、pandas、dataframe

我有两个列的dataframe和一个单词列表。我希望通过这个列表过滤数据的一个列，并将该列的匹配行保存到一个新列表中，同时从另一个列中获取相同索引的值，以便将该值保存在第二个列表中。所以我基本上想用一列过滤我的数据，除了我有字符串，我想要和单词进行比较，所以我必须遍历它们。我的代码： dataframe: letter | sentence ---------------------------------------- L | "Lorem ipsum dolor sit amet" C | "consectetur adipiscing el

浏览 4提问于2021-03-19得票数 1

回答已采纳

1回答

大熊猫一种热编码的有效方法

python、pandas、dataframe

这个问题类似于，但有一个不同之处:这里不是单个值，而是在一列dataframe中列出了一个值。假设我们有一只熊猫数据，其中有一个名为words的专栏。它包含文档中可用的单词索引。例如，在下面的dataframe中，有两个文档，其中第一个包含单词['a','b']，第二个包含['a','c','d']。 df = pd.DataFrame() df['words'] = [['a','b'],['a','c','d']]

浏览 2提问于2017-12-29得票数 0

回答已采纳

1回答

Pandas dataframe中的标记文本

python、python-3.x、pandas

我有一个Pandas DataFrame，它的脚本是从外部来源收集的。列text_content包含脚本内容。最长的脚本由85.617个字符组成。给你一个想法的样本：这些脚本包含表名和其他有用的信息。目前，数据被写入到SQLite数据库表中，然后可以使用ad SQL语句搜索该表(并分发给更多的用户)。一个常见的用例是，我们将有一个表名列表，并且希望知道它们出现在其中的脚本。如果我们需要在SQL中这样做，它将要求我们使用LIKE操作符执行通配符搜索，这在性能上是很糟糕的。因此，我希望在脚本仍在DataFrame中时从它中提取单词，从而生成一个两列表，每一行由以下内容组成：

浏览 1提问于2016-01-22得票数 0

回答已采纳

3回答

python熊猫在列中搜索字符串，如果找到字符串，则获取初始位置。

python、pandas、string、pattern-matching

考虑到以下df： data = {'Description': ['with chicken', 'champagne', 'Chicken', 'bananas and chicken', 'fafsa Lemons', 'GIN CHICKEN'],} df = pd.DataFrame(data) print (df) 如果我搜索一个单词的列，在这个例子中，我想找到字符串中的初始位置(如果存在)，这里是预期的输出： data = {'Description':

浏览 11提问于2022-07-23得票数 1

1回答

从中间有空格的单词列表中查找字符串列中的确切单词

python、string、list、dataframe

如果列表中的任何单词与dataframe字符串列完全匹配，我希望创建一个带有1或0的新列。列表中的单词在之间可以有多个空格，因此我无法使用str.split()进行精确匹配。 list_provided=["mul the","a b c"] #how my dataframe looks id text a simultaneous there the b simultaneous there c mul why the d mul the e simul a b c f a c b 预期输出 id text

浏览 0提问于2018-04-11得票数 0

回答已采纳

1回答

通过迭代来自另一个星火/scala的值来过滤数据

scala、apache-spark、apache-spark-sql

我是第一次提出一个特定的问题，我试图解决和寻找，几个小时，但仍然步履蹒跚。我有两条数据。一个大的(A)列：{"ANames“、"description”、"id“等等} 另一列(B)，只有一列"BName“。因此，我知道我应该把它转换成另一种类型，但是我不确定是什么(列表，顺序..)。这将是我的第一个问题。最后，我想通过"BName“搜索(筛选)B中的每个名称"ANames”。如果它找到其中一个名字，请用另一个带有结构的Dataframe写它的后缀： {Bname，id} 听起来很复杂。但实际上，它只应该在Dataframe中查找一些单词。

浏览 2提问于2017-09-14得票数 1

回答已采纳

2回答

如果字符串中的单词属于熊猫中的单词列表，则替换它。

python、pandas

我有一个带有列sent的熊猫数据，其中包含字符串。现在，如果字符串包含给定列表中的一个单词，则需要将其替换为一个新单词，如"new_word“。但是，我不确定如何在不迭代Dataframe中的行的情况下做到这一点。是否有一种有效的方法。对于在sstring中查找单词，其中单词属于lissst，可以通过以下方法实现： wordList = ["word1","word2","word3","word4"] filtStr = "\s"+"\s|\s".join(wordList)+"

浏览 5提问于2019-11-12得票数 1

回答已采纳

3回答

字符串列包含通过spark scala进行精确匹配的单词

scala、apache-spark、apache-spark-sql

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

1回答

熊猫数据栏中单词的频率计数及在其他栏中的存储

python、pandas、text-processing

DataFrame 我有一个Pandas DataFrame的评论栏，如上图所示。我希望获取产品‘’review‘列中每一行中每个单词的计数，并将其存储到另一列，即products' word _ count’。我尝试的代码如下： products['word_count'] = products['review'].apply(lambda x : nltk.FreqDist) 但是，我得到的不是单词计数，而是列中的<class‘word .概率.’>对象！

浏览 1提问于2020-09-30得票数 0

2回答

如何在dataframe中搜索列表中的项并计算它们

python、list、dataframe、count

我有以下数据和它的输出。 import pandas as pd animal = ["monkey"] + ["tiger"] + ["bat"] valores = [1] + [2] + [3] dframe = pd.DataFrame({"animal": animal, "valor": valores}) 数据文件： animal valor 0 monkey 1 1 tiger 2 2 bat 3 我有一个列表，我想在dataframe中逐项搜索，如果匹配，然后

浏览 1提问于2020-04-27得票数 3

回答已采纳

1回答

根据CSV记录过滤Spark数据帧中的部分数据

scala、apache-spark、apache-spark-sql、user-defined-functions

我有一个包含一些单词的CSV文件。总共没有。csv文件中的字数不会超过50k条记录。我有一个从具有keywords列的JSON文件创建的Spark Dataframe。我需要做的是从dataframe中过滤出其keywords列值与CSV文件中的值匹配的记录。这里，匹配表示csv文件中的单词是否出现在dataframe列中。举个例子，假设csv文件中有一个单词"baby toys"，spark dataframe看起来像这样 ***Keywords*** new baby toys baby toys for all costly baby toys price baby

浏览 2提问于2019-05-31得票数 0

2回答

整个行中的熊猫数据搜索字符串

pandas、dataframe、search

我有一只熊猫数据，如下所示。我希望在dataframe的每一行中搜索文本，如果该文本出现在该行中，则突出显示该文本。例如，我想在每一行中搜索"jones“。我想忽略我的搜索词的情况。在下面的例子中，我想在名为"jones“的数据中添加一个新列，它的值为1,1,0，因为该单词位于第1行和第2行。我找到了帖子，它展示了如何在列中找到文本，但是当我有很多列时，我如何找到文本--比如50+？我考虑过将所有列连接起来并创建一个新列，但没有看到任何函数可以连接dataframe的所有列(不要求键入每个列名)。我想这样做的多个关键字，我有。例如，我有关键字LLC, Co, Blue,

浏览 1提问于2018-01-18得票数 4

回答已采纳

1回答

如果dataframe_2$column1中的一行包含列dataframe_1$column2中包含的字符串，则匹配，并返回字符串本身

我在dataframe列中有一个关键字列表。示例： - dataframe_1$column_queries query1query2query3query4 然后我有一个dataframe列，其中包含上一列中出现的查询+更多的单词。示例： - dataframe_2$column_complex_queries query1其他单词query2其他单词query3其他单词query4其他单词<code>f 223</code> 我正在创建一个新列，该列分析查询是否包含，然后返回查询。我用下面的代码一个接一个地做： dataframe_2 <- dataframe

浏览 4提问于2021-04-11得票数 0

2回答

用列表中的单词替换句子中的单词，并将新句子复制到一列中

python、pandas、list、replace

我有一个dataframe，它在一列中包含句子、我从该列中提取的特定单词，第三列包含第二列中单词的同义词列表： data= {"sentences":["I am a student", "she is my friend", "that is the new window"], "words": ["student","friend", "window"], "synonyms":[["pupil"],[&

浏览 21提问于2020-02-07得票数 0

回答已采纳

2回答

将单词列表(在数据帧内)转换为一组单词

python、pandas、dataframe

在我的dataframe中，我有一列数据，比如cell，protein，expression，我想把它转换成一组单词，比如cell，protein，expression，它应该应用于整个dataframe列。请建议做这件事的可能方法。

浏览 0提问于2018-12-24得票数 0

3回答

如何过滤出包含'set‘类型的值的pandas df行，这些值包含某些字符串？

python、pandas、dataframe

我有一些dataframe，其中包含一个值为'set‘类型的列。我还有一个希望在这些集合中搜索的单词列表，并删除包含与该列表匹配的行例如df结构 id types 123 {'Editorial', "Research Support, Non-U.S. Gov't", 'Comment'} 234 {'Comparative Study', 'Journal Article', "Research Support,'Research Support, N.I.H.,

浏览 23提问于2020-01-23得票数 2

回答已采纳

1回答

我是否可以在Python列中使用正则表达式搜索或匹配，其中每个单元格都是列表列表？

python、regex、pandas、flatten、dummy-variable

我有一个有点大的CSV文件(>2000行)，我已经读到了Pandas，并且希望根据某个数据列中是否出现一个特定的单词来创建一个新的指示器列。我一直在尝试使用regex搜索，这可能过于致命，因为单词总是会被空格分隔，但是DataFrame的单元格是字符串列表的列表。我尝试过使用双列表理解进行迭代，但也存在错误，而且作为Python新手，我也很好奇，是否有一个通用的解决方案来处理未指定数量的嵌套列表。下面是一个示例，其中我的最终目标是一个新列，其中的行中有1，其中单词'saddle'在选定列的任何位置出现在单元格中，如果没有，则为0。我的DataFrame看起来像这样 im

浏览 2提问于2020-05-23得票数 0

回答已采纳

1回答

在例如从dataframe column1查找txt文件中查找字符串，并将其替换为来自dataframe column2的字符串

python、pandas

我希望以以下方式从txt文件替换python中的字符串：应该在txt文件中搜索column1中来自熊猫数据的单词，并将其替换为列2中同一行中的单词。导入txt文件和dataframe没有问题。例如：原文：，这是我想要修改的第一个语句。这是我想要更改的alpha语句。数据文件： column1 column2 0 first last 1 alpha beta 预期结果：，这是我想要修改的最后一个语句。这是我想要修改的beta语句。我想到了使用column1作为键，使用column2作为值，但我无法让它发挥作用。半天的搜索使我没有得到任何结果，所有的搜

浏览 1提问于2020-01-26得票数 0

回答已采纳

1回答

在过滤后的数据框中搜索特定字符串，然后根据结果创建新列(Python/Pandas)

python、pandas

我正在尝试过滤我的数据框(医院)，以确定“脑出血”列为True的情况。然后，我想在brain_info列中搜索一个特定的单词(“癌症”)，然后创建一个包含该单词(“癌症”)的新列。我以前在没有过滤组件的情况下这样做过，但我在这个场景中遇到了问题。 #What I have | brain bleeding| brain info | |final diagnosis| |---------------|-------------| --------------

浏览 15提问于2021-03-31得票数 0

回答已采纳

3回答

Python搜索文本列，如果单词列表中有匹配的关键字，则返回

python、pandas

浏览 1提问于2019-05-21得票数 1

回答已采纳

1回答

我怎样才能找到一个单词，然后和他的下一个单词一起用Python打印出来呢？

python、pandas、string、loops、multiple-columns

我有以下清单： pre = ["unable to", "would not", "was not", "did not", "there is not", "could not", "failed to"] 在dataframe列中，我希望找到包含列表中单词的文本，以便生成一个新列，该列可以与下一个单词一起打印这些单词，例如，在列单元格中有以下文本WOULD NOT PRIME CORRECTLY DURING VIRECTOMY.，我希望有一个新列打印以下内容：WOULD NOT

浏览 1提问于2022-10-31得票数 1

回答已采纳