如何使用停用词的自定义词典从dataframe列中删除英文停用词

文章/答案/技术大牛

发布

1回答

、、、

我正在编写一个函数，它接受tweet的数据帧(Df)作为输入。我需要对tweet进行标记化，删除停用词，然后将此输出添加到新列中。我不能导入任何东西，除了numpy和pandas。停用词在字典中如下所示： stop_words_dict = { 'where', 'done', 'if', 'before', 'll'

浏览 40提问于2020-04-01得票数 0

回答已采纳

1回答

如何从带有标记化数据的数据帧中删除停用字？

、、、、

我正在尝试从dataframe中删除停用词。每行只有一个名为text的列，我在其中存储了文章的所有段落。这是我尝试的第一种方法。not in stop_words]) df['text'][x] = ' '.join(i) df 奇怪的是，这并没有从</e

浏览 19提问于2021-04-09得票数 1

1回答

为什么SQL Server 2012要应用我们的自定义非索引字表中没有的停用词？

我们使用SQL Server2012 CONTAINSTABLE全文搜索查询，我们希望找到某些单词：'noord'，'oost'，'zuid'，'west‘。这个例子是针对荷兰语的，但问题并不是特定于语言的。例如，找不到'noord‘，因为这是荷兰语系统非索引字表中的一个单词。这是可以理解的。因此，我们从系统非索引字列表创建了一个自定义非索引字列表，并删除</em

浏览 3提问于2015-12-06得票数 1

1回答

由于某些原因，停用词在我的语料库中不起作用，完全是法语的。在过去的几天里，我一直在反复尝试，但许多本应过滤的单词却没有。我不确定是否其他人也有类似的问题？我在某处读到可能是因为口音。此外，我注意到法语停用词有时被称为“法语”或"fr“。这是我尝试过的一个代码示例，如果有任何建议，我将非常感激。我还手动安装了quanteda，因为我在下载它时遇到了困难，所以它可以链接到它。remove_numbers = TRUE, remove_separ

浏览 4提问于2020-12-06得票数 0

1回答

SQL Server 2005全文搜索-有效的同义词库字符

、、、

但是，我没有找到任何关于允许使用哪些字符的文档。你能帮帮我吗？

浏览 3提问于2010-04-06得票数 0

回答已采纳

3回答

优化mysql全文搜索

、、

我想在我的网站上进行全文搜索。我需要搜索与分页。我的数据库中每个表都有50,000+行。我已经修改了我的表，并将(title,content,date)设置为索引。表总是在更新，还有一列id是自动增加的。最新的date总是在表格的末尾。我通过谷歌搜索了很多文章，一些人写道，只有限制Index字段的单词长度才能帮助搜索更快。但是作为一个text类型，它会像这样改变一定的长度(我已经尝试过ALTER TABLE tabl

浏览 1提问于2011-05-20得票数 16

回答已采纳

1回答

如何使用NLTK语料库从Pandas dataframe* text列中删除英语停用词？*

、、、、

我正在寻找一个解决方案，以删除英语停用词使用NLTK语料库上的Pandas数据帧文本列。我们可以使用dataframe应用方法来做吗?如果可以，请分享它。apply(lambda text: " ".join(w) for w in text.lower().split() if w not in stop_words) 谢谢，如果有人能回答的话我会很感激的。

浏览 30提问于2019-06-12得票数 0

2回答

怎样才能词典才能训练？

我只想用词汇表来训练基本的翻译系统。我没有在“培训”选项卡中选择任何内容。然而，期望和制度并没有翻译这些术语。字典只培训：现在只使用字典而不使用其他并行文档，就可以训练自定义翻译系统。那本字典没有最小的大小，一个条目就够了。只需上传字典，它是一个Excel文件，以语言标识符作为列标题，将它包含在您的培训集中，然后按

浏览 4提问于2017-10-13得票数 1

1回答

如何将MySQL查询MATCH/ get转换为LIKE以绕过停用词列表

、、

场景:我使用以下查询在特定类别中的两列( ProductName和Description )上搜索MySql表：$var = @$slash_term;$terms = explode(' ',$trimmed); 这个例程工作得很好，直到你使用了一个停用词因此，从</em

浏览 0提问于2013-02-15得票数 0

回答已采纳

14回答

如何使用nltk或python删除停用词

、、

因此，我有一个数据集，我想删除要使用的停用词我正在努力如何在我的代码中使用它来简单地去掉这些单词。我已经有了这个数据集中的单词列表，我正在努力的部分是与这个列表进行比较并删除停用的单词。任何帮助都是非常感谢的。

浏览 1提问于2011-03-30得票数 128

3回答

在特定查询上获取错误

、、、

这里是Lucene的新手。我在java客户端的Hibernate中使用它，并且在一个特定的查询中得到了这个错误： HSEARCH000146: The query string 'a' applied on field 'name我的测试数据库确实有这个带有'a‘的记录。这里会有什么问题呢？

浏览 0提问于2012-12-07得票数 8

回答已采纳

1回答

从大型语料库创建DTM

、、、

我有一组包含在列表中的文本，这些文本是从csv文件中加载的。texts=['this is text1', 'this would be text2', 'here we have text3'] 我想用词干词来创建一个文档术语矩阵。对于没有词干的文本，我可以通过使用fn_tdm_df reported 函数为短文本制作DTM。不过，对我来说，更实用的是用词干词做一个DTM。

浏览 4提问于2016-10-08得票数 2

2回答

定制绑定的datagridview

、、

您好，使用vs2008 winforms。我想要显示一些自定义列，它们是计算结果。我想要显示最后的底部行，它是DVG中所有列的总和。我的问题是，一旦DGV被绑定，我就不能添加自

浏览 0提问于2010-02-16得票数 4

回答已采纳

1回答

我想在Python中使用类似SQL的where子句

我有一个需要分析的文本语料库。我有一个数据帧与下面的标题。Sub-sector' 'Issue weight' 'Quote' 'Executive name' 'Designation' 'Quote_len' 'word_count'] 我已经写了一个函数，在删除停用词后，在'Quote‘列中查找前20个单词。where子句来查找列"T

浏览 19提问于2020-01-21得票数 0

回答已采纳

1回答

在Pandas中，有没有比这段代码更快的删除停用词和标点符号的方法呢？

、、

我使用的代码似乎太慢了，也许还有其他选择。useless_words = nltk.corpus.stopwords.words("english") + 现在尝试<em

浏览 1提问于2019-04-13得票数 2

2回答

为什么这个CountVectorizer输出与我的字数不同？

、、、

我有一个带有一个名为“短语”的列的数据。我使用了以下代码来查找本专栏中最常见的20个单词：vectorizer = CountVectorizer()print(vectorizer.v

浏览 1提问于2019-03-27得票数 0

回答已采纳

2回答

Lucene.NET只读IndexSearcher

如何使用IndexSearcher使其不会锁定索引并以只读模式打开它？现在我只有我一直在读到，在只读模式下打开可以提高性能，所以我想知道如何解决这个问题。我找不到很多关于这个主题的文档。

浏览 2提问于2009-08-28得票数 1

回答已采纳

2回答

控制nvarchar列中SQL Server全文引擎索引的文本

、

我们有一个nvarchar(max)列，它是全文索引的。在此列中存储的文本中有完整的短语/句子/段落，在执行全文搜索时应忽略这些短语/句子/段落。例如，假设有几行包含"the quick brown fox For over the lazy dog“的行，您不希望对该短语进行索引，因为该上下文中的"fox”应该被忽略，但如果"fox“出现在文本的其他部分，则它是相关的</e

浏览 0提问于2017-02-25得票数 0

3回答

在python中使用Syntaxnet POS标记？

、、、、

我想使用解析器标签(例如: VBD根，NN nsubj，等等)在python中使用syntaxnet来帮助创建聊天机器人。输入在控制台中完成。问:我如何才能得到一个变量的结果，只有VBP根，而没有其他？我能够使用以下调用打印解析树的ASCII版本：subprocess.call(["echo 'Bob brought the pizza to Alice.' | syntaxnet/demo.sh"], shell =True)，但对于<

浏览 11提问于2016-06-26得票数 1

回答已采纳

2回答

从Solr核心中提取流行术语

我有一个Apache Solr核心，我需要从其中提取流行术语，我已经知道，和Apache Solr ，但我没有得到我想要的，例如，当我尝试使用luke来获取流行术语时，在对结果集应用停用词后，我得到了一堆单词，例如：而我真正想要的是：有没有更好的方法在Solr中实现这一点?我是不是遗漏了一些应该用来做这件事的东西？谢谢

浏览 2提问于2013-11-23得票数 1

点击加载更多