如何在nltk Python中将某些单词视为分隔符？_如何在python中将内容相同的单词视为一个单词？ - 腾讯云开发者社区

、、

我正在尝试使用停用词(‘is’，' the '，'was')作为分隔符对下面的文本进行标记预期输出如下： ['Walter', 'He', 'He probably', stopwords = ['

浏览 32提问于2020-10-23得票数 1

回答已采纳

1回答

从文本中提取正面和负面单词？

、、、、

我需要找到某些评论在网站上给出的意见。我正在使用sentiwordnet来做这件事。我首先将包含所有评论的文件发送到POS标签器。有没有其他准确的标记化方法，除了将其视为两个单独的单词之外，还可以将其视为不好的一个单词。 File "C:\Python27\lib\site-package

浏览 20提问于2017-01-22得票数 2

1回答

当绘制文本语料库中某些单词的条件频率分布时，y轴显示为计数，而不是百分比我遵循Steven Bird，Ewan Klein和Edward Loper在"Natural Language Processingwith Python“中概述的代码，以显示不同语言的UDHR在Jupyter Notebook中的单词频率分布。from nltk.corpus import udhr languages = ['Chickasaw', 'English', &#x

浏览 23提问于2019-04-01得票数 2

回答已采纳

2回答

在blob中如何计算情感分析

、

我对几乎一半的短语的极性得分有一些零，我想知道这个零是否表示中性，或者更确切地说，这个短语没有以具有极性的单词为特征。我想知道另一个情绪分析器也有同样的问题:NaiveBayesAnalyzer。

浏览 0提问于2015-12-30得票数 10

10回答

如何将字符串拆分成列表？

、、、

我希望我的Python函数拆分一个句子(输入)，并将每个单词存储在一个列表中。我当前的代码拆分句子，但没有将单词存储为列表。我该怎么做？

浏览 0提问于2009-04-13得票数 612

回答已采纳

2回答

在python中提取分隔符[]之间的单词

从下面的字符串中，我想提取分隔符[ ]之间的单词，如'Service Current','Service','9991','1.22'如何在python中提取相同的内容？

浏览 8提问于2010-05-18得票数 9

3回答

在哪里可以找到包含常见食物列表的文本列表或图书馆？

、、、

我正在编写一个Python脚本来解析电子邮件，这涉及到在电子邮件的文本中搜索任何常见的食品单词。我需要一些方法来确定单词是否真的是食物。我看过几个自然语言处理API(如AlchemyAPI和NLTK2.0)，它们似乎有命名实体提取(这正是我想要的)，但我找不到特定的食物实体类型。我是否需要编写自己的抓取器来解析某些在线资源，或者是否有更简单的方法？

浏览 3提问于2013-10-28得票数 9

1回答

如何在python中将文本块标记为一个令牌？

、、、

在以前关于自然语言处理的工作中，我使用了来自nltk的sent_tokenize和word_tokenize来标记句子和单词。但是当我在基因组数据集上使用这些功能时，它不能正确地标记基因组。下面的文字显示了基因组数据集的某些部分。(如>NR_004049 1 )开头的每个块都应该被视为一个令牌。更新：解决此问题的一种方法是在每个块中附加行，然后使用nltk令牌程序。例如，这意味着要追加>NR_004049 1和>NR_004048 1之间的所有行，以便从多行生成一个字符

浏览 10提问于2022-11-30得票数 3

回答已采纳

4回答

将未知单词解析为已知单词的有效方法？

、、、、

我正在设计一个文本处理程序，将生成一个长的分项文本文档的关键字列表，并结合意义相似的单词的条目。有一些指标，但是我有一个新的问题来处理我正在使用的字典中没有的单词。我目前正在使用nltk和python，但我在这里遇到的问题要抽象得多。给定一个字典中没有的单词，将其解析为字典中的单词的有效方法是什么？我目前唯一的解决方案是浏览字典中的单词，并选择与输入单词具有最短Levenshtein距离(编辑距离)的单词。显然，这是一种非常缓慢和不切

浏览 3提问于2012-06-14得票数 3

回答已采纳

1回答

bash和zsh之间的单词前向/后向分隔符差异

、、

它将斜杠视为单词分隔符，大多数环境(如Safari和使用Cocoa文本编辑功能的应用程序)也是如此。在zsh中，当我尝试做同样的事情时，第一个Alt键-左箭头键将光标一直跳回到"/foo/bar/baz“的开头，这使得它对直接编辑长整型的某些部分没有多大用处。这可以在zsh中配置吗？

浏览 29提问于2020-03-18得票数 4

回答已采纳

2回答

如何从没有空格的字符串中提取单词？

、、、、

我对python还有点陌生，所以我被困在一个我不知道如何解决这个特定问题的问题上。所以我想至少能用大写字母来平分。然而，我不知道如何在python中这样做。如何在不消

浏览 0提问于2017-05-07得票数 0

6回答

如何标记马来语单词？

、、

ഇതുഒരുസ്ടലംമാണ് 这是一个Unicode字符串，意思是nltk.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ്nltk.word_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))"കണ്ടില്ല " = കണ്ടു +ഇല്ല,[u'\u0d07\

浏览 2提问于2013-10-22得票数 17

2回答

从没有任何库的文本中删除非单词

如何在不使用python中的任何库的情况下从其中删除非单词？我所说的单词是指只包含英文字母加上“‘”和“-”的字符串。因此，我们将“can‘t”、“John’s”和“full-time”等词视为有效词。此外，单词不包含任何数字或符号，如“.”、“”、“！”、“？”等。英语中唯一的单字母单词是“a”和“i”。

浏览 19提问于2021-10-14得票数 0

回答已采纳

2回答

标签预测的特征空间约简

、、、、

我正在编写一个ML模块(python)来预测堆栈溢出问题(tag + body)的标记。我的语料库大约有500万个问题，每个问题的标题、正文和标签。为了训练和测试，我要把这个3:2分开。此外，在存储数据的方式(redis +稀疏矩阵)中，很难使用已经实现的模块(sklearn、nltk等)来完成这项任务。

浏览 3提问于2015-01-31得票数 6

2回答

Doc2Vec段落输入

、

我理解doc2vec是如何工作的，但我不清楚在数据中输入数据的最佳实践。我真的很喜欢足球。佩顿·曼宁是个伟大的球员.然而，这对我来说没有直觉意义，因为这些词来自不同的句子。有什么建议吗？

浏览 0提问于2017-11-29得票数 0

1回答

如何在python中将内容相同的单词视为一个单词？

、

我有一个类似于下面的列表，我想将具有相同内容的单词视为一个单词。有没有办法更有效地做到这一点？

浏览 20提问于2021-09-27得票数 0

回答已采纳

3回答

如何从python中的文本中提取关键字？

我想从文本和打印中提取一些关键词，但是怎么做呢？text = "Merhaba bugun bir miktar bas agrisi var, genellikle sonbahar gunlerinde baslayan bu bas agrisi insanin canini sikmakta. Bu durumdan kurtulmak icin neler yapmali."keywords = ('bas agrisi', 'kurtulmak') 我想要检测这些关键词

浏览 4提问于2021-09-08得票数 1

回答已采纳

3回答