NLTK word标记除带破折号的单词外的所有单词，例如('hi-there'，'me-you')

NLTK是自然语言处理工具包（Natural Language Toolkit）的缩写，它是一个用于处理人类语言数据的Python库。NLTK提供了各种功能和算法，用于文本分类、标记、分析、语义理解等任务。

在NLTK中，可以使用正则表达式来标记除带破折号的单词外的所有单词。具体来说，可以使用re.findall()函数来匹配符合条件的单词。

以下是一个示例代码，用于实现该功能：

import re

def remove_hyphen(words):
    pattern = r'\b(\w+)\b'  # 匹配单词的正则表达式
    result = []
    for word in words:
        if '-' in word:
            # 如果单词中包含破折号，则不进行标记，直接添加到结果列表中
            result.append(word)
        else:
            # 使用正则表达式匹配单词，并将匹配结果添加到结果列表中
            matches = re.findall(pattern, word)
            result.extend(matches)
    return result

words = ('hi-there', 'me-you')
result = remove_hyphen(words)
print(result)

输出结果为：

['hi', 'there', 'me', 'you']

在这个例子中，remove_hyphen()函数接受一个包含单词的元组作为输入，并使用正则表达式将除带破折号的单词外的所有单词进行标记。最后，返回一个包含标记后单词的列表。

对于NLTK库的更多信息和使用方法，可以参考腾讯云的自然语言处理（NLP）相关产品，例如腾讯云智能语音（Tencent Cloud Intelligent Voice）和腾讯云智能机器翻译（Tencent Cloud Intelligent Machine Translation）等。这些产品提供了丰富的自然语言处理功能，可以帮助开发者处理文本数据并实现各种应用场景。

腾讯云自然语言处理产品介绍链接地址：

页面内容是否对你有帮助？

有帮助

没帮助

NLTK word标记除带破折号的单词外的所有单词，例如('hi-there'，'me-you')

、、

我不确定如果我想标记化除了带破折号的单词之外的所有东西(即排除所有中间有破折号的单词)，我如何使用nltk.word_tokenize方法。示例： 'hi-there', 'me-you' 我曾尝试使用RegexpTokenizer并编写正则表达式，但不知何故使其无法像word</

浏览 56提问于2020-06-17得票数 4

1回答

除了给定的单词(其中可能包括连字符/破折号)以外，用于匹配所有内容的Regex

除了给定的单词外，我想匹配所有的内容，因此，给出以下列表：wordTwo/xy/zword-four/lots/of/stuff(?!wordOne)\b.+ wordTwo/xy/z word-three

浏览 1提问于2011-04-05得票数 6

回答已采纳

2回答

在标点符号附近过滤停止词

、、

我试图过滤掉我的文本中的断句，比如：问题是，text.split如何在保留标点符号的同时过滤掉停止词，但同时过滤像'word.'这样的单词text = text.replace('.',&#x

浏览 5提问于2015-03-03得票数 1

回答已采纳

1回答

认为句子是肯定的还是否定的

、、、

我需要在网站上找到某些评论的意见。我是用感伤网来做这个的。我首先将包含所有评论的文件发送给POS标签。tokens=nltk.word_tokenize(line) #tokenization for line in file是否有其他准确的标记方式，除了将其视为两个单独的单词外

浏览 1提问于2016-03-01得票数 1

回答已采纳

2回答

未登录词和已知词的词性

、、

有没有什么工具可以预测单词的词性标注..

浏览 4提问于2013-05-20得票数 0

1回答

将Brown语料库标记集转换为upenn标记集

、、

我想在Brown语料库中找到具有upenn标签的单词。()]) if tag in poss:所以我可以做PARTS_OF_SPEECH["NN"]来获得布朗大学标记为"NN“的所有单词。不幸的是，这不起作用，因为brown.tagged_words()返回使用Bro

浏览 2提问于2015-08-16得票数 0

3回答

使用python计算文章中单词列表的最快方法

、、、

我正在寻找多少次在一包单词中的所有单词都在一篇文章中找到。我对每个单词的频率不感兴趣，但文章中找到了所有这些单词的总次数。我必须分析数以百计的文章，因为我从互联网上检索他们。我的算法需要很长时间，因为每篇文章大约有800个单词。下面是我所做的事情(其中是在一篇文章中找到单词的次数，文章包含一个字符串，其中包含构成文章内容<em

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

将语料库中的频率附加到推文中的每个标记

、、

我正在处理推特数据，这些数据是用NLTK POS-tagger标记的。我的令牌看起来像：['juice', 'NN']] 我还有美国国家语料库的频率，单词列表，词性标签和它们的频率。我想从标记中查找单词和pos-tag，如果找到，则将ANC的频率附加到标记上。来自SO的<

浏览 9提问于2019-07-24得票数 0

1回答

NLTK PoS标记

、、、

我是Python的新手，需要它来进行PoS标记。因此，我尝试使用标准的工具。我试图创建一个标签，并得到一个ValueError，我不明白。我的代码：tagged_sents = nltk.corpus.brown.tagged_sents(categories = 'reviews')我已经检查过了，tagged_sents是

浏览 3提问于2016-03-16得票数 0

回答已采纳

1回答

标记字符串列表，不使用逗号分隔

、、

我仍然是Python的新手，我想知道如何在不使用逗号分隔每个单词的情况下对字符串列表进行标记化。

浏览 7提问于2021-03-02得票数 1

回答已采纳

1回答

如何在nltk语法中直接使用单词

、、

我正在尝试使用python从给定的德语地址提取公司名称。这是我用的代码，tokens= nltk.word_tokenize(address)POStagList = nltk.pos_tag(textTok

浏览 1提问于2018-08-09得票数 1

2回答

nltk :根据POS用其他词替换令牌

、

我的工作是自然语言处理和需要预处理的一些数据.我的数据在文本文件中，我必须读取数据并将所有名称更改为男性或女性。在读取数据并对其进行标记之后，我应用pos标记并使用有名称列表的文件进行检查，并将名称更改为“男性”或“女性”。： mal

浏览 1提问于2018-06-12得票数 0

回答已采纳

1回答

如何处理字符之间有空格的单词？

、、、、

我正在使用nltk.word_tokenize在Dari语言中。问题是我们在一个词之间有空格。有人能帮我使用[tag:regex]或任何其他不应该标记单词的方式吗?一个<e

浏览 5提问于2017-09-20得票数 7

1回答

使用POS标记搜索文本中的短语

、

我想提取两个名词之间有"of“的短语。这是我的密码：tag = nltk.pos_tag(regexes)result = list(result)不幸的是，我<em

浏览 1提问于2022-04-11得票数 1

回答已采纳

1回答

在nltk中，用于实体识别的标记映射是什么？

、

当使用NLTK进行实体识别时，就会得到一个带有映射到标记的单词的Tree (例如。Mark -> NNP，first -> JJ，.)乍一看，还不清楚所有的标记代表什么，而且我无法在NLTK文档中找到关于这些标记的任何文档。>>> from nltk import word_tokenize, pos_tag, ne_chunk &g

浏览 0提问于2017-12-26得票数 3

回答已采纳

1回答

NLTK中单个单词的标记

、、

是否有一个标签可以在任何上下文中为一个单词返回一个标签？我的要求是，我需要从非结构化文本中提取单词，在这些文本中，句子不会有结构化语法。POS taggers是用来处理句子的，并根据该句子中单词的上下文返回一个单词的标签。因此，我要么必须使用另一个标签，为特定的单词每次给出相同的标记，要么在分块时使用所有可能的标记。另外，如何

浏览 1提问于2015-03-19得票数 1

回答已采纳

1回答

到word2vec模型的两个单词短语

、、

我正在为word2vec使用python包。例如：两个词短语：{I_have}，{green_apple}，.等。

浏览 0提问于2017-09-19得票数 0

回答已采纳

5回答

Mysql匹配带有括号边界的单词。

、

)dddeee |+----+---------------+我只想匹配"(ccc)“字符串作为单词|| 9 | aaabbb(ccc) |9 rows in set (0.00 sec) 好的，

浏览 11提问于2016-06-28得票数 1

回答已采纳

2回答

我有一些从网络上得到的文本，但人们以简短的形式写下了它们，比如uni代表大学，awsm代表很棒等等，但我可以猜到这些单词的列表。但是如何用Python纠正它们呢？我尝试了以下方法，但不起作用。DisplayisAwesome, Sooooo happppppy"rfrm=[APPOSTOPHES[word] if word in APPOSTOPHESelse word for word in words

浏览 8提问于2015-12-15得票数 2

1回答

由破折号分隔的url中的拼音词

有很多关于在url中使用破折号作为单词分隔符的文章--但是没有一篇文章真正涵盖了诸如连字符或在url中有空格的复合词这样的边缘情况。我有一个房地产网站，它使用连字符作为分隔符，而相对路径包含了很多关于该属性的信息。例如：/property/qld/nundah-4012/81-nellie-st-nundah-qld-4012-4138766 它是/[property-type]/[state]/[

浏览 0提问于2018-11-26得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

NLTK word标记除带破折号的单词外的所有单词，例如('hi-there'，'me-you')

相关·内容

NLTK word标记除带破折号的单词外的所有单词，例如('hi-there'，'me-you')

除了给定的单词(其中可能包括连字符/破折号)以外，用于匹配所有内容的Regex

在标点符号附近过滤停止词

认为句子是肯定的还是否定的

未登录词和已知词的词性

将Brown语料库标记集转换为upenn标记集

使用python计算文章中单词列表的最快方法

将语料库中的频率附加到推文中的每个标记

NLTK PoS标记

标记字符串列表，不使用逗号分隔

如何在nltk语法中直接使用单词

nltk :根据POS用其他词替换令牌

如何处理字符之间有空格的单词？

使用POS标记搜索文本中的短语

在nltk中，用于实体识别的标记映射是什么？

NLTK中单个单词的标记

到word2vec模型的两个单词短语

Mysql匹配带有括号边界的单词。

如何使用python或Nltk纠正俚语？

由破折号分隔的url中的拼音词

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐