如何在NLTK的tokenize.regexp python中将输入作为文本文件

NLTK（Natural Language Toolkit）是一个流行的Python库，用于自然语言处理任务。在NLTK中，可以使用tokenize.regexp模块将输入作为文本文件进行处理。下面是如何在NLTK的tokenize.regexp模块中实现这一目标的步骤：

导入必要的模块和函数：

import nltk
from nltk.tokenize import RegexpTokenizer

创建一个RegexpTokenizer对象，并指定正则表达式模式来定义如何将文本分割成单词或标记。例如，可以使用空格作为分隔符：

tokenizer = RegexpTokenizer(r'\s+')

读取输入文本文件并将其存储为一个字符串：

with open('input.txt', 'r') as file:
    input_text = file.read()

使用RegexpTokenizer对象对输入文本进行分词：

tokens = tokenizer.tokenize(input_text)

现在，tokens变量将包含输入文本中的所有单词或标记。

关于NLTK的tokenize.regexp模块的更多信息，可以参考腾讯云的自然语言处理（NLP）相关产品，例如腾讯云的自然语言处理（NLP）服务，该服务提供了丰富的自然语言处理功能，包括分词、词性标注、命名实体识别等。您可以在腾讯云的自然语言处理（NLP）产品介绍页面（链接地址）了解更多详情。

请注意，本回答中没有提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等云计算品牌商，以遵守您的要求。如有需要，您可以进一步了解这些品牌商提供的云计算服务和产品。

如何在NLTK的tokenize.regexp python中将输入作为文本文件

python、python-2.7、nltk、tokenize

基本上，我将文本文件作为NLTK tokenize.regexp输入。如何在下面的代码中输入文本文件： ‘从nltk.tokenize导入RegexpTokenizer 标记器= RegexpTokenizer(r'\w+') raw = doc_a.lower() #我希望输入文本文件而不是'doc_a‘ tokens =tokenizer.tokenize(原始)`

浏览 0提问于2017-08-11得票数 0

回答已采纳

2回答

限制语料库文档字长的潜在狄利克雷分配(LDA)性能

python、tokenize、lda、gensim、corpus

我一直在使用python(gensim包)中的潜在狄利克雷分配(LDA)生成客户评论集的主题。在生成标记时，我只从评论中选择长度为>= 3的单词(通过使用RegexpTokenizer)： from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w{3,}') tokens = tokenizer.tokenize(review) 这将允许我们在创建语料库文档时过滤掉长度小于3的嘈杂单词。过滤掉这些单词将如何影响LDA算法的性能？

浏览 2提问于2016-04-17得票数 0

2回答

将特定的单词从NLTK发行版中删除，而不是停止字

python、list、nltk

我有这样一个简单的句子。我想把介词和单词(如A和IT )从列表中删除。我查看了自然语言工具包(，NLTK)文档，但找不到任何东西。有人能告诉我怎么做吗？这是我的代码： import nltk from nltk.tokenize import RegexpTokenizer test = "Hello, this is my sentence. It is a very basic sentence with not much information in it" test = test.upper() tokenizer = RegexpTokenizer(r'\w+

浏览 3提问于2015-08-05得票数 1

回答已采纳

1回答

按发生数NLTK排序图

python、nltk

我目前正在运行这段代码，用于搜索我的整个文本处理的bigram。可变的全文是真正长的文本(超过一百万字)。我运行这个代码来提取bigram from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords import re tokenizer = RegexpTokenizer(r'([A-za-z]{2,})') tokens = tokenizer.tokenize(alltext) stopwords_list = stopwords.words('english&#

浏览 6提问于2016-10-12得票数 2

回答已采纳

1回答

如何提高Python NLTK预处理代码的效率？

python、text、nltk

我正在尝试导入Yelp评论，并使用Python对文本数据进行预处理，这样我就可以在评论中找到最常用的名词，进而提取有用的方面。我想出了以下代码，并希望有人让我知道是否有更有效的方法来编写此代码的目的： import pandas as pd import nltk import os # Import data files path='~\Revsfile' filename='blrevs.csv' os.chdir(path) df1=pd.read_csv(filename, enco

浏览 0提问于2017-09-14得票数 0

1回答

如何在不出现键入错误的情况下将文本数据标记化为单词和句子

python、nlp、tokenize

我的最终目标是使用NER模型来识别自定义实体。在此之前，我将文本数据标记化为单词和句子。我有一个包含文本文件(.txt)的文件夹，我使用os库打开它并将其读入Jupyter。在读取文本文件之后，每当我尝试对文本文件进行标记化时，我都会得到一个类型错误。能告诉我我哪里做错了吗？我的代码如下，谢谢。 import os outfile = open('result.txt', 'w') path = "C:/Users/okeke/Documents/Work flow/IT Text analytics Project/Extract/Dubuque_t

浏览 14提问于2020-10-09得票数 0

回答已采纳

2回答

如何打印lda主题模型和每个主题的词云

python、topic-modeling、word-cloud

from nltk.tokenize import RegexpTokenizer from stop_words import get_stop_words from gensim import corpora, models import gensim import os from os import path from time import sleep import matplotlib.pyplot as plt import random from wordcloud import WordCloud, STOPWORDS tokenizer = RegexpTokenizer(r

浏览 3提问于2016-10-27得票数 9

1回答

如何用python编写正确的nltk正则表达式记号赋予器？

python、regex、nltk

我想用python中的nltk实现一个正则表达式记号赋予器，但我有以下问题。我使用编写正则表达式。 import string import nltk from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords def preprocess(sentence): sentence = sentence.lower() pattern = r'''(?x) # set flag to allow verbose regexps (

浏览 0提问于2017-02-08得票数 0

1回答

无法使用NLTK令牌处理重音单词

python、nltk、text-mining

我试图用以下代码计算utf-8编码文本文件中单词的频率。成功地标记了文件内容，然后遍历这些单词，我的程序无法读取重音字符。 import csv import nltk from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords print "computing word frequency..." if lang == "fr": stop = stopwords.words("french") stop = [word.encode(

浏览 5提问于2014-12-26得票数 1

回答已采纳

1回答

查找带有文章的子页面urls并从其中收集数据

python、web-scraping、beautifulsoup

脚本应该找到带有文章的子页面的地址，并从它们中收集必要的数据。数据应该进入数据库，但我不知道如何使脚本从博客的每一页中提取每篇文章的内容。 import requests from bs4 import BeautifulSoup from nltk.tokenize import RegexpTokenizer import nltk import matplotlib.pyplot as plt import seaborn as sns url = 'https://xxx/' r = requests.get(url) # Extract HTML html = r

浏览 0提问于2019-05-27得票数 2

回答已采纳

1回答

如何从Apache OpenNLP中的“二进制文件”中获取拼写正确的令牌？

java、nlp、tokenize、opennlp

Apache NLP，我可以从二进制文件中获得正确的令牌吗？如果输入的是"hosr road“，这是打字错误，而正确的单词是"hosur road”，那么我在二进制文件中搜索后能得到正确的单词"hosur road“作为token吗？ String input = "hosr road"; InputStream tokenModelIn = getClass().getClassLoader().getResourceAsStream("META-INF/nlp/en-token.bin"); Tokenize

浏览 3提问于2015-08-03得票数 0

1回答

我正在尝试使用熊猫值计数从csv文件中获取tweet文本上的单词频率

python、pandas、dataframe、series

这是我的密码： import nltk from nltk.corpus import stopwords from nltk.tokenize import RegexpTokenizer from nltk.stem import WordNetLemmatizer import pandas as pd import numpy as np import openpyxl import string tokenizer = RegexpTokenizer(r'\w+') lemmatizer = WordNetLemmatizer() def remove_stop

浏览 3提问于2020-06-22得票数 2

回答已采纳

1回答

使用NLTK RegexTokenizer标记文本并将其写入CSV

python、csv、unicode、nltk、tokenize

提前感谢您的帮助。我非常迷茫。我正在尝试导入一个语料库，然后让它将trigram打印到csv文件中，在包含整个trigram的第一列旁边的两列中包含频率分布和相对频率。但我对RegexTokenizer的理解还不够好，无法做到这一点。下面的代码得到了90%的结果，但是RegexTokenizer只查找字母，所以它将带有连接词的短语分成三元组：“不要走”。我需要它停止那样做。没有RegexTokenizer，三元组是这样的：( u‘中间’，u‘类’，u‘美国人’)我想你可以用RegexTokenizer只找到u‘和’之间的短语，但我不知道怎么做。 import nltk import re f

浏览 0提问于2014-10-13得票数 2

3回答

打印词性和单词的同义词

python、nltk、wordnet

我有以下代码，用于从输入文本文件中提取一个单词，并使用WordNet打印该单词的同义词、定义和例句。它根据词性将同义词从同义词集中分离出来，即动词同义词和形容词同义词分别打印。这个词的同义词有: 1) flabbergast，boggle，bowl，上面是动词；2) stupefied，dumfounded，flabbergasted，stupefied，thunderstruck，dumbstricken，dumbstricken，这些都是形容词。如何打印词性和同义词？到目前为止，我已经提供了下面的代码： import nltk from nltk.corpus import wordn

浏览 3提问于2011-05-11得票数 3

1回答

如何用nltk用已知的双单词来标记句子？

python、nltk、tokenize

我正在使用python做文本分析任务。在这里，我使用了NLTK来执行文本处理任务。在我这里有一个预定义的集，下面提到. arr = ['Animo Text Analytics Inc.', 'Amila Iddamalgoda'] 我还有一个句子，如下所示。 sentence = "Amila Iddamalgoda is currently working for Animo Text Analytics Inc. and currently following the Text Mining and Analytics course provide

浏览 2提问于2017-03-12得票数 0

回答已采纳

4回答

使用WordNet查找同义词、定义和例句

python、nltk、wordnet

我需要获取一个包含一个单词的输入文本文件。然后，我需要使用wordnet查找单词同义词的lemma_names、定义和示例。我已经阅读了"Python Text Processing with NLTK2.0 Cookbook“和"Natural Language Processing using NLTK”这本书来帮助我实现这一目标。虽然我已经了解了如何使用终端来完成此操作，但我无法使用文本编辑器来完成相同的操作。例如，如果输入文本中包含单词"flabbergasted"，则输出需要采用这种方式：大吃一惊(动词)大吃一惊，惊叹不已；“这太让人吃惊了！”(形

浏览 1提问于2011-04-04得票数 14

1回答

解析一个Tweets列表以便使用Gensim Word2Vec

python、nlp、gensim、word2vec、topic-modeling

我正在研究一个NLP问题，我的目标是在通过Python库使用Word2Vec之后，能够将我的数据传递到sklearn的algos中。我试图解决的根本问题是一系列tweet的二进制分类。为此，我将修改 git中的代码。下面是与令牌化相关的代码的一部分： from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') input_file["tokens"] = input_file["text"].apply(tokenizer.tokenize) all

浏览 2提问于2019-02-08得票数 0

1回答

基于NLTK朴素贝叶斯分类器的情感分类

python、nltk

我正在用NLTK实现朴素贝叶斯分类器。但是，当我用提取出来的特征训练分类器时，它会产生“太多的值而无法解压”的错误。我只是刚开始学习蟒蛇。这是密码。程序是从文件中读取文本，并从这些文件中提取功能。 import nltk.classify.util,os,sys; from nltk.classify import NaiveBayesClassifier; from nltk.corpus import stopwords; from nltk.tokenize import word_tokenize,RegexpTokenizer; import re; TAG_RE = re.com

浏览 2提问于2017-01-04得票数 0

回答已采纳

1回答

NLTK提取文本中的类别并映射到分类法

python、nlp、nltk、taxonomy

如何将程序从文本分析(使用NLP/NLTK或Textblob)提取的类别映射到标准(或几乎标准)分类最好是开源产品我也更喜欢下载所选的分类法(按主题)，并在Python中离线工作(而不是使用在线服务/api) 我刚在这个问题上找到了这个...

浏览 2提问于2016-01-22得票数 1

1回答

要求用户输入文本文件名

python、nltk

我有这个python代码，它为单词列表创建词根格式文本文件，并将结果保存到另一个文本文件中，但是我想通过以下方式调整代码：要求用户输入输入的完整路径(words文本文件) 将输出(原始单词+词干词)保存在用户输入的完整路径文本文件中。从nltk.stem导入nltk从nltk.stem导入LancasterStemmer，从nltk.stem.porter导入LancasterStemmer= PorterStemmer()，带有open(r'C:\Users\hp\Desktop\Final Project\ for .t‘，'r')作为fp: t

浏览 6提问于2021-05-07得票数 0

回答已采纳