替换nltk字符串

文章/答案/技术大牛

发布

1回答

python、nltk

为什么replace不适用于此字符串？‘'Python \xc3\xa9 uma linguagem de programa\xc3\xa7\xc3\xa3 de alto n\xc3\xadvel’# - * - coding: utf-8 - * - val= str(nltk.tokenize

浏览 7提问于2017-06-29得票数 1

2回答

加载NLTK感知器时的IOError

python、nltk、ironpython

代码很简单，如下所示nltk.data.path.append(r"E:\nltk_data")而错误是2.7\lib\site-packages\nltk\tag\__init__.py", line 110, in pos_tag tagger= PerceptronTagger(

浏览 3提问于2016-04-27得票数 1

回答已采纳

2回答

python正则表达式将所有windows换行符替换为空格

python、regex

我这样做了：import nltkhtml = urlopen(url).read()现在，我在python中有一个很长的字符串，其中充满了定期被windows换行符/r/n中断的文本，我只想使用正则表达式从字符串中删除所有出现的/r/n首先，我想用一个空格替换它。因此，我这样

浏览 0提问于2011-06-30得票数 14

回答已采纳

1回答

如何在python中搜索字符串中的换行符

python、nltk

我想根据新行字符拆分字符串，并用'.‘替换新行。在python中。我试过这段代码，但是我不明白。import nltk from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters, PunktLanguageVars

浏览 28提问于2016-09-06得票数 3

回答已采纳

5回答

NLTK 3 POS_TAG抛出UnicodeDecodeError

python-3.x、nltk

你好，我正在努力学习NLTK。我也是Python的新手。我正在尝试以下几种方法。>>import nltk我收到以下错误消息回溯(最近一次调用)：文件""，第1行，在nltk.pos_tag(nltk.word_tokenize("John“)文件中，在pos_tag tagger = load

浏览 11提问于2014-08-31得票数 9

回答已采纳

1回答

如何训练以pos序列为特征的朴素贝叶斯分类器？

machine-learning、nltk、stanford-nlp、text-classification、naivebayes

Stanford /NLTK (Java或Python)提供了以pos作为特性构建分类器的方法吗？

浏览 1提问于2015-02-27得票数 6

回答已采纳

2回答

使用Python NLTK标记大型(>70MB) TXT文件。连接并将数据写入流错误

python、nltk、tokenize

首先，我是python/nltk的新手，所以如果这个问题太基本了，我很抱歉。我有一个大文件，我试图对其进行标记；我得到了内存错误。我不确定为什么会显示这个错误，因为(在读取文件之后，我检查了它的类型，它实际上是一个字符串。# tokenizing large file one line at a timefilename=open("X:\MyFile.txt","r").read() type'str' and 'list'

浏览 0提问于2012-03-25得票数 5

回答已采纳

2回答

如何使用NLTK替换已就位的大图？

python、nltk、n-gram

假设我有一个元组( top_n )列表，其中列出了一个文本语料库中最常见的n缩略图：from nltk import bigramsquery = ['please','let','us','know',

浏览 1提问于2017-12-20得票数 1

回答已采纳

1回答

为什么这个正则表达式返回不可读字符？

python、regex、nlp、nltk、wordnet

然后，我尝试在转换的字符串上使用替换正则表达式。预期输出为“prior.n.01”。但我得到的是那些有数字的方形盒子。因为我的终端可以在字符串通过替换之前显示它，所以我猜问题并不来自于此。这是因为我在字符串上使用它，该字符串最初是list元素吗？下面是我使用的代码：import nltk word_list = ['prior',&#

浏览 0提问于2014-05-08得票数 0

回答已采纳

1回答

NLTK删除无效单词

python、python-3.x、nltk

示例：sentence_tokenised= nltk.tokenize.word_tokenize(sentence)这就产生了： ['The', 'word', 'hello', 'is

浏览 1提问于2021-05-29得票数 2

回答已采纳

1回答

关系提取的NLTK示例不起作用

python、nltk

我已经通过了部分的nltk书，直到这一节关于关系提取。有人能帮我理解为什么下面的代码不起作用吗？似乎没有方法show_raw_rtuple()for doc in nltk.corpus.ieer.parsed_docs('NYT_19980315'):

浏览 3提问于2014-07-30得票数 1

回答已采纳

1回答

带VS2012的Python

python-3.x、nltk

我只是从NLTK开始，当我尝试在VS2012 IDE中使用python安装NLTK时，我首先运行：nltk.download()它给了我： File "C:\Program Files (x86)\Microsoft\Users\Toshiba\Documents\Visual Studio 2012\P

浏览 3提问于2015-12-30得票数 0

回答已采纳

1回答

将刚安装的包导入到现有的python会话中

python、import、easy-install

在检查结果时，我意识到我需要另一个包(nltk)进行处理，这是我安装的包，但是会话不能import它(新的可以)。问题是，我似乎不能保存未处理的结果(pickle和marshal给了我关于字符串长度的错误)，而且我真的不想重新运行这个长达一周的过程。

浏览 0提问于2012-10-31得票数 3

回答已采纳

2回答

数不出来。标记化后的标记，停止单词删除和词干

python、string、nltk、preprocessor

我的职能如下： stemmer = nltk.stem.porter.PorterStemmer() for each in data: filtered = [word for word in tokens if word not in nltk.corp

浏览 4提问于2017-06-04得票数 1

回答已采纳

1回答

在NLTK中使用Pyinstaller会导致错误:无法找到nltk_data

python、nltk、exe、pyinstaller

我正在尝试导出一个简单的GUI，它使用NLTK作为一个带有Python3.6和Windows 10的exe。当我运行PyInstaller将我的简单程序冻结为一个exe时，我会得到一个错误:在添加二进制文件和数据文件时无法找到"c:\users\usr\nltk_data“。当我在这里复制nltk_data文件夹时，我在另一个nltk.data.path路径nltk.data.path中得到一个错误from nltk.corpus

浏览 1提问于2019-07-20得票数 3

回答已采纳

3回答

如何在python中从字符串中提取文本？

python-3.x

我创建了这个乱七八糟的脚本，它给了我一些大致在字符串中的句子…… sentences = 0 'A','B','C','D','E','F','G','H','I','

浏览 38提问于2019-07-03得票数 2

回答已采纳

1回答

NLTK:从字符串中提取实体名称

python、nltk

Python和NLTK新手在这里。胡乱摆弄什么东西。我有一个字符串，其中包含来自pdf文档的文本，并且我正在尝试使用nltk库提取实体名称 str_output = f.readlines= [nltk.word_tokenize(sentence) for sentence in sentences]我经历了导入数据、

浏览 1提问于2018-07-18得票数 0

1回答

如何在nltk中使用word_tokenize并保留空格？

python-2.7、nltk

据我所知，nltk中的word_tokenize函数接受表示句子的字符串，并返回其所有单词的列表：如何更改/替换/调整word_tokenize以实现这一点？

浏览 1提问于2014-04-29得票数 2

回答已采纳

1回答

在nltk文本包含分类器上获取AttributeError

python、nltk、text-classification

我指的是节中的链接 extractor = nltk.RTEFeatureExtractor(rtepair) features['ne_hyp_extra'] = len(extractor.hyp_extra('ne'))rtepair = nltk.corpus.rte.pairs(['rte3_dev.xml'])

浏览 3提问于2016-02-08得票数 2

回答已采纳

1回答