NLTK他和她的标签不同，_nltk标签tag_sents给出了不同的结果_NLTK的BLEU分数和SacreBLEU有什么不同？ - 腾讯云开发者社区

nlp、nltk、pos-tagger

我刚刚开始尝试自然语言处理。我使用NLTK编写的前几行代码产生了令人困惑的结果。 import nltk exampleArray = ['The book is hers', 'The book is his'] for item in exampleArray: tokenized = nltk.word_tokenize(item) tagged = nltk.pos_tag(tokenized) print(tagged) 输出： [('The', 'DT'), (&

浏览 18提问于2019-02-27得票数 2

2回答

CSS将整个句子大写，但特定字符串除外。

jquery、html、css

假设我有下面的字符串。我和我们。我和你。他和她。是否有一种解决办法，可以使用纯CSS获得以下结果？ I和我们. Me和You。 He和He。如果我使用文本转换:大写，那么它显然会. I和我们。我和你。他和她。有办法跳过大写的“和”吗？我知道我可以通过jQuery做这件事，但是你永远不知道CSS的力量。所以，在写剧本之前，先问问专家是值得的。谢谢。重要注意事项：请考虑我没有权限更改标记。所以我不能写我<span class="skip">和</span>我们。我<span class="skip">和&l

浏览 5提问于2016-02-01得票数 1

回答已采纳

1回答

Vsftpd用户预演

ubuntu、users、ftp、permissions

我有一个Ubuntu服务器。我安装了vsftpd。我希望特定的用户对/var/www/someDirectory和她的子目录/文件有完整的预分配。因此，我使用以下命令创建了一个用户： useradd -b /var/www/someDirectory -d /var/www/someDirectory user1 passwd user1 chown user1 /var/www/someDirectory 它正在工作，当这个用户登录到ftp时，他会自动进入路径/var/www/someDirectory。问题是，他可以从路径中删除someDirectory，并查看/var/www.他可以写任

浏览 0提问于2009-12-14得票数 0

回答已采纳

1回答

为什么Java Singleton需要防止反射攻击

java、reflection、singleton

有效Java2将Enum实现描述为在Java中实现单例的最佳实践。但是，相对于静态Holder实现，该实现的优点是enum可以防止反射攻击。因此，有一个问题:为什么我们需要防止独生子女的反思攻击？ Java的其他实现只是解决了、多线程、和延迟初始化的问题。这些问题将会并且经常出现在日常开发中，但是反射攻击似乎更像是一个安全问题。如果攻击者能够破解和破解你的程序，他和她可以做他和她想做的任何事情，似乎没有必要破坏Singleton。

浏览 0提问于2017-05-25得票数 2

回答已采纳

2回答

哪个是执行的第一位: POS标记还是左旋？

python、nlp、nltk、pos-tagger、lemmatization

如果我想制作一个像NLTK这样的NLP工具包，那么在标记化和正常化之后，我将首先实现哪些特性。贴标签还是留标签？

浏览 4提问于2017-03-16得票数 1

回答已采纳

2回答

生产web应用程序上的NLTK

python、pyramid、nltk

我想将一个自定义标签合并到我正在开发的web应用程序(运行在金字塔上)中。我让tagger在我的本地机器上使用NLTK工作得很好，但我读到NLTK的生产速度相对较慢。存储标签的标准方法似乎是将其提取。在我的机器上，加载11.7MB的泡菜文件需要几秒钟时间。 NLTK是否适合生产？我应该看看，甚至是类似Mahout之类的东西吗？如果NLTK足够好，那么确保它正确使用内存的最佳方法是什么？

浏览 6提问于2013-01-02得票数 5

回答已采纳

2回答

删除一条换行符？

regex

我正在使用body.replace(/\r?\n((?!\r?\n)|(?=\r?\n\r?\n\r?\n))/g,'')来替换换行符，问题是，如果一个接一个地有两个或多个换行符，我想保留它们，因为它代表一个段落。例如， : 钱会让青少年感到压力。这让他们对自己感到愧疚，嫉妒别人。例如，我的朋友和她的家人住在一起，不得不和她的妹妹住在一起，他很可爱很聪明。这个女孩希望她能有自己的房间还有很多东西，但她不能拥有这些东西，因为她的家庭没有太多的钱。她的家庭收入很低，因为她父亲老了，不上班了。，我想让它像: 钱会让青少年感到压力。这让他们对自己感到愧疚，嫉妒

浏览 0提问于2013-07-08得票数 1

回答已采纳

1回答

为什么在使用通用标记集时，NLTK将“那里”标记为“限定符”？

python、nlp、nltk

当使用带有NLTK的通用标记集时，它将“那里”标识为一个限定符，但它没有意义。例如, import nltk from nltk import word_tokenize sentence = 'If there is a cat under the table' tokens = word_tokenize(sentence) tags = nltk.pos_tag(tokens, tagset='universal') 产出如下： [('If', 'ADP'), ('there', 'DET&#

浏览 7提问于2021-12-06得票数 0

1回答

ConditionalFreqDist为单词查找最常见的词性标签

python、nlp、nltk

我正在尝试fidn，这是数据集中最常见的词性标签，但却在ConditionalFrewDist部分中苦苦挣扎。 import nltk tw = nltk.corpus.brown.tagged_words() train_idx = int(0.8*len(tw)) training_set = tw[:train_idx] test_set = tw[train_idx:] words= list(zip(*training_set))[0] from nltk import ConditionalFreqDist ofd= ConditionalFreqDist(word for

浏览 1提问于2022-02-05得票数 0

回答已采纳

1回答

如果没有像CD这样的pos标签，如何删除整行？

python、tags、sentence、part-of-speech

我正在读一篇新闻文章，正在使用nltk进行pos标记。我想删除那些没有像CD (Number)这样的pos标签的行。 import io import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from nltk import pos_tag stop_words = set(stopwords.words('english')) file1 = open("etorg.txt") line = file1.read() file1.clo

浏览 20提问于2019-01-31得票数 0

回答已采纳

1回答

混淆矩阵-测试情感分析模型

scikit-learn、nltk、sentiment-analysis、confusion-matrix

我正在使用NLTK测试一个情感分析模型。我需要添加一个混淆矩阵到分类器的结果，如果可能的话，精度，召回和F-度量值。到目前为止我只有精确性。Movie_reviews数据有pos和neg标签。然而，为了训练分类器，我使用的是“特征集”，它的格式与通常的(句子、标签)结构不同。我不确定在通过“特征集”对分类器进行训练之后，是否可以使用sklearn中的confusion_matrix。 import nltk import random from nltk.corpus import movie_reviews documents = [(list(movie_reviews.words(fi

浏览 0提问于2016-07-23得票数 4

回答已采纳

1回答

不知道。是否可以将一个不同形式的单词计数为一个单词(见，saw =Se2)

python、nltk

我试着分析一篇课文，并计算课文中的字数。但我需要每个不同形式的单词算作一个单词。例如： document = "I your hand. I see your hands." 见=2 face =2我知道如何把这个词变成字典形式。 document = "I saw your face I see your faces" sentences = nltk.word_tokenize(document) lemmatizer = WordNetLemmatizer() for key, val in freq.items(): print(lemmatiz

浏览 0提问于2019-07-12得票数 0

回答已采纳

1回答

如何在NLTK中获取组块后的句子？

python、nlp、nltk

我有一句话是这样的： txt = "i am living in the West Bengal and my brother live in New York. My name is John Smith" 我需要的是：使用GPE/location作为标签获取这些块，并使用“_“ 获取带有PERSON标签的块，并删除这些块。我需要的输出： preprocessed_txt = "i am living in the West_Bengal and my brother live in New_York. My name is " 我使用的代码来自NL

浏览 40提问于2021-02-24得票数 0

回答已采纳

1回答

NLTK -多标记分类

python、nlp、nltk、document-classification

我使用NLTK对文档进行分类--每个文档有一个标签，其中有10种类型的文档。对于文本提取，我清洗文本(标点符号删除，html标记删除，低胁迫)，删除nltk.corpus.stopwords，以及我自己的停止词集合。对于我的文档特性，我将查看所有50k文档，并按频率( frequency_words )收集前2k单词，然后对每个文档标识文档中也在全局frequency_words中的单词。然后，我将每个文档作为{word: boolean}的哈希映射传递到nltk.NaiveBayesClassifier(.)就文件总数而言，我有20:80的考试培训比例. 我遇到的问题是：这个由N

浏览 1提问于2014-05-09得票数 7

回答已采纳

8回答

python中的wordnet词汇化和pos标记

python、nltk、wordnet、lemmatization

我想在python中使用wordnet lemmatizer，并且我了解到默认的pos标签是名词，并且它不会为动词输出正确的词条，除非pos标签被明确指定为动词。我的问题是，为了准确地执行上述词汇化，最好的镜头是什么？我使用nltk.pos_tag做了pos标签，我迷失在将树库pos标签集成到wordnet兼容的pos标签中。请帮帮忙 from nltk.stem.wordnet import WordNetLemmatizer lmtzr = WordNetLemmatizer() tagged = nltk.pos_tag(tokens) 我得到了NN，JJ，VB，RB格式的输出标签。

浏览 5提问于2013-03-23得票数 71

回答已采纳

2回答

Python :获取字符串中形容词的计数

python、counter、nltk

我有一个字符串s=“X先生很棒，他很棒，Y先生也很棒。” 我需要从字符串中提取所有的形容词以及每个形容词的计数。例如，这个字符串有形容词“令人敬畏”，“令人惊异”，计数为2表示令人敬畏，1表示惊人。在提取形容词时，我使用了NLTK。这是提取形容词的代码， adjectives =[token for token, pos in nltk.pos_tag(nltk.word_tokenize(b)) if pos.startswith('JJ')] 我需要代码为字符串中的每个形容词得到一个计数器。它应该像形容词一样:计数器。

浏览 0提问于2015-09-22得票数 2

回答已采纳

1回答

Python nltk只读

python、eclipse、ubuntu、nltk

我正在尝试遵循这里的建议：(但是当我尝试更改和保存eclipse中的nltk/metrics/segmentation.py文件时(在ubuntu11下)，我得到资源的父级：/usr/local/lib/python2.7/dist-packages/nltk/metrics/segmentation.py标记为只读。/usr/local/lib/python2.7/dist-packages/nltk/metrics/segmentation.py (权限被拒绝)我尝试过chmod 777 -r，但它没有任何作用。任何人都能帮助一个菜鸟超过他的深度吗？

浏览 1提问于2012-10-25得票数 1

1回答

如何从nltk pos_tag中获取标签集？

python、nltk、part-of-speech

我试图从nltk pos_tag中获取完整的标签，但我找不到使用nltk的简单方法。例如，使用tagsets='universal'。 from nltk.tokenize import word_tokenize def nltk_pos(text): token = word_tokenize(text) return (nltk.pos_tag(token)[0])[1] nltk_pos('home') output: 'NN' expected output: 'NOUN'

浏览 8提问于2020-09-22得票数 0

回答已采纳

1回答

NLTK中的单字标注

nlp、nltk、stanford-nlp、allennlp

使用NLTK Unigram Tagger，我正在用Brown Corpus训练句子我尝试不同的categories，得到了大致相同的值。价值在0.9328附近..。对于每一个categories，如fiction、romance或humor from nltk.corpus import brown # Fiction brown_tagged_sents = brown.tagged_sents(categories='fiction') brown_sents = brown.sents(categories='fiction') unigr

浏览 3提问于2020-03-03得票数 1

回答已采纳

6回答

NLP:有哪些流行的多字标记包？

nlp、nltk、tokenization

我打算标记一些职务描述文本。我已经尝试了使用空白作为分隔符的标准标记化。然而，我注意到，有一些多词的表达是分裂的空格，这很可能会导致在后续处理的准确性问题。因此，我想在这些文本中得到所有有趣的/信息丰富的搭配。是否有任何好的包来做多字标记化，而不考虑特定的编程语言？例如，“他学习信息技术”“===>”他“研究”“信息技术”。我注意到NLTK (Python)有一些相关的功能。搭配模块：http://www.nltk.org/api/nltk.html#module-nltk.collocations nltk.tokenize.mwe模块：http://www.nltk.org/a

浏览 0提问于2017-03-02得票数 9

3回答

基于NLTK的语义解析

python、parsing、nlp、nltk、chunking

我正在尝试使用NLTK对语音导航命令进行语义解析，例如“去旧金山”、“给我去123主街的方向”等。这可以使用相当简单的CFG语法来完成，比如 S -> COMMAND LOCATION COMMAND -> "go to" | "give me directions to" | ... LOCATION -> CITY | STREET | ... 问题是，这涉及到非原子(超过一个单词长)的文字，如"go to"，NLTK似乎不是为它设置的(如果我错了，请纠正我)。分析任务将标记作为先决条件，并且所有标签者似乎总是标记单个单词

浏览 1提问于2013-09-08得票数 5

2回答

POS标签- NLTK- Python

python、nltk

我想使用word_tokenize, pos_tag, FreqDist。我不想默认下载所有的nltk。我想使用nltk.download(info_or_id='')。我应该在info_or_id中添加哪些选项来获取词性标记及其频率。POS标签- Penn Treebank POS。

浏览 1提问于2015-09-07得票数 0

3回答

如果鲍勃偷了爱丽丝的私钥，他会怎么读她的加密文件？

cryptanalysis、public-key、passwords、pgp

所以鲍勃在爱丽丝不看的时候拿了她的密匙和她的加密文件，难道他不需要知道她的密码才能读她的文件吗？我读到的是，不，他不需要它，但据我所理解的GPG，它仍然会要求一个密码解密一个文件。请解释为什么Bob不需要知道Alice的密码就可以一步一步地读她的文档。

浏览 0提问于2011-10-01得票数 3

1回答

自定义标签NLTK 3

python、python-3.x、nlp、nltk

我正在使用nltk的默认标记来获取单词的POS标记，但我没有得到预期的结果： >>> nltk.pos_tag(nltk.tokenize.word_tokenize("I want a watch")) [('I', 'PRP'), ('want', 'VBP'), ('a', 'DT'), ('watch', 'NN')] >>> nltk.pos_tag(nltk.tokenize.word_tokenize(

浏览 1提问于2016-07-15得票数 2

回答已采纳

1回答

检查Nltk POS标签

nltk

我只是在使用Python学习nltk。我正在使用POS标签。我想知道的是如何使用标签。例如，这是伪代码： words = [] teststr = "George did well in the test." tokens = nltk.word_tokenize(teststr) words = nltk.pos_tag(tokens) 我想做这样的事情： if words[i] == "proper noun": #do something 如何检查一个单词是名词、动词还是其他词性。有没有人能帮帮我？谢谢。

浏览 1提问于2013-03-23得票数 0

回答已采纳

1回答

自定义词性标记与nltk内部pos的回缩

python-3.x、nltk

在我的业务领域，这两个词的组合：“门卫建筑”应该总是被标记为(门卫："JJ") (building："NN")。nltk内部标签将其标记为： nltk.pos_tag(["doorman", "building"]) -> [('doorman', 'NN'), ('building', 'NN')] 我的方法是创建一个BigramTagger，并用这句话来训练它： train_sents = [ [('doorman', 'JJ

浏览 1提问于2017-07-04得票数 1

回答已采纳

2回答

默认的nltk词性标记集是什么？

python、nlp、nltk

在尝试使用NLTK词性标记时，我注意到在我对nltk.pos_tag的调用的输出中有很多VBP标记。我注意到这个标签不在Brown语料库词性标签集中。但是，它是UPenn标记集的一部分。默认情况下，nltk使用什么标记集？我在官方文档或apidocs中找不到这一点。

浏览 2提问于2012-10-16得票数 7

回答已采纳

2回答

推特感觉:无论标签，总是返回相同的情感分数。

python、twitter、sentiment-analysis

我试图使用这个库为加密货币生成情绪评分：当我使用示例trump的代码时，它返回-0.00082536637608123106的情感分数。我已将标签更改为： btc_feels = TweetFeels(login, tracking=['bitcoin']) btc_feels.start(20) btc_feels.sentiment.value 它仍然给了我同样的价值。当我安装图书馆时，我确实注意到了一些奇怪的事情。根据指示：如果由于某种原因，pip没有安装vader词典： python3 -m nltk.downloader vader_lexicon

浏览 2提问于2017-12-30得票数 2

回答已采纳

2回答

向下滚动屏幕以查看更长的文本，如kivy中的故事

kivy、scrollview、python-3.7、kivy-language

我在kivy中有一个屏幕，我想滚动它，因为label小工具中的文本不会显示所有文本，就像在kindle中我们可以向下滚动故事一样。另外，我的MainScreen继承自Screen类。随着文本的增加，它不会显示故事的最后5或6行下面是该类的.kv代码 BoxLayout: canvas: Color: rgb: 0, 0, 0, 0 Rectangle: size: self.size Label: id: story font_size: '20sp&

浏览 4提问于2020-04-21得票数 1

2回答

nltk pos标签的内部实现

nlp、nltk、spacy

我刚接触过NLP，试着使用nltk pos标签，对使用有疑问，它通常接受一个词或一个完整的句子，并给输入的pos标签，为什么它是双向工作？我对此表示怀疑，因为我尝试删除停止词，并使用spacy pos标记技术，我的同事说我不应该这样做，因为结果会改变，因为结果会检查单词的位置， nltk pos标签也是一样的吗？如果是，那么为什么它接受单个词，因为定位是考虑的？这里为nltk：中的两个用例找到了示例用法

浏览 4提问于2018-08-08得票数 2

回答已采纳

1回答

虚拟助理的POS标记器

python、machine-learning、nlp、nltk、nltk-book

我正试着为Voise助手做一个POS标签。然而，nltk的pos标签nltk.pos_tag并不适合我。例如： sent = 'open Youtube' tokens = nltk.word_tokenize(sent) nltk.pos_tag(tokens, tagset='universal') >>[('open', 'ADJ'), ('Youtube', 'NOUN')] 在上述情况下，我希望打开这个词是动词，而不是形容词。同样，它将“关闭”一词标记为副词，而不是动词。我也

浏览 1提问于2018-04-10得票数 1

1回答

是否有BigramTagger工作所需的最小数据大小？

python、nlp、nltk

我正在nltk库中学习BigramTagger类。我用nltk附带的棕色语料库来训练一个“部分句子”标签。我注意到，如果我对这个语料库进行训练，然后在语料库的第一句中标注几个单词，它就会非常有效。 from nltk.corpus import brown from nltk.tag import BigramTagger from nltk import word_tokenize # Works completely fine: brown_train = brown.tagged_sents(categories='news') bigram_tagger = Bi

浏览 4提问于2017-08-22得票数 3

回答已采纳

1回答

NLTK -从褐色语料库获取PoS标签列表

python

在NLTK语料库中，每个单词与其对应的PoS标记一起呈现，如下所示(其中'AT, 'NP-TL'...是标记)： nltk.corpus.brown.tagged.words() [('The', 'AT'), ('Fulton', 'NP-TL'), ...] 我想得到所有这些标签的列表(每行一个标签)，没有它们所伴随的单词。例如： AT NP-TL ... 有人知道我只需要使用哪个函数才能访问标签而不是单词吗？

浏览 1提问于2018-10-31得票数 0

回答已采纳

1回答

10月CMS博客嵌入音频不支持编写者

octobercms、octobercms-plugins

我有两个博客作者作为我的10月CMS网站的其他用户，他和她能够使用编辑器中嵌入的音频嵌入音频，但是当帖子发布时它不会出现。只有当我作为超级管理员进入并重新保存博客条目时，它才会显示在网站上。是否有一个设置遗漏了，使得其他博客作者可以在发布帖子时保存媒体嵌入？

浏览 4提问于2021-04-01得票数 0

1回答

替换文本文件中的多个单词并将新文本写入输出文件

python、loops、replace、output

我试图编写一个函数，它将一个文本文件作为输入文件，并创建一个输出文件，并替换相同的文本。这个功能将编辑艾玛与乔治，她与他和她与他的。我的代码是： switch = {"Emma":"George", "she":"he", "hers":"his"} def editWords(fin): #open the file fin = open(filename, "r") #create output file with open("Edit

浏览 7提问于2015-11-30得票数 1

2回答

使用NLTK对德语文本进行POS标记

python、nlp、nltk、part-of-speech

我想使用NLTK的位置标签德语文本。我找到和了。这两个看起来都很复杂，我找不到一些关于如何训练pos标签者的NLTK文档。有什么提示吗？我正在寻找最简单的方法来放入一些德语文本，并返回标记的单词。有什么提示吗？

浏览 0提问于2011-11-30得票数 2

2回答

NLP:我如何将词干和标签结合起来？

python、nlp、nltk、tagging、stemming

我正在尝试编写代码，它传递的文本已经被标记，停止词被过滤掉，然后继续并标记它。但是，我不确定我应该按照什么顺序进行标记。这是我目前拥有的： #### Stemming ps = PorterStemmer() # PorterStemmer imported from nltk.stem stemText = [] for word in swFiltText: # Tagged text w/o stop words stemText.append(ps.stem(word)) #### POS Tagging def tagging(): tagTot

浏览 4提问于2020-04-24得票数 0

回答已采纳

1回答

使用NLTK和自定义语料库(非英语)的培训人员必须使用StanfordNER？

nlp、nltk、named-entity-recognition

我从python的NLTK库中搜索了定制NER语料库来培训模型，但是所有的答案都直接指向nltk 第七章，并且诚实地让我搞不懂如何用如下结构的正确的流程和数据集来训练语料库： Eddy N B-PER Bonte N I-PER is V O woordvoerder N O van Prep O diezelfde Pron O Hogeschool N B-ORG . Punc O 我有一些问题：我发现了这么多的文章，如果你要用NLTK来训练定制的语料库，那么它也会使用StanfordNER库吗？或者我们可以用纯的NLTK库来做它？如果要将语法模式应用于其他语言，是否应该包括它？流程如

浏览 0提问于2021-01-11得票数 1

4回答

从文本中提取国籍和国家

python、nlp、nltk、pos-tagger

我想使用nltk从文本中提取所有提到的国家和国籍，我使用了POS标签来提取所有GPE标记的令牌，但结果并不令人满意。 abstract="Thyroid-associated orbitopathy (TO) is an autoimmune-mediated orbital inflammation that can lead to disfigurement and blindness. Multiple genetic loci have been associated with Graves' disease, but the genetic basis for TO

浏览 5提问于2016-06-18得票数 12

5回答

使用自定义数据进行NLTK命名实体识别

python、nlp、nltk、named-entity-recognition

我正在尝试使用NLTK从我的文本中提取命名实体。我发现NLTK NER对于我的目的来说并不是很准确，我也想添加一些我自己的标签。我一直在试图找到一种方法来训练我自己的NER，但我似乎找不到合适的资源。我有几个关于NLTK的问题- 我可以使用自己的数据在NLTK中训练命名实体识别器吗？如果我可以使用自己的数据进行训练，_是否对要修改的文件执行entity.py操作？输入文件格式必须是IOB格式吗？埃里克·NNP B人？除了nltk食谱和使用python的nlp之外，还有什么资源我可以使用吗？在这方面我真的很感谢你的帮助

浏览 125提问于2012-07-05得票数 48

4回答

用nltk pos标签标记单个单词，而不是用该单词标记每个字母

python、python-2.7、nlp、nltk、pos-tagger

我试着用nltk pos标签标记一个单词： word = "going" pos = nltk.pos_tag(word) print pos 但产出如下： [('g', 'NN'), ('o', 'VBD'), ('i', 'PRP'), ('n', 'VBP'), ('g', 'JJ')] 它是标记每个字母，而不仅仅是一个单词。我该怎么做才能让它成为单词的标签？

浏览 7提问于2015-04-01得票数 7

回答已采纳

2回答

使用Python从个人地名词典识别命名实体

python、nlp、nltk、named-entity-recognition

我尝试使用NLTK在python中进行命名实体识别。我想提取个人技能列表。我有技能的列表，并想在申请中搜索它们，并标记技能。我注意到NLTK有用于预定义标签的NER标签，比如Person，Location等。在Python中有没有一个外部的地名录标签我可以使用？你知道怎么做比搜索术语(有时是多个单词术语)更复杂吗？谢谢，阿萨夫

浏览 0提问于2011-02-23得票数 4

1回答

Python NLTK分块

python-2.7、nltk、chunking

使用NLTK，我想写下一个标签模式来处理一些东西，比如带有动名词和/或并列名词的名词短语。在导入必要的库之后，我对候选文本进行了如下标记： sentences=nltk.word_tokenize('......') 它包含几个句子。然后我给它加上标签： sentences=nltk.pos_tag(sentences) 我还将我提出的语法定义为： grammar= r""" Gerunds: {<DT>?<NN>?<VBG><NN>} Coordinated noun: {<NNP><C

浏览 0提问于2015-09-30得票数 1

2回答

使用Krippendorff Alpha的NLTK注释器协议

python、nltk、metrics

我试图使用NLTK的nltk.metrics.agreement模块计算玩具示例的注释间协议。具体来说，我试图使用alpha度量()计算协议，使用两种不同的距离度量(binary_distance和interval_distance)。下面的玩具示例1的预期结果接近完全一致(只有一对不同意)，是一个接近1的值。然而，在这两种情况下，res都是0.0。为什么？我知道Krippendorff的alpha是为间隔而设计的，而不是二进制的两类标签。但是，我不期望从模块中返回零协议值。对于背景，玩具示例只是一个较大数据集的特定子集，其中包含范围1、4的批注分数。该子集属于该数据集中的特定群体。在

浏览 6提问于2017-07-27得票数 4

回答已采纳

1回答

使用NLTK创建和利用标记的语料库

python、nltk、corpus、pos-tagger

我正试图在马达加斯加(我的母语)创建一个有标记的语料库。我遵循了文档、Python、文本处理、和、自然语言、处理和页面中的说明。我成功地创建了我自己的基于通用词性Tagset和一个小标记语料库的词性Tagset。这是我的密码： import os, os.path path = os.path.expanduser('D:/Mes documents/MY_POS_tagger/nltk_data') if not os.path.exists(path): os.mkdir(path) p

浏览 0提问于2018-07-31得票数 0

回答已采纳

1回答

Python - NLTK分离标点符号

python、nltk

我对Python非常陌生，我正在尝试使用NLTK来删除我的文件的停止词。代码正在工作，但是它将标点符号分开，如果我的文本是一条推文，并提到(@user)，我就会得到"@ user“。稍后，我需要做一个单词频率，我需要提到和哈希标签才能正常工作。我的代码： from nltk.corpus import stopwords from nltk.tokenize import word_tokenize import codecs arquivo = open('newfile.txt', encoding="utf8") linha = arquivo.r

浏览 4提问于2016-09-09得票数 3

回答已采纳

1回答

在Python中用几个条件将列表连接并追加到字符串中

python、string、list、dictionary、nltk

我需要我的案子的帮助 Python中有两个包含word和标签的列表： [['The', 'DT'], ['Kawasaki', 'NNP'], ['Ki-100', 'NNP'], ['fighter', 'NN']... 另一个包含word和NER标签的列表： [['Kawasaki', 'ORGANIZATION'], ['Imperial', 'ORGANIZATION'], ['Army

浏览 0提问于2018-05-05得票数 0

回答已采纳

1回答

如何防止NLTK拆分特定词？

nltk

我有一个堆栈溢出标签列表: javascript，node.js，c++，amazon-s3，. 我想标记化一个堆栈溢出问题：“我更喜欢什么? javascript，node.js，c++还是amazon-S3 ?这是虚拟的。” 我希望nltk将'node.js‘标记为一个单独的标记："node.js"，而不是'node’和'js‘。如果一个单词在我的标签列表中，如何告诉nltk不要拆分？我读过this possible duplicate，问题似乎是一样的，但基于Multi Word Expression Tokenizer的答案并不能满足我的需

浏览 11提问于2019-02-01得票数 1

回答已采纳

1回答

Python 3.5: NLTK下载默认URL不会更改

python、nltk

我已经在downloader.py中更新了downloader.py，我仍然收到以下错误。我最初尝试过只使用nltk.downloader()并更新了文件浏览器，但是当我尝试下载时，它仍然返回到github站点。 DEFAULT_URL = 'http://nltk.org/nltk_data/' 。 import nltk nltk.set_proxy('proxyaddress',user=None) dl = nltk.downloader.Downloader("http://nltk.org/nltk_data/") dl.downlo

浏览 16提问于2016-10-04得票数 0

回答已采纳

4回答

“NoneType”对象不能为配置函数迭代

python、nltk、typeerror、collocation

我是NLTK的新手，正在尝试返回搭配输出。我得到了输出，但同时，我也没有得到任何输出。下面是我的代码，输入和输出。 import nltk from nltk.corpus import stopwords def performBigramsAndCollocations(textcontent, word): stop_words = set(stopwords.words('english')) pattern = r'\w+' tokenizedwords = nltk.regexp_tokenize(textcontent,

浏览 0提问于2020-08-08得票数 1