如何使用荷兰语标记器对列表中的句子进行标记？_如何使用BeautifulSoup对相等的标记进行排序？_如何对python标记器进行每行之后的操作 - 腾讯云开发者社区

、、

我设法找到了一个很好的荷兰NLTK标记器来标记我的文本中的POS，我必须对其进行注释。我的嵌套列表如下所示： ['de', 'oude', 'tovenaar', 'overpeinsde', 'zijn', 'leven'], '

浏览 10提问于2020-05-01得票数 0

回答已采纳

1回答

Python:下采样标记或下采样word2vec模型

、、、

我必须制作一个较大的语料库(6 654 940个句子，19 592 258个标记)来与较小的语料库(15 607个句子，927 711个标记)相媲美，以便在2个可比较的word2vec模型上实现它们。每个语料库是一个列表列表，其中每个列表都是一个标记化的句子:例如[['the', 'boy', 'eats'

浏览 3提问于2020-01-23得票数 0

2回答

命名实体识别黄金标准语料库的样本大小

、、、、

我有一个包含170部荷兰文学小说的语料库，我将在其中应用命名实体识别。为了评估现有的荷兰语NER标记器，我想在这个语料库的随机样本中手动标注命名实体-为此，我使用。在我对NER标记器的评估中，手动注释的随机样本将作为“黄金标准”。我编写了一个Python脚本，在句子级别输出我的语料库的随机样本。我的<

浏览 29提问于2016-11-22得票数 3

1回答

标记荷兰语

、、、

阅读文章后，我发现我可以使用荷兰句子标记器，如下所示：tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickleDat deed ik gisteren') 但是，是否有一种使用荷兰语标记器的方法？英文的那个(默认的'punkt

浏览 2提问于2021-03-01得票数 0

回答已采纳

1回答

斯坦福大学命名实体标签-不一致？

、、

我有个奇怪的问题。我有一个句子列表(大约10万)，它希望使用斯坦福命名实体识别(Ner)标记来标记。我正在使用斯坦福ner演示网站(Java )提供的以下代码行进行标记。但是，当这些没有标记的句子被手工挑选到一些样本列表中，用上面的代码进行测试时，它们就会被标记。所以我搞不懂我哪里出了问题。

浏览 2提问于2014-07-31得票数 0

回答已采纳

1回答

文本文件中的POS标记

、

我想在一个包含以下句子的文本文件(file1.txt)中应用POS标记：你好吗？首先我想对它进行标记化，然后使用POS标记器。我知道如何对字符串进行标记化和标记。但我不确定如何在文件中做到这一点。任何帮助都将不胜感激。

浏览 0提问于2017-06-19得票数 0

1回答

基于Viterbi算法的词性标注

、

我正在做一个项目，在这个项目中，我需要使用维特比算法对句子列表进行词性标注。对于我的训练数据，我有已经由单词标记的句子，我认为我需要解析这些句子并将其存储在某种数据结构中。然后我有一个测试数据，其中也包含每个单词都被标记的句子。我对如何处理这个问题感到有点困惑。我想问题的部分原因是我认为我没有完全理解维特比算

浏览 4提问于2014-02-27得票数 1

1回答

如何使用标记化的句子作为Spacy的PoS标记器的输入？

、、

Spacy的pos标记器非常方便，它可以直接对原始句子进行标记。import spacy sen = sp(u"I am eating") 但我使用的是nltk的记号赋予器。那么，如何使用像['I', 'am

浏览 0提问于2019-06-04得票数 1

1回答

斯坦福OpenNLP中句子和文档之间的区别？

、、

如果我们输入的文本是一个非常长的句子，而不是文档，那么在注释一个长句子而不是遍历文档中的每个句子和最终得到所有结果之间，Stanford做了什么不同的事情？编辑:我运行了一个测试，似乎这两种方法返回了两个不同的NER集。我可能只是做错了，但它确实非常有趣，我很好奇为什么会发生这种情况。

浏览 7提问于2017-01-21得票数 0

1回答

句法分析和词性标注有什么区别？

、、、

我知道词性标注句中的每一个单词都带有适当的词性，但这不正是分析者所做的吗？也就是说，把一个句子分成几个部分？我在网上查过这个，但没有找到令人满意的解释。请澄清我的疑虑。提前感谢

浏览 3提问于2020-04-26得票数 4

回答已采纳

1回答

WordNetLemmatizer函数

、

初学者的问题，我有一个250个句子的文本文件，我已经对它们进行了标记化，并将这些标记符放在一个列表中，如下所示现在，我想使用WordNetLemmatizer对每个单词进行词汇化但是这种情况发生了，请告诉我出什么事了。

浏览 0提问于2017-02-12得票数 0

2回答

可以用来匹配句子的算法是什么？

、、

假设我们有一个包含50个句子的列表，我们有一个输入句子。如何从列表中选择与输入句子最接近的句子？我尝试了许多方法/算法，例如对句子中每个标记的word2vec向量表示进行平均，然后对结果向量进行余弦相似度计算。例如，我希望算法在“书的定义是什么？”之间给出一个很高的</em

浏览 2提问于2016-12-22得票数 0

1回答

为什么一组标记没有解析？

、、、、

因此，我应该用我非常简单的解析器，从WSJ语料库中分块一些带标记的句子。当我自己给句子贴上标签时，works...but会用他们给出的方式来得到标记的句子。我的作业告诉我使用带有标签的WSJ语料库nltk.corpus.treebank.tagged_sents()的200-220句。然而，我的解析器给了我一个

浏览 1提问于2017-03-03得票数 0

回答已采纳

1回答

分阶段运行斯坦福NLP管道

、、

我尝试在多个步骤中运行核心流水线，以减少昂贵的解析和注释步骤。我可以看到，依存关系解析器可以接受句子的</e

浏览 3提问于2015-08-20得票数 0

1回答

我正在尝试使用斯坦福NLP解析器来解析POS标记数据。因为我的数据已经被标记和标记化了，所以我尝试使用setOptionFlags()方法来通知解析器这一点， LexicalizedParser lp = LexicalizedParser.loadModelException in thread "main" java.lang.IllegalArgumentException: Unknown option: -sentence

浏览 5提问于2013-10-22得票数 0

2回答

自然语言处理模型

、

我是NLP的初学者，做一个项目来解析，并理解用户用英语输入行的意图。对用户输入语句进行基本的标记和词性标注，并在上

浏览 1提问于2011-10-30得票数 1

1回答

关于Python2.7中列表的SpaCy问题

、、

(x) for x in sent_text] sent11.append(token) 这对单个句子很有效，但我不想在一本书那么长的文本中对每个句子都这样做。然后，一旦我有了这些只包含我想要的片段

浏览 2提问于2018-10-14得票数 0

1回答

单词标记化NLTK缩写问题

、

我想知道如何对以下句子(字符串)进行单词标记化： "I am good. I e.g. wash the dishes." 以下几句话： ["I", "am", "good", ".", "wash", "the", "dishes"] 现在的问题是，当涉及到像"e.g."这样的缩写时，它被N

浏览 20提问于2019-03-17得票数 0

回答已采纳

1回答

为什么NLTK使用正则表达式表示单词标记化，而使用语句标记化培训？

、、

我在python中使用NLTK。我理解它在其word标记化函数(如TreebankWordTokenizer.tokenize() )中使用正则表达式，但它使用经过训练的模型(泡菜文件)进行语句标记化。我不明白他们为什么不用训练来标记单词？这是否意味着句子标记是一项更艰巨的任务？

浏览 2提问于2016-12-22得票数 0

回答已采纳

1回答

我想忽略除名词和动词标记之外的所有其他标记。可以用斯坦福大学的corenlp单词类来做吗？

我想忽略除名词和动词标记之外的所有其他标记。可以用斯坦福大学的corenlp单词lavel来做吗？

浏览 1提问于2013-09-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云