文章/答案/技术大牛

发布

可以从NLP ML管道中的nltk向量器访问词汇表吗？

从NLP ML管道中的NLTK（自然语言工具包）向量器访问词汇表是可以的。NLTK是Python中常用的自然语言处理工具包，提供了许多处理文本和语言数据的功能。在NLP和机器学习的应用中，NLTK向量器可以用于将文本转换为向量表示，以便进行后续的特征提取、分类等任务。

NLTK中的向量器可以通过访问词汇表来获取词汇的特征信息。词汇表（Vocabulary）是指训练数据中所有不同词汇的集合。对于NLTK向量器，可以使用其提供的方法来获取词汇表的相关信息，比如词汇表的大小、包含的词汇列表等。

通过访问词汇表，可以获取词汇在整个语料库中的频率、文档频率（出现在多少个文档中）、词汇在文档中的位置等信息。这些信息可以用于计算词汇的重要性、选择特征词汇等任务。

推荐的腾讯云相关产品是腾讯云自然语言处理（NLP）服务。腾讯云NLP服务提供了丰富的自然语言处理功能，包括分词、词性标注、命名实体识别、句法分析、情感分析等，可以帮助开发者快速构建和部署NLP相关应用。具体产品介绍和文档可以参考腾讯云NLP服务的官方网站：https://cloud.tencent.com/product/nlp

可以从NLP ML管道中的nltk向量器访问词汇表吗？

、、、

我的管道看起来像 model = make_pipeline( MultiOutputClassifier这有可能吗？

浏览 17提问于2020-09-29得票数 0

回答已采纳

7回答

NLTK vs斯坦福NLP

、、、

我最近开始使用NLTK工具包来创建一些使用Python的解决方案。可以通过Python使用Stanford NLP</em

浏览 10提问于2016-10-13得票数 29

2回答

是否有可能导出和使用spaCy NER模型而不使用vocab，并动态地注入令牌/向量？

、

，跳过词汇表以节省磁盘空间和内存使用最后，加载模型以运行某些推断，使用在我的管道中预先计算过的标记和向量，而不是使用模型词汇表(标准方法)再次计算。我之所以保存模型而不使用词汇表，是因为在我的分布式管道中，首先做的事情之一是对文本进行标记/矢量化，这样剩下的任务就有了这个输入。在继续之前，我想澄清的是，在标准的方法(保存<

浏览 4提问于2021-11-23得票数 2

回答已采纳

2回答

nlp.vocab和nlp.vocab.strings有什么区别？

、、

我正在学习NLP，我想看看我用spacy下载的词汇量。import spacy nlp2 = spacy.load('en_core_web_sm')len(nlp.vocab)len(nlp2.vocab)len(nlp.vocab.string

浏览 3提问于2021-08-21得票数 1

回答已采纳

1回答

在人工智能项目中，spacy，nltk，prodigy，sklearn在哪里适合？

、、、

像spacy、sklearn、prodigy、nltk这样的工具适用于下面的AI项目体系结构，以及这些项目的一些常见的替代方案： 📷

浏览 0提问于2020-02-07得票数 0

2回答

NLP中的单词总数(列表长度)与列表或文件的词汇量之间的差异？

、、、

如何计算在python中存储为列表的语料库的单词和词汇量？这两个术语的主要区别是什么？假设，我使用以下列表。单词总数或列表长度可以由len(L1)计算。然而，我有兴趣知道如何计算以下清单的词汇表。

浏览 0提问于2018-09-25得票数 0

回答已采纳

1回答

Spacy -预处理和词汇化需要很长时间

、、、

输入文件有大约20,000条记录，每条记录只有很少的句子。文件的总大小为45MB。我使用的是Spacy 2.0.12。import spacy nlp = spacy.load('en', disable=['parser', 'tagge

浏览 1提问于2018-09-19得票数 0

1回答

如何在Spacy中创建具有多模型的NER管道

、、

我正试着训练新的实体为斯佩西纳。我尝试将我的新实体添加到现有的spacy 'en‘模型中。然而，这影响了'en'和我的新实体的预测模型。比如说我把“马”训练成动物实体。用我目前的设置，它只识别马。nlp = spacy.load('en') hsnlp =

浏览 0提问于2019-02-24得票数 15

1回答

标签，使用自定义词汇表(python)从自由文本中提取短语？

、、、、

我有一个大约是定制的词汇表。SQL表中的1M行。每一行都有一个UID和一个相应的短语，可以是多个单词的长度。此表很少更改。我需要标签，提取，块或识别(纳?)根据上面提到的自定义词汇表，自由文本文档中的实体短语。因此，对于在免费文本中找到的短语，我可以提取它的UID。哪一种NLP工具，最好是基于Python的工

浏览 1提问于2015-11-23得票数 1

6回答

使用nltk从文本文件中提取所有名词

、

有没有更有效的方法来做到这一点？我的代码读取文本文件并提取所有名词。import nltk lines = File.read() #read all lines if (pos == 'NN' or pos == 'NNP' or pos == &

浏览 7提问于2015-11-07得票数 22

回答已采纳

4回答

用Spacy找到俄语的引理(那些没有模型的词)

、

import spacydoc = nlp(u'Two apples') print(token, token.lemma, token.lemma_)Two 11711838292424000352 two现在我也想对俄语语言做同样的事情。但是Spacy没有俄语的模型。但是我看到了他们的，我认为代

浏览 0提问于2019-02-04得票数 6

1回答

从非结构化文本中提取带有属性的事件

、、

我正在抓取组织(主要是零售商)的网站，我想使用NLP从网站的非结构化文本中提取信息。我想做的第一件事是在文本中识别与贪欲相关的事件，例如“商店将从3月3日起关闭”或“不幸的是我们不得不永久关闭”。词汇是相当有限的，可能涉及几十个(或最多几百个)短语/表达。我对正则表达式非常熟悉，我认为可以使用基于规则的方法提取一些事件及其属性(例如日期)，特别是使用一个小词汇表。然而，

浏览 0提问于2021-01-26得票数 2

1回答

我正在尝试设置一个简单的代码，在其中传递一个数据，并使用johnSnowLabs Spark库提供的经过预先训练的解释管道来测试它。我正在使用anaconda的jupyter笔记本，并使用apache安装了。每次我运行应该加载预先训练的管道的步骤时，它都会抛出一个tensorflow错误。确保Op和内核已在此进程中运行的二进制文件中注册。请注意，如果您正在从tf.contrib加载使用ops的已保存

浏览 0提问于2019-08-22得票数 8

回答已采纳

2回答

用于自然语言处理的Java或Python

、、

我想知道在Java中使用哪个NLP库，因为有很多库(LingPipe、GATE、OpenNLP、StandfordNLP)。对于Python，大多数程序员推荐NLTK。但是如果我要做一些文本处理或者从非结构化数据(仅仅是自由形成的纯英语文本)中提取一些有用的信息，那么最好的选择是什么？Java还是Python？合适的图书馆？更新的我想做的是从非结构化数据中提取有用的产品信息(例如，用户用不太标准<

浏览 19提问于2014-04-07得票数 116

1回答

如何使用Thinc模型创建自定义spaPcy管道组件

、、

我想在spaCy中创建一个自定义管道组件，它使用的是经过预处理的Thinc模型。我希望修改Thinc的输出预测，然后将修改后的值传回管道，即有效地修改ner管道组件。 class_value = np.argmax(class_probabilities, axis=1) return doc print(nlp</em

浏览 2提问于2022-06-22得票数 1

回答已采纳

5回答

使用自定义数据进行NLTK命名实体识别

、、、

我正在尝试使用NLTK从我的文本中提取命名实体。我发现NLTK NER对于我的目的来说并不是很准确，我也想添加一些我自己的标签。我一直在试图找到一种方法来训练我自己的NER，但我似乎找不到合适的资源。我有几个关于NLTK的问题- 我可以使用自己的数据在NLTK中训练命名实体识别器吗？如果我可以使用自己的

浏览 125提问于2012-07-05得票数 48

3回答

我如何学习实用的自然语言处理？

、、

我有一些Java、Pascal、PERL、SQL和R方面的背景知识，并且希望找到一条从这种背景中获得自动或半自动从文本中提取概念并将结果转化为可进行统计分析(如果需要的话愿意学习新语言)的合理的最小阻力路径我想我将需要在几千页的文本上执行一些NLP任务，特别是POS处理、名词短语的识别、词义消歧。后者，我相信，可能需要半监督机器学习的准确性。我的问题是从哪里开始学习实用的 NLP？

浏览 4提问于2013-10-05得票数 0

回答已采纳

2回答

NLP情感分析中的TF-下手向量大小法

、、、、

我对NLP和情感分析还比较陌生，但我参加了机器学习课程，并且正在创建一个情感分析NLP，它将阅读一篇金融文章，并确定总体情绪是好还是坏。目前，我有一个大约2000篇文章的数据集。我的问题是，我如何确定这个词汇表？我发现的一种方法是实现预处理(消除停止词、噪音词、标点符号等)。然后在训练集的每一篇文章中使用所有的单词。在这里，您可以删除实例很少的单词(不重要的单词)和有太多实例的单词(没有区别的单词

浏览 0提问于2018-04-17得票数 2

回答已采纳

1回答

ImportError:无法从'spacy.lang.en‘导入名称'LEMMA_INDEX’

、、

我试图在spaCy中创建一个词汇化程序，但是当我运行我拥有的代码时，这个错误总是弹出。from spacy.lemmatizer import Lemmatizerlemmas = lemmatizer(u'ducks', u'NOUN')我有最新的</e

浏览 65提问于2019-11-09得票数 4

回答已采纳

3回答

SyntaxNet创建树到根动词

、、

我是Python和NLP世界的新手。最近宣布的Google的Syntaxnet引起了我的兴趣。然而，我在理解有关syntaxnet和相关工具(nltk等)的文档时遇到了很多困难。我偶然发现了"spacy.io“，似乎封装了我想要完成的任务: POS标记一个字符串，并将它加载到某种树结构中，这样我就可以从根动词开始，遍历这个句子。我使用了syntaxnet/demo.sh，并按照<

浏览 6提问于2016-05-17得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可以从NLP ML管道中的nltk向量器访问词汇表吗？

相关·内容

可以从NLP ML管道中的nltk向量器访问词汇表吗？

NLTK vs斯坦福NLP

是否有可能导出和使用spaCy NER模型而不使用vocab，并动态地注入令牌/向量？

nlp.vocab和nlp.vocab.strings有什么区别？

在人工智能项目中，spacy，nltk，prodigy，sklearn在哪里适合？

NLP中的单词总数(列表长度)与列表或文件的词汇量之间的差异？

Spacy -预处理和词汇化需要很长时间

如何在Spacy中创建具有多模型的NER管道

标签，使用自定义词汇表(python)从自由文本中提取短语？

使用nltk从文本文件中提取所有名词

用Spacy找到俄语的引理(那些没有模型的词)

从非结构化文本中提取带有属性的事件

Spark预培训管道是否只适用于linux系统？

用于自然语言处理的Java或Python

如何使用Thinc模型创建自定义spaPcy管道组件

使用自定义数据进行NLTK命名实体识别

我如何学习实用的自然语言处理？

NLP情感分析中的TF-下手向量大小法

ImportError:无法从'spacy.lang.en‘导入名称'LEMMA_INDEX’

SyntaxNet创建树到根动词

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐