使用gensim的Python词频:如何在语料库中获取单词而不是id单词

python、text-mining、gensim

我使用gensim来计算给定音符中的单词频率。在应用以下代码后： from gensim import corporacorpus = [dictionary.doc2bow(text) for text in sentences] 获取语料库，例如：(0，1)，(1，5)，(3，1) ...我想要的语料库如下：(word_1，

浏览 36提问于2021-05-07得票数 0

1回答

在Gensim上反复训练Word2Vec有困难

nlp、gensim、word2vec

我试图反复训练由我自己提供的多个文本。然而，当我不止一次地训练这个模型时，我总是遇到一个问题：model = Word2Vec(sentences, min_cou

浏览 5提问于2022-12-01得票数 0

1回答

将单词数组和向量数组相结合构成Gensim W2V模型

gensim、word2vec、embedding、word-embedding

我有一个来自pickle文件的单词数组，以及一个来自npy文件的对应向量数组，我如何将它们组合在一起来创建Gensim W2V模型？

浏览 12提问于2020-06-11得票数 0

1回答

我能不能把简单的编码向量而不是原始句子直接输入到PYTHON模块word2vec.Word2Vec中？

python、gensim、word2vec、one-hot-encoding

例如，我已经将所有的单词和数字转换为一次热编码。然后我想用但是，它弹出了一个错误：我想这是因为我不能直接向word2vec.Word2Vec输入一个热门的代码我想知道

浏览 4提问于2019-04-18得票数 0

1回答

Gensim doc2vec关于ngram的培训

python、gensim、doc2vec

我有几千个文档，我想在 gensim doc2vec 模型中使用，但每个文档只有 5 克，而不是原始词序的全文。在 gensim 网站 (https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html) 上的 doc2vec教程中，使用全文创建了一个语料库</e

浏览 1提问于2020-02-22得票数 1

3回答

确定文本语言和纠正python中的打字错误的最佳算法是什么？

python、nlp、nltk、textblob、polyglot

我正在寻找算法，可以告诉我文本的语言(例如，你好-英语，Bonjour -法语，Servicio -西班牙语)，并纠正英文单词的打字错误。我已经探索了谷歌的TextBlob，它是非常相关的，但它得到了“太多的请求”的错误，只要我的代码开始执行。我也开始探索Polyglot，但我在Windows上下载这个库时遇到了很多问题。TextBlob的代码from tkinter import file

浏览 37提问于2019-11-18得票数 1

1回答

在word2vec gensim模型中添加词嵌入

python、nlp、word2vec

我正在寻找一种方法，在word2vec gensim模型中添加预先训练过的单词向量。我在txt中有一个经过预先训练的word2vec模型(单词及其嵌入)，我需要获取特定语料库中的文档和新文档之间的Word Mover的距离(例如通过)。为了避免加载整个词汇表的需要，我只想加载在语料库中找到的预先训练过的模型<e

浏览 3提问于2017-04-24得票数 6

1回答

如何保存为gensim* word2vec文件？*

gensim、word2vec

我有两个列表，A是一个单词列表，例如“你好”、“世界”、.，Len(A)是10000。列表B包含与A对应的所有预训练向量，即10000, 512,512是向量维数。我想将两个列表转换成gensim word2vec模型格式，以便在以后加载模型，例如model = Word2Vec.load("word2vec.model")，我应该如何做到这一点？

浏览 3提问于2019-10-15得票数 3

回答已采纳

1回答

我正在尝试将矩阵转换为gensim可以接收到的类型。AuthorTopic模型，这意味着我应该将矩阵转换为稀疏向量。我已经在gensim中尝试过几个函数，比如gensim.matutils.full2sparse和gensim.matutils.any2sparse。但有些地方出了问题：matrix=numpy.array([[1,0 ,1],[0,1,1]])print(matrix) print

浏览 3提问于2022-04-11得票数 0

1回答

绘制条件频率分布时以百分比格式显示y轴

python、matplotlib、nltk

当绘制文本语料库中某些单词的条件频率分布时，y轴显示为计数，而不是百分比我遵循Steven Bird，Ewan Klein和Edward Loper在"Natural Language Processingwith Python“中概述的代码，以显示不同语言的UDHR在Jupyter Notebook中的单词频率分布。for word in udhr.

浏览 23提问于2019-04-01得票数 2

回答已采纳

3回答

如何度量单词或非常短的文本之间的相似度

elasticsearch、nlp、word2vec、nearest-neighbor、word-embedding

我的工作是在文档列表中查找最近的文档。每个文档都是一个单词或一个非常短的句子(例如“牛仔裤”或“机床”或“生物番茄”)。我所说的最接近是指语义上的接近。我试着使用word2vec嵌入(出自Mikolov文章)，但是最接近的词或者更多的上下文关联而不是语义关联("jeans“链接到”鞋“，而不是预期的”裤子“)。我曾尝试

浏览 63提问于2020-03-26得票数 0

1回答

在keras中结合使用Gensim* Fasttext模型和LSTM nn*

tensorflow、keras、nlp、gensim、word-embedding

我已经用Gensim在非常短的句子(最多10个单词)语料库上训练了快速文本模型。我知道我的测试集中包含不在我的训练语料库中的单词，即我的语料库中的一些单词，如“催产素”、“来曲霉素”、"Ematrophin“、”Betaxitocin“。给定测试集中的一个新词，fasttext非常清

浏览 25提问于2020-07-06得票数 4

回答已采纳

1回答

加载预训练的Word2Vec模型后，如何获得新句子的word2vec表示？

cluster-analysis、gensim、word2vec

我使用Google News数据集加载了一个word2vec模型。现在，我想要获得我希望聚类的句子列表的Word2Vec表示。在浏览完之后，我找到了这个gensim.models.word2vec.LineSentence，但我不确定这就是我要找的。应该有一种方法可以从预先训练的模型中获得句子列表的word2vec表示，对吗？我搜索的链接中没有任何关于它的内容。任何线索都将不胜感激。

浏览 1提问于2017-07-13得票数 0

回答已采纳

1回答

加速Gensim的大规模数据集的Word2vec

gensim、word2vec、fasttext

我试图在一个庞大的数据集上使用Gensim构建一个Word2vec (或FastText)模型，该数据集由1000个文件组成，每个文件包含大约21万个句子，每个句子包含大约1000个单词。训练是在一台185 on内存，36核机器上进行的。我验证了首先，我尝试了以下几点：

浏览 4提问于2020-01-26得票数 3

2回答

将word2vec融入具有数据帧结构的训练集中

python、machine-learning、nlp

我是NLP的乞丐，我有一些关于分类任务的问题。我在数据帧结构中有一个数据集，其中包含两列，第一列是文本(所以字符串)，第二列在每个测试的标签中。为了应用MLP，我可以使用以下代码Test_X_Tfidf = Tfidf_vect.transform(x_tes

浏览 3提问于2021-06-01得票数 0

回答已采纳

1回答

词频对Gensim* LDA主题建模的影响*

python-3.x、gensim、lda、topic-modeling、word-frequency

我正在尝试使用Gensim LDA建模来建立食物食谱数据集的主题模型。我希望有基于食谱的关键成分的主题。但食谱文本包含了更多通用英语的单词，而不是配料名称。因此，我的主题结果并不像预期的那样好。我正在尝试理解词频在LDA主题结果中的影响。谢谢。

浏览 6提问于2020-03-14得票数 1

1回答

如何使用Scikit学习在语料库中获取单词/术语频率？

python、scikit-learn

我有一个文档的语料库，我想提取每个文档中的单词频率。我可以使用CountVectorizer()来获取每个文档的术语计数，我也可以使用TfidfVectorizer()获取术语频率--反向文档频率，但这两种方法似乎都不能单独给出术语频率。这个似乎问我的问题，但问题和答案有关的术语计数，而不是术语频率。也许是我误解了这些术语，但我的</em

浏览 4提问于2021-06-08得票数 3

回答已采纳

2回答

从不同的word2vec模型组合/添加向量

python、gensim、word2vec、training-data、corpus

我正在使用gensim创建大型文本语料库培训的Word2Vec模型。我有一些基于StackExchange数据转储的模型。我也有一个来自英语维基百科语料库的模型。有没有办法组合或添加两个独立模型中的向量，以创建一个具有相同单词向量的单一新模型，如果我最初将两个语料库合并，并对这些数据进行培训，就会产生相同的单词向量？我想这样做的

浏览 0提问于2019-01-17得票数 1

回答已采纳

1回答

从gensim模型中提取令牌频率

python、gensim

像和这样的问题给出了从gensim word2vec模型中检索词汇频率的答案。出于某种原因，他们实际上只是给出了一个从n(vocab的大小)到0的反推荐计数器，以及最常见的有序标记。

浏览 1提问于2020-10-01得票数 0

回答已采纳

2回答

使用平均方法从word2vec词向量计算句子向量的具体步骤是什么？

python、vector、nlp、word2vec、sentence

初学者的问题，但我对此有点困惑。希望这个问题的答案也能对其他NLP初学者有所帮助。我知道您可以从word2vec生成的单词向量计算句子向量。但是，制作这些句子向量的实际步骤是什么呢？有人能提供一个直观的例子和一些计算来解释这个过程吗？假设我有一个句子，里面有三个单词:今天很热。假设这些单词的假设向量值为：(1,2,3)(4,5,6)(7,8,9)。我是否通过对这些单词向量进行分量平均来获得句子向

浏览 3提问于2017-08-12得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Gensim上反复训练Word2Vec有困难

将单词数组和向量数组相结合构成Gensim W2V模型

我能不能把简单的编码向量而不是原始句子直接输入到PYTHON模块word2vec.Word2Vec中？

Gensim doc2vec关于ngram的培训

确定文本语言和纠正python中的打字错误的最佳算法是什么？

在word2vec gensim模型中添加词嵌入

如何保存为gensim* word2vec文件？*

如何将矩阵转换为BoW格式？

绘制条件频率分布时以百分比格式显示y轴

如何度量单词或非常短的文本之间的相似度

在keras中结合使用Gensim* Fasttext模型和LSTM nn*

加载预训练的Word2Vec模型后，如何获得新句子的word2vec表示？

加速Gensim的大规模数据集的Word2vec

将word2vec融入具有数据帧结构的训练集中

词频对Gensim* LDA主题建模的影响*

如何使用Scikit学习在语料库中获取单词/术语频率？

从不同的word2vec模型组合/添加向量

从gensim模型中提取令牌频率

使用平均方法从word2vec词向量计算句子向量的具体步骤是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐