python单词向量_通过单词的频率向量来向量化单词列表_向量化器Python中的单词组合 - 腾讯云开发者社区

python、vector、scikit-learn、tf-idf、lsa

有没有人对如何使用Python和scikit将文档中的单词转换为LSA向量有任何建议？我发现这些站点和限制了如何将整个文档转换为lsa向量，但我感兴趣的是转换单个单词本身。最终的结果是将每个句子的所有向量(代表每个单词)相加，然后比较连续句子，以评估语义相似性。

浏览 5提问于2017-01-10得票数 0

回答已采纳

1回答

如何在spacy中保存单词向量

python、python-3.x、nlp、spacy

我有以下代码。目标是获得列表中每个单词的向量表示。我的意图是将这些单词向量用于其他应用目的，如单词聚类。 import numpy as np import pandas as pd from sklearn.preprocessing import normalize import en_vectors_web_lg nlp = en_vectors_web_lg.load() def vectorize(text): return nlp(text, disable=['parser', 'tagger', 'ner']).ve

浏览 29提问于2020-06-28得票数 0

回答已采纳

1回答

上下文敏感张量与词向量的区别

python、nlp、spacy

我目前在python中使用spacy，有不同的预先训练过的模型，如en_core_web_sm或en_core_web_md。它们中的一种是使用单词向量来寻找词的相似性，另一种是使用上下文敏感的张量。使用上下文敏感的张量和使用单词向量有什么区别？语境感知张量到底是什么？

浏览 0提问于2019-11-04得票数 2

回答已采纳

1回答

gensim doc2vec模型无法学习某些单词

python、gensim、doc2vec

我目前正在学习Python3.6中的gensim doc2model，以查看句子之间的相似性。我创建了一个模型，但当我输入一个明显存在于训练数据集中的单词来查找相似的单词/句子时，它会返回KeyError: "word 'WORD' not in vocabulary"。它会自动跳过一些对定义句子不是很重要的单词吗？或者这只是一个bug或者别的什么？非常感谢，如果我可以有任何方法来涵盖所有出现在数据集中的单词。谢谢。

浏览 0提问于2019-05-13得票数 0

2回答

Word2vec:在每个上下文中添加外部单词

nlp、word2vec

我正在寻找一个简单的"hack“来实现以下想法:我想让一个特定的单词人为地出现在每个单词的上下文中(潜在目标是尝试使用word2vec进行有监督的句子分类)。最好的例子是：假设我有这样一句话："The dog is in the garden"，a window of 1。因此，我们将获得以下pais (target，context)： (dog, The), (dog, is), (is, dog), (is, in), etc. 但我想提供给word2vec算法的是： (dog, The), (dog, is), **(dog, W)**, (is, dog)

浏览 18提问于2017-06-28得票数 1

回答已采纳

1回答

Python如何在csv文件中将一袋单词应用于tweet

python、twitter、scikit-learn、nlp、nltk

我目前正在进行twitter数据分析，并一直致力于在Python中应用单词打包技术，但一直没有成功。目前，我已经能够通过一些预处理将数据流存储在数据库中，然后我将tweet导出到csv文件中，但无意中发现了下一部分使用单词袋来进行机器学习。我尝试过跟踪，但是我没有成功，也无法理解如何通过查看scikit或nltk文档来解决问题。有人能建议我可以遵循的教程来用Python 3实现一袋单词吗？谢谢你的帮助

浏览 4提问于2017-12-03得票数 0

回答已采纳

1回答

如何获取python中gensim中单词的最近文档

python、gensim、word2vec、doc2vec

我使用doc2vec模型构建文档向量，如下所示。 from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [description[0]] words = descrip

浏览 1提问于2019-07-22得票数 1

回答已采纳

1回答

在特定单词之前搜索最多3个单词的数值

r、regex

在一个特定的单词之前，我们可以通过regex搜索最多3个单词的数值，比如years吗？在下面的示例中，我在years之前搜索一个单词，它可以工作，但是如果查看第三个元素，它会返回more。这里我需要2代替。XX or more years的模式不是固定的，因此我试图在years之前找到最多3个单词的数值 Description <- c("Candidate having bachelor degree. Minimum 5 years in R", "Excellent academic background plus 3 years of experience

浏览 3提问于2022-03-27得票数 1

回答已采纳

1回答

如何从手套的预训练词嵌入查询？

python、word2vec

在Python中查询预先训练过的手套(或类似的)单词嵌入的推荐方法是什么？我能想到的一个选择是：从下载所有预先训练过的单词嵌入向量把它们放在Python字典中一个接一个地嵌入单词。(即从Python字典中检索值) 上述方法的问题是，首先需要将整个数据复制到磁盘，然后需要将2G数据加载到RAM，这两者都可能是太昂贵的。这是标准的方式吗？比如从在线引擎上查询？还是其他方式？

浏览 2提问于2017-05-19得票数 2

1回答

除了将预先训练好的单词嵌入完全加载到内存之外，还有什么替代方法吗？

python、machine-learning、memory-management、nlp、word-embedding

我想在我的机器学习模型中使用预训练的单词嵌入。我的word embedings文件大约有4 4GB。我目前将整个文件读入字典的内存中，每当我想要将一个单词映射到它的向量表示时，我都会在该字典中进行查找。内存使用率非常高，我想知道是否有其他方法可以在不将整个数据加载到内存中的情况下使用单词嵌入。我最近遇到了Python中的生成器。它们能帮助我减少内存使用量吗？谢谢!

浏览 10提问于2019-03-19得票数 1

回答已采纳

1回答

学习:不要使用一些单词作为一个词的特征，而是在搭配中使用。

python、scikit-learn、text-classification

我正在使用Python和scikit进行文本分类--学习。现在，我使用TfidfVectorizer作为向量器(用于将原始文本转换为特征向量)，使用MultinomialNB作为分类器。我使用参数ngram_range = (1,2) (参见 )，例如我使用一个单词和bigram。经过分类和测试，我的算法在测试集和简历集，我想提高准确性。我看到了信息最丰富的特性(由于问题)。我看到，在集信息最多的特性中，我有单词( ngram=1)，它对分类没有影响，但是在bigram (单词搭配)中，它们会产生很大的影响。所以，我不能使用stop_words，因为Tfidfvectorizer不会在搭

浏览 3提问于2014-07-22得票数 1

回答已采纳

2回答

为什么mllib word2vec词向量只有100个元素？

apache-spark、pyspark、apache-spark-mllib、word2vec

我有一个在PySpark中创建的word2vec模型。模型将另存为.parquet文件。我希望能够使用vanilla Python访问和查询模型(或单词和单词向量)，因为我正在构建一个flask应用程序，它将允许用户输入感兴趣的单词来查找同义词。我已经提取了单词和单词向量，但我注意到虽然我有大约7000个唯一的单词，但我的单词向量有100个长度。例如，这里有两个单词“严重”和“中断”。它们的向量长度只有100。为什么会这样呢？那么它如何能够重建整个向量空间，每个单词只有100个值呢？它只是简单地给我前100个值还是前100个值？ vectors.take(2) Out[48]

浏览 0提问于2016-08-24得票数 0

3回答

用于网站分类的简单机器学习

machine-learning、artificial-intelligence、classification、cross-validation、text-classification

我试图生成一个Python程序，以确定一个网站是否有害(色情等)。首先，我制作了一个Python抓取程序，计算每个单词的出现次数。它是一个键值字典，类似于 { word：#出现在有害网站中，#包含这些单词的网站}。现在，我希望我的程序分析从任何网站的话，以检查网站是否安全。但我不知道哪种方法适合我的数据。

浏览 5提问于2017-07-12得票数 2

回答已采纳

1回答

NLP提取关联词

python-3.x、machine-learning、nlp

我是NLP算法的新手。我正在使用法语的python 3。我想从属于一起的文本中提取一组单词。例如“左脚”“瓶装水”。如何找到从文本/句子中提取一组单词的规则。 (附言:我是法国人，如果我不能很好地表达自己，很抱歉) 谢谢

浏览 1提问于2018-02-22得票数 0

2回答

获取最相似的单词，给定单词的向量(而不是单词本身)

python、gensim、word2vec

使用gensim.models.Word2Vec库，您可以提供一个模型和一个要查找最相似单词列表的“单词”： model = gensim.models.Word2Vec.load_word2vec_format(model_file, binary=True) model.most_similar(positive=[WORD], topn=N) 我想知道是否有可能为系统提供模型和“向量”作为输入，并要求系统返回最相似的单词(它们的向量与给定的向量非常接近)。类似于： model.most_similar(positive=[VECTOR], topn=N) 我需要为双语设置此功能，其中我有

浏览 4提问于2016-06-15得票数 23

2回答

将Python字典转换为Word2Vec对象

python、scikit-learn、data-visualization、word2vec

我已经在python中获得了一个字典，将单词映射到它们的向量，并且我试图把n个最相似的单词分散开来，因为TSNE对大量的单词要花费很长时间。最好的选择是将字典转换为w2v对象来处理它。

浏览 3提问于2017-08-31得票数 4

回答已采纳

1回答

如何用gensim处理KeyError(f"Key '{key}‘to“) wor2vec

python、nlp、gensim、word2vec、keyerror

我用gensim库建立了一个模型，并试图得到词汇表中没有的单词向量，但是我有一个错误，我想用最好的方法来处理这个错误。如果我能得到模型中不存在的单词向量，那就很完美了。代码 model = KeyedVectors.load('nice.model') token_vector = model.wv['bla bla bla'] 误差 File "/home/ahmed/PycharmProjects/WebScarping/venv/lib/python3.9/site-packages/gensim/models/keyedvectors.py

浏览 42提问于2022-06-02得票数 0

回答已采纳

1回答

更新谷歌新闻Word2vec词嵌入？

word2vec、word-embeddings、nlp、gensim

可以用自定义文本数据集(属于特定域的文本数据)更新Google嵌入吗？ -字嵌入谷歌新闻Word2Vec显然帮助我们提供了一组健壮的单词向量，但不幸的是，它不能用于大多数业务案例。例如： embeddings.most_similar('python') [('pythons', 0.6688377857208252), ('Burmese_python', 0.6680365204811096), ('snake', 0.6606293320655823), ('crocodile', 0.6591362

浏览 0提问于2018-12-05得票数 2

回答已采纳

1回答

我应该使用哪种算法来基于集合对单词进行聚类

python、scikit-learn

我有以下问题。我有一个包含多行单词的大型数据集。因此，即 apple,door,wood window,door,house boot,pie,dessert 我想从所有这些单词中创建4个类别，然后将新的一行单词与4个类别中的一个匹配。单行中的单词以某种方式联系在一起，但我不知道我是如何获得一行单词的。在scikit-learn或其他python包中有没有算法可以用来做这件事？编辑：我发现我给了很少的信息。这些词可以是示例中网页的关键字，然后我想根据这些关键字选择一个类别，这样我就可以对下一篇文章的阅读内容提出建议。然而，我不想创建太多的类别，所以我想组合类别。因此，如果结果是“d

浏览 0提问于2016-11-21得票数 0

1回答

MultinomialNB -理论与实践

python、machine-learning、scikit-learn、text-classification、multinomial

好的，我只是在学习安德鲁·吴的机器学习课程。目前，我正在阅读，并希望使用SKLearn和Python来尝试多项朴素贝叶斯(第12页底部)。所以Andrew提出了一种方法，在这种情况下，每封电子邮件都是这样编码的我们让x_i表示电子邮件中i-th单词的标识。因此，x_i现在是在{1, . . . , |V|}中取值的整数，其中|V|是词汇表(字典)的大小。由n个单词组成的电子邮件现在用长度为(x1, x2, . . . , xn)的向量n 表示，n可以因不同的文档而变化。例如，如果电子邮件以“A NIPS . . . ,”开头，那么x_1 = 1 (“a”是字典中的第一个单词)和x2 = 3

浏览 1提问于2017-02-09得票数 4

回答已采纳

1回答

在哪里可以下载预先训练好的word2vec地图？

python、nlp、word2vec、word-embedding

我一直在学习NLP模型，并遇到了单词嵌入，并看到了一些示例，其中可以通过计算单词的点积等来查看单词之间的关系。我正在寻找的只是一个字典，将单词映射到它们的代表向量，这样我就可以玩它了。我知道我可以构建一个模型并对其进行训练，然后创建我自己的地图，但是我只想把已经训练好的地图作为一个python变量。

浏览 21提问于2020-01-04得票数 1

回答已采纳

1回答

如何从word2vec模型中计算句子嵌入？

python、nlp、word-embeddings、word2vec

我是NLP新手，我正在尝试执行集群问题的嵌入。我已经使用Python的word2vec库创建了gensim模型，但我想知道以下几点： word2vec模型将单词嵌入到vector_size大小的向量中。然而，在聚类方法的进一步步骤中，我意识到我是基于单个单词进行聚类，而不是在开始时我在数据集中的句子。假设我的词汇表由foo和bar两个单词组成，映射如下： foo：0.0045，-0.0593，0.0045 bar：-0.943，0.05311，0.5839 如果我有一个句子bar foo，我如何嵌入它？我是说，怎么才能得到整个句子的向量呢？提前谢谢。

浏览 0提问于2022-02-14得票数 0

1回答

如何从谷歌的预训练模型中获取word2vec

nlp、nltk、gensim、word2vec

我想获取单词的向量表示。我尝试使用GENSIM api，但得到了与此处相同的错误(对于Python3.6)：ValueError when downloading gensim data set 从预先训练的模型中提取向量的最佳方法是什么？

浏览 28提问于2021-08-08得票数 0

1回答

基于手套-python模型的词嵌入字典

python、python-3.x、nlp、word-embedding

我使用Maciejkula的实现()在python中训练了一个手套模型。下一步，我需要一个字对嵌入字典。然而，我似乎找不到一种简单的方法从我训练的手套模型中提取出这样一本字典。我可以通过访问model.word_vectors来提取嵌入，但这只能返回一个包含向量的数组，而不需要映射到相应的单词。还有包含字到索引对的model.dictionary属性。我认为这些索引可能对应于model.word_vectors数组中的嵌入索引，但我不确定这是否正确。索引是对应的还是有另一种从手套-python模型中获得单词到嵌入字典的简单方法？我意识到问了我类似的更广泛的问题，但是由于没有人回答，我想我

浏览 2提问于2018-01-02得票数 2

2回答

fastText生成零向量

python、spatial、word-embedding、fasttext

我在计算fastText产生的嵌入上的余弦相似度时遇到了以下错误： /home/kgarg8/anaconda3/envs/CiteKP/lib/python3.6/site-packages/scipy/spatial/distance.py:721: RuntimeWarn ing: invalid value encountered in float_scalars dist = 1.0 - uv / np.sqrt(uu * vv) 相关代码片段： # fa

浏览 54提问于2021-11-06得票数 0

回答已采纳

1回答

如何获得r dataframe中描述中的单词的超链接？

r、loops、hyperlink、pattern-matching、gsub

我有一个有文字和描述的数据。要求检查单词列中的任何单词是否存在于描述中。基本上，我们必须对所有的描述运行所有的单词，如果这些词存在，我们必须在描述中超链接这些单词。我试过gsub，如代码所示。这是一个例子。实际数据约为30k行。 data = data.frame("word"=c('python py', 'java'), "description"=c('Java is a statically typed and Python py is a dynamically typed', 'java

浏览 0提问于2019-08-17得票数 0

回答已采纳

1回答

用gensim加载部分手套向量

python、gensim、word-embedding、glove

我有一个像['like','Python']这样的单词列表，我想加载这些单词的预先训练过的手套单词向量，但是Glove文件太大了，有什么快速的方法吗？我试过什么我遍历了文件的每一行，以查看单词是否在列表中，并将其添加到dict中。但是这个方法有点慢。 def readWordEmbeddingVector(Wrd): f = open('glove.twitter.27B/glove.twitter.27B.200d.txt','r') words = [] a = f.readline() w

浏览 0提问于2019-04-19得票数 0

回答已采纳

1回答

keras中的输入是如何获取的？

python-3.x、keras

有人能解释一下使用python和keras将每个输入输入到神经网络中的逻辑吗？我正在处理文本数据集，所以很明显它是一个单词，但是如何将每个单词作为输入输入到网络中呢？代码如下： model = models.Sequential() model.add(layers.Dense(8, activation='relu', input_shape=(4000,))) model.add(layers.Dense(8, activation='relu')) model.add(layers.Dense(1, activation='sigmoid'

浏览 2提问于2019-05-16得票数 0

1回答

word2vec向量[gensim库]的“大小”是什么意思？

python、gensim、word2vec、word-embedding

假设字典中有1000个单词(A1，A2，…，A1000)。据我所知，在单词嵌入或word2vec方法中，它的目标是用向量表示字典中的每个单词，其中每个元素表示该词与字典中剩余单词的相似性。正确的说法是每个向量中应该有999维，还是每个word2vec向量的大小应该是999？但是使用Gensim Python，我们可以修改Word2vec的" size“参数的值，在本例中我们假设size= 100。那么"size=100“是什么意思呢？如果我们提取A1的输出向量(x1，x2，.，x100)，那么x1，x2，. x100在这种情况下代表什么？

浏览 0提问于2018-12-03得票数 2

回答已采纳

1回答

Gensim Word2Vec模型在相同环境和平台下的两个编辑器中的不同结果

python、python-3.x、gensim、word2vec

我正在尝试应用Windows10机器python3.7中的gensim 3.6库中实现的word2vec模型。在执行预处理后，我有一个句子列表(每个句子都是一个单词列表)作为模型的输入。我在Anaconda's Spyder中计算了结果(使用Anaconda's Spyder获得了一个给定输入词的10个最相似的单词)，然后是Sublime Text编辑器。但是，对于在两个编辑器中执行的相同源代码，我得到了不同的结果。我需要选择的结果是什么以及为什么选择我正在指定通过在spyder和崇高文本中运行相同的代码获得的结果的屏幕截图。我需要获得10个最相似的单词的输入单词是#u

浏览 0提问于2018-12-04得票数 0

回答已采纳

1回答

你能让word2vec分别使用左上下文和右上下文吗？

python、gensim、word2vec

我目前正在通过gensim使用word2vec。您可以轻松地设置上下文大小(这将设置要考虑的中心词左侧和右侧的单词数)。有时，将左边的单词与右边的单词分开考虑会更好。这将为每个单词提供两个嵌入。这可以在gensim或任何其他python兼容工具中完成吗？

浏览 19提问于2020-07-26得票数 1

1回答

word2vec的向量元素？

nlp、word2vec

在word2vec中，我理解选择一个向量的大小，比如100，会给我一个单词向量，它在单词和语料库中的其他100个单词之间有相关性(某种程度)。我的问题是，这100个单词对每个单词都一样吗？

浏览 0提问于2021-10-26得票数 1

2回答

函数Grepl (R)在Python中的类似用法

python、r

我试图用Python编写下面的代码，我已经用R编写了这些代码，这非常简单，但是我在Python中非常新。如果df$text中存在任何单词(来自words列表)，则我将文本列赋值为1到pos_d列。任何帮助都将不胜感激。 wordlist<-list("word1|word2") df$pos_d <- grepl(wordlist, df$text) df$pos_d [df$pos_d == "true"] <- 1

浏览 9提问于2020-01-02得票数 1

回答已采纳

1回答

将快速文本向量转换为word

python、nlp、data-science、gensim、fasttext

我在将一个快速的FastText向量转换回一个单词时遇到了问题。下面是我的python代码： from gensim.models import KeyedVectors en_model = KeyedVectors.load_word2vec_format('wiki.en/wiki.en.vec') vect = en_model.get_vector("turtles") 我如何获取向量(特别是具有适当维数的任意向量)并让它发出一个单词？

浏览 1提问于2018-11-07得票数 3

1回答

文本中单词的位置

python、nltk

Python的NLTK包有一个函数分散图，它显示文本中所选单词的位置。是否有任何可以在python中计算的关于这种色散的数值度量？我想衡量一下“金钱”这个词是否分散在课文中，或者更确切地说是集中在一章中？

浏览 2提问于2016-11-30得票数 2

回答已采纳

1回答

Python -数据编码向量到Word

python、machine-learning、nlp、gensim、word2vec

我有一个把单词转换成矢量的代码。下面是我的代码： # word_to_vec_demo.py from gensim.models import word2vec import logging logging.basicConfig(format='%(asctime)s : \ %(levelname)s : %(message)s', level=logging.INFO) sentences = [['In', 'the', 'beginning', 'Abba','Yahweh', &

浏览 0提问于2018-11-12得票数 0

回答已采纳

1回答

什么是文字的视觉袋，它是如何实现的？

python、classification、scikit-learn

我目前正在用Python实现一包可视单词。我知道它是如何工作的，但是我似乎找不到更详细地解释它的任何来源，我可以实现它的水平。我猜科学知识和科学图像会出现，但我似乎不能指出自己在正确的方向。有什么帮助吗？

浏览 0提问于2016-03-01得票数 1

1回答

导出R text2vec矢量以在Python中的Gensim中使用

python、r、gensim、text2vec

我之前已经使用text2vec库在R中创建了GloVE向量。有没有什么简单的方法可以将它们导出到Python中使用，在Python中我有脚本可以与Gensim创建的单词矢量进行比较/比较？我知道有一个特定的word2vec c_format，但我不确定R是否有能力产生这个。

浏览 13提问于2020-08-18得票数 1

2回答

如何在doc2vec中找到文档中最相似的术语/单词？

python、cluster-analysis、gensim、word2vec、doc2vec

我应用Doc2vec将文档转换为vectors.After，在聚类中使用向量，并计算出与每个集群的质心最接近/最相似的5个文档。现在，我需要找到这些文档中最主要或最重要的术语，以便我能够了解每个集群的特征。我的问题是，在Doc2vec中，是否有任何方法可以找出文档中最主要或最简单的术语/单词。我正在使用python的gensim包作为Doc2vec实现

浏览 3提问于2017-09-05得票数 0

回答已采纳

1回答

如何找到两个角膜pad_sequences之间的密切关系？

tensorflow、keras

我正在编写一个概念的小证明，其中我将目录转换为一个json，其中包含一个url，以及一个解释网页的标签。我在python中阅读了这个json，将其标记化并创建了一个pad_sequences。然后，我需要比较一些自由流文本，以找出pad_sequences的哪个索引从自由流文本中有最多的单词。我也在从文本中生成一个pad_sequences()，但不确定我是否能够以某种方式比较这两个序列，以求接近？请帮帮忙。

浏览 3提问于2022-02-17得票数 0

1回答

如何为POS标签生成GloVe嵌入？Python

python-3.x、machine-learning、nlp、spacy、word-embedding

对于句子分析任务，我想要获取与句子相关的POS标签序列，并将其提供给我的模型，就像POS标签是单词一样。我使用GloVe对句子中的每个单词进行表示，使用SpaCy生成POS标记。但是，对于POS标记来说，GloVe嵌入没有多大意义。因此，我将不得不为每个POS标记创建嵌入。创建POS标签嵌入的最佳方法是什么，这样我就可以以相同的方式将POS序列输入到我的模型中？有人能指出如何用Python中的GloVe来实现这一点的代码示例吗？添加了上下文我的任务是根据句子对的相似性(相似的意义和不同的意义)对它们进行二元分类。我想使用POS标签作为单词，以便POS标签作为一个额外的信息来比较句子。我

浏览 0提问于2018-04-12得票数 3

回答已采纳

1回答

计算两个向量之间的相似性

python-3.x、nlp、gensim、lda、spacy

我用topic_number=5在一个文档集上做了LDA。因此，我有五个单词向量，每个单词都有一个权重或重要程度，如下所示： Topic_A = {(word_A1,weight_A1), (word_A2, weight_A2), ... ,(word_Ak, weight_Ak)} Topic_B = {(word_B1,weight_B1), (word_B2, weight_B2), ... ,(word_Bk, weight_Bk)} . . Topic_E = {(word_E1,weight_E1), (word_E2, weight_E2), ... ,(word_Ek, we

浏览 0提问于2018-05-22得票数 2

1回答

如何在gensim中获得一个词与一个文档的相似性

python、search、gensim、word2vec、doc2vec

因此，我已经开始学习word2vec和doc2vec的gensim，它可以工作。相似的分数真的很好用。然而，对于一个实验，我想优化一个基于关键词的搜索算法，方法是比较一个单词，并了解它与一段文本有多相似。做这件事最好的方法是什么？我考虑过将文本中所有单词的单词向量平均(可能先删除、填充和停止单词)，并将其与搜索单词进行比较？但这真的只是直觉，怎样才是最好的方法呢？

浏览 0提问于2018-07-04得票数 0

回答已采纳

1回答

用gensim和预训练的KeyError模型管理word2vec

python、nlp、gensim

我使用wang2vec ()预训练了一个单词嵌入，并通过gensim将其加载到python中。当我试图得到一些单词的向量时，我显然得到了： KeyError: "word 'kjklk' not in vocabulary" 因此，我考虑在词汇表中添加一个项来映射oov (Oov)单词，比方说<OOV>。由于词汇表是Dict格式的，所以我只需添加项{"<OOV>":0}。但是，我搜索了一项词汇 model = gensim.models.KeyedVectors.load_word2vec_format(w2v_ext,

浏览 2提问于2019-04-15得票数 0

回答已采纳

3回答

为什么word2vec词汇表长度不同于单词向量长度

machine-learning、text-classification、gensim、word2vec

我从上读到了Kaggle的word2vec示例，我不明白为什么模型的词汇表长度与单词向量长度不同。单词向量中的每个单元不都表示与词汇表中其他单词的关系，因此每个单词都有相互之间的关系吗？如果不是，那么单词向量中的每个单元代表什么？真的很感谢你的帮助。

浏览 2提问于2016-03-15得票数 1

1回答

word2vec如何从向量中获取单词？

machine-learning、gensim、word2vec

我用安从单词中预测单词。输入和输出都是单词向量。我不知道如何从ANN的输出中得到单词。顺便说一句，这是我用的天才

浏览 0提问于2016-03-10得票数 3

回答已采纳

1回答

doc2vec: PV是如何实现的

machine-learning、nlp、neural-network、gensim、word2vec

我知道python (gensim)中已经存在一个python(段落向量)的实现。但我有兴趣知道如何自己实现它。对PV的解释如下：另一种方法是忽略输入中的上下文词，而是强制模型预测输出中段落中随机抽取的单词。实际上，这意味着在随机梯度下降的每一次迭代中，我们采样一个文本窗口，然后从文本窗口中抽取一个随机单词，并在给定段落向量的情况下形成一个分类任务。根据本文的说法，单词向量不被存储，PV的工作原理类似于word2vec中的跳过图。 Skip-gram在中有解释.在跳格模型中，将单词向量映射到隐藏层。在培训期间，将更新执行此映射的矩阵。在PV中，隐藏层的维数应该是一个段落向量的维数。

浏览 3提问于2016-03-15得票数 9

1回答

具有字嵌入的字级文本生成-输出一个词向量而不是一个概率分布

nlp、rnn、word-embeddings、text-generation

我目前正在为我的大学项目研究文本生成的主题。我决定(ofc)使用一个RNN，获取一个令牌序列作为输入，目标是预测给定序列的下一个令牌。我已经阅读了很多教程，有一件事我很好奇。我所读到的源，无论它们如何编码X序列(一个热的或字的嵌入)，都将y目标令牌编码为一个单一热向量，以将网络输出解释为所有可能的令牌的概率分布。这样，任务实际上是一个多类分类问题(例如。如此处所示https://machinelearningmastery.com/develop-word-based-neural-language-models-python-keras/)。我确实计划将我的X序列编码成向量序列，将每个令牌

浏览 0提问于2021-12-14得票数 0

1回答

有没有办法使用sklearn TF-IDF模型来解决单词类比问题？

python、scikit-learn、nlp

我已经使用Python的sklearn库使用我自己的数据集拟合了TF-IDF模型： tfidf_featuriser = sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None) tfidf_featuriser.fit(documents) tfidf_docterm_matrix = tfidf_featuriser.transform(documents) 我正在尝试解决单词类比(男人：：国王作为女人：：皇后)，因为它可以用gensim的Word2Vec模型来做。到目前为止，我已经尝试了以下几种方法： vec1 =

浏览 21提问于2021-02-09得票数 2

回答已采纳

1回答

如何在Spacy中为OOV术语指定词向量？

python、word2vec、spacy

我有一个预先训练好的word2vec模型，我将其加载到spacy中以向量化新单词。给定新文本，我执行nlp('hi').vector来获得单词'hi‘的向量。最终，一个新词需要被矢量化，这在我的预训练模型的词汇表中并不存在。在这个场景中，spacy默认是一个用零填充的向量。我希望能够为OOV术语设置此默认向量。示例： import spacy path_model= '/home/bionlp/spacy.bio_word2vec.model' nlp=spacy.load(path_spacy) print(nlp('abcdef'

浏览 40提问于2019-08-26得票数 1

回答已采纳