gensim word2vec非常大，有什么方法可以让文件变小？

文章/答案/技术大牛

发布

2回答

python、gensim、word2vec

我有一个使用skipgram预先训练好的word2vec bin文件。这个文件非常大(向量尺寸为200 )，超过2 2GB。我正在考虑一些方法来使文件更小。这个bin文件包含标点符号的向量，以及一些停用的单词。因此，我想知道有哪些选项可以减少此word2vec的文件大小。删除那些标点符号和停止字行是否安全?最有效的方法是什么？

浏览 53提问于2019-09-24得票数 0

回答已采纳

1回答

用PathLineSentences在gensim word2vec中嵌入多词ngram短语

python、gensim、word2vec

我有大约82个gzipped文件(每个文件大约180 82，总计14 82)，其中每个文件包含新的行分隔语句。我正在考虑使用gensim Word2Vec的来训练词汇表上的word2vec模型。现在我还想让嵌入包含多个单词的短语。但是从来看，我似乎需要一个已经训练过的短语检测器和我所有的句子。from gensim.models import Phrasesbigram_tran

浏览 2提问于2021-01-05得票数 0

回答已采纳

2回答

未找到模块的Pickle

python、pickle、gensim

我没有Linux，所以不能安装代码使用的word2vec包，但它只用于加载预先训练好的word2vec模型，所以Gensim应该可以完成这项工作。当我试图打开这个文件时，我得到了ModuleNotFoundError No module named 'word2vec'。我进入了pickle文件(在记事本中)，并将开头的word2vec更改为gensim.models.word2vec，但随后我获得了ModuleN

浏览 1提问于2020-12-03得票数 0

1回答

Gensim库是否支持GPU加速？

optimization、gpu、gensim、deeplearning4j

使用Gensim提供的Word2vec和Doc2vec方法，他们有一个使用BLAS、ATLAS等来加速的分布式版本(details )。但是，它是否支持GPU模式？如果使用Gensim，可以让GPU正常工作吗？

浏览 131提问于2016-09-18得票数 20

1回答

加载在Gensim中创建的自定义受过训练的单词向量到Spacy有困难

python-3.x、spacy、gensim

我训练过一个模特：但是，有些地方出了问题，因为我不能在nlp上使用公共命令，而在model上可以。'most_similar' AttributeError: 'English' object has no attribute

浏览 0提问于2020-03-26得票数 0

回答已采纳

2回答

Word2Vec中每个单词的向量的理想“大小”是多少？

python、python-3.x、machine-learning、nlp、word2vec

我有一个100多万行的数据集。每行都有40个标记词。在此基础上，利用神经网络进行分类。词汇量是两万个独特的单词。这是一个二进制分类问题。我将gensim Word2Vec中向量的大小(维度)设置为150，并将这些向量保存到json文件中的每个数据点。json文件的大小非常大: 250 GB。因为我的RAM只有128 GB，所以我不能在一勺中将这个文件加载到内存中。我试图通过把这些矢量缩小到合适的尺寸来减小它们的物理尺寸。我浏览了一些在这个网站上提出的建议，比如。以下是我

浏览 8提问于2022-06-21得票数 0

回答已采纳

5回答

python word2vec未安装

python、pip、gnuwin32、word2vec

我一直试图使用Python2.7解释器在我的Windows7计算机上安装word2vec： Traceback (most recent call last):WindowsError: [Error 2] The system cannot find the

浏览 6提问于2014-09-03得票数 10

回答已采纳

14回答

如何用python的gensim word2vec模型计算句子相似度

python、gensim、word2vec

根据，我可以使用gensim软件包中的word2vec模型来计算两个词之间的相似度。例如：0.73723527 然而，word2vec模型无法预测句子的相似性。在gensim中，我发现了具有句子相似性的LSI模型，但这似乎不能与word2vec模型相结合。我的每句话的语料库都不长(短于10个字)。那么，有什么简单的方法<

浏览 13提问于2014-03-02得票数 144

回答已采纳

1回答

如何在gensim的word2vec模型中嵌入用户名

python、gensim、word2vec

我有一些志愿者的论文，格式如下： volunteer_names, essaysentences = [['first', 'sentence'], ['second', 'sentence']] #

浏览 8提问于2020-04-21得票数 0

回答已采纳

1回答

词性标注中的Word嵌入/Word 2vec

neural-network、nlp、deep-learning、rnn、word2vec

我正在构建一种基于深度学习的实体检测和关系分类方法，该方法需要对POS标签和实体标签进行矢量表示。我熟悉文字嵌入方法，但我不知道以下问题的答案：如何将词嵌入和pos嵌入结合起来构建分类器。在交叉验证社区中也提出了类似的问题，但我找不到答案。

浏览 0提问于2017-01-18得票数 7

回答已采纳

1回答

缺少Gensim* 4.2.0下载程序功能*

python、nlp、gensim、word2vec

我用的是Gensim软件包。但是，当我想加载word2vec模型时，gensim.downloader函数似乎不存在。w2v = gensim.downloader.load('word2vec-google-news-300')AttributeError: module 'gensim' hasno attribute 'downloader' 我使用dir()方法检查了gensim目录，

浏览 16提问于2022-08-01得票数 0

回答已采纳

1回答

Gensim word2vec培训在批处理结束时不回调

python、machine-learning、gensim、word2vec

我感兴趣的是在Gensim word2vec模型上放置一个回调，以便在每个批处理之后触发一些函数。根据documentation，可以在批处理结束或纪元结束时进行回调。要运行示例，请让corpus_filepath转到一个由不带标点符号的句子组成的以行分隔的文件(给定一行的句子中的单词应以空格分隔)。您可能还需要在Word2Vec实例化中更改workers。from gensim.models import Word2Vec from gens

浏览 18提问于2021-01-18得票数 0

回答已采纳

1回答

如何用Word2Vec进行预测？

python、gensim、word2vec、text-classification

, 'rb') as f: yield gensim.utils.simple_preprocess(line) logging.info ("Done reading data file") mode

浏览 0提问于2019-05-29得票数 1

2回答

使用Gensim在Python中重新训练预训练的单词嵌入

python-3.x、gensim、word2vec

我想使用的预训练嵌入是Google的Word2Vec，它位于GoogleNews-vectors negative300.bin文件中。根据Gensim的word2vec教程，“不可能使用C工具load_word2vec_format()生成的模型恢复训练。您仍然可以使用它们进行查询/相似性，但训练所需的重要信息(词汇树)在那里缺失。”(more_sentences)但是，当我尝试这样做时： from gensim.models import Word2Vec<

浏览 0提问于2019-06-13得票数 1

7回答

如何使用Word2Vec获取单词列表的向量？

machine-learning、nlp、artificial-intelligence、word2vec

我想创建一个文本文件，它本质上是一个字典，每个单词都通过word2vec与其向量表示配对。我假设这个过程是首先训练word2vec，然后从我的列表中查找每个单词并找到它的表示形式(然后将其保存到一个新的文本文件中)？我是word2vec的新手，我不知道该怎么做。

浏览 2提问于2015-07-16得票数 17

2回答

什么是映射相似ngram的最佳方法？

python、nlp、nltk

实现这一目标的最佳方式是什么？我一直在想，到目前为止，我只想出了一个强力的方法，检查每个单词的每个同步集，并试图找到一个类似的单词，或者将它们作为一个新的实体添加。我想知道是否有更好的方法来实现这一点？older_lemma): print(syn) 理想情况下，我想把它扩展到n-gram，并且我正在寻找一种更好的方法来做到这一点我想的是一种粗糙但快速的相似算法，它可以给我一个粗略的表示，说

浏览 0提问于2018-08-17得票数 1

1回答

gensim除了创建.bin文件外，还会创建扩展名为.bin.trainables.syn1neg.npy和.bin.wv.vectors.npy的文件

python-2.7、gensim、word2vec

我正在使用python gensim为我的9300万个句子创建word2vec。然而，当我训练我的模型时，除了.bin之外，我还得到了三个文件作为输出，扩展名为.bin.trainables.syn1neg.npy和.bin.wv.vectors.npy。我看过了这里提供的答案：，它给出了为什么会发生这种情况的原因。然而，我想知道是否有一种方法可以将这些文件转换为普通的单个bin文件？

浏览 2提问于2018-10-23得票数 0

1回答

无法加载word2vec模型

python、gensim

我在本地机器上使用gensim训练了一个word2vec模型，并将所有文件上传到AWS。我能够在本地机器上加载模型，但是在AWS上加载# LOCAL MACHINE from ge

浏览 11提问于2022-03-03得票数 0

回答已采纳

2回答

基于预定义字典和词索引数据的Gensim word2vec

python、nlp、gensim、word2vec

我需要使用gensim在tweet上训练一个word2vec表示。与我在gensim上看到的大多数教程和代码不同，我的数据不是原始的，而是已经进行了预处理。一种简单的方法是将索引列表转换为字符串列表(即0、1、2、3、6 -> '0‘、'1’、'2‘、'3’、'6')。然而，这必须是低效的，因为gensim随后将试图查找用于例如“2”的内部索引。如何加载这些数据并使用gensim高效地创建word2vec

浏览 0提问于2016-03-01得票数 11

回答已采纳

点击加载更多