如何使用spark加速Word2vec模型的训练？

、、

我想在我的星团上训练关于10G新闻语料库的word2vec模型。以下是我的星星团的心声：如上图所示，只有100%的cpu用于一名工人，其他三名工人没有使用(所以没有粘贴他们的图片)，刚才我如何</

浏览 7提问于2015-12-20得票数 3

1回答

能否以批处理模式训练spark* word2vec模型*

、

我想知道是否可以在批处理模式下训练spark word2vec。或者换句话说，如果可以更新已经训练过的spark word2vec模型的词汇表。我的应用程序是:我的段落位于多个文件中，当我使用gensim时，我可以做 def __init__(self, file_list, folderspark <

浏览 2提问于2016-10-26得票数 2

1回答

如何将spark* mllib word2vec模型转换为glove txt格式？*

、、、

我使用Spark MLlib来训练特定于领域的word2vec模型，并且我需要在glove word2vec格式中使用它。如何将其转换为glove txt格式？

浏览 20提问于2018-12-22得票数 0

1回答

、

我正在使用spark Word2vec应用程序接口来构建单词矢量。代码： .setInputCol("words")我的电脑环境有24核CPU和100G内存，如何有效地使用它们？

浏览 18提问于2019-08-12得票数 0

2回答

使用ApacheSpark2.0.0和mllib进行分布式Word2Vec模型培训

、、、

我一直在尝试使用spark和mllib来训练word2vec模型，但我似乎没有从大型数据集上的分布式机器学习中获得性能上的好处。我的理解是，如果我有w工人，那么，如果我创建一个包含n个分区的RDD，n>w和我试图通过调用以RDD为参数的Word2Vec的fit函数来创建一个Word2Vec模型，然后spark将统一地分发数

浏览 1提问于2016-09-28得票数 1

回答已采纳

1回答

星星之火MLib Word2Vec错误:词汇表大小应>0

、、、、

我正在尝试使用Spark的MLLib实现word矢量化。我正在学习给出的示例。scala> v.take(5) res31: Array[Seq[String]] = Array(List([WrappedArray(0_42)]), List([WrappedArray但是，当我尝试在这个输入上训练</e

浏览 2提问于2018-01-03得票数 2

回答已采纳

1回答

如何在payspark ml中加载word2vec模型？

、

我尝试使用以下代码行加载一个经过训练的word2vec模型但是我得到了这个错误： java.lang.NoSuchMethodException: org.apache.spark.ml.feature.Word2VecModel

浏览 21提问于2020-03-10得票数 1

1回答

Word2Vec火花实现是分布式的吗？

、、、、

我相对来说是个新手，很难理解Spark。我的问题是，我有3TB的文本，我想训练一个Word2Vec模型。我正在运行的服务器大约有1TB的ram，所以我不能临时保存该文件。该文件被保存为我导入到星火中的一块地板。我的问题是Spark库是否分发Word2Vec培训？如果是这样的话，在处理这么大的文本文件时有什么需要我担心的吗？如果没有，那么在培训<

浏览 3提问于2020-12-17得票数 0

回答已采纳

1回答

一个gensim word2vec模型能以联邦的方式训练吗？

、、、、

我试图找出如何以联邦的方式训练word2vec模型。这些数据将被分成多个部分，例如4个“机构”，我想对每个机构的数据分别进行word2vec模型的培训。这里的主要限制是，机构的数据不能转移到另一个地方，因此永远不能集中训练。我知道可以迭代地训练word2vec模型，这样可以读取来自第一个机构的数据，用于<em

浏览 4提问于2021-09-06得票数 1

回答已采纳

1回答

将word2vec向量转储到文件中

、、、、

我正在使用spark来生成单词向量。我希望将我所有的数据进行拟合，然后得到经过训练的单词向量并将它们转储到一个文件中。我是这样做的：Word2Vecword2vec = new Word2Vec(); Word2VecModel model = word2v

浏览 3提问于2016-12-06得票数 4

回答已采纳

1回答

如何用新的训练数据更新预训练的word2vec模型

、、、

嗨，我使用genism加载西班牙快速文本word2vec模型，代码如下： binary=False) 现在我想用新的训练句子来训练word2vec我知道，在天才中，如果加载

浏览 0提问于2018-07-30得票数 1

4回答

如何计算WordNet中没有出现的英语单词的相似度？

、、

一种特殊的自然语言实践是使用WordNet计算两个单词之间的相似度。我从下面的python代码开始我的问题：sport = wordnet.synsets("sport")[0]lol = wordnet.synsets("lol")print(lol)[]那么我们就不能考虑它们之

浏览 0提问于2016-07-09得票数 6

2回答

必须使用writeStream.start()；执行流源查询；

、、、、

我试图从卡夫卡读取数据使用火花结构化流和预测形式的传入数据。我用的是我用Spark训练的模型。val spark = SparkSession .appName("Spark SQL basic example") .getOrCreatefiltered") val removestopdf = remover

浏览 7提问于2017-10-03得票数 2

回答已采纳

2回答

在Spark中加载Word2Vec模型

、、

可以加载一个预先训练好的(二进制)模型到spark (使用scala)吗？我尝试加载google生成的一个二进制模型，如下所示： val model = Word2VecModel.load(sc, "GoogleNews-vectors-negative300.bin

浏览 1提问于2017-05-09得票数 4

2回答

用Gensim减少谷歌的Word2Vec模型

、、

通过word2vec加载完整的预先训练的模型是耗时而乏味的，因此我想知道是否有机会删除低于某一频率的单词，从而将vocab计数降低到例如200k单词。我在Word2Vec包中找到了gensim方法来确定单词频率，并再次保存模型，但我不知道如何从经过预先训练的模型中提取pop/remove语音，然后再保存它。我在KeyedVector class和

浏览 5提问于2017-02-25得票数 9

回答已采纳

1回答

为什么我们需要‘训练word2vec’，而word2vec本身被说是‘预培训’？

、、

我真的很困惑，为什么我们需要‘训练word2vec’，而word2vec本身被认为是‘预培训’？我搜索了word2vec预训练的嵌入，认为我可以得到一个映射表，直接将我的词汇表映射到预先训练的嵌入，但没有效果。相反，我只发现我们是如何训练自己的： Word2Vec(sentences=common_texts, vector_size=100, window=5,

浏览 0提问于2022-04-14得票数 1

回答已采纳

3回答

用word2vec训练星火RDD[String]

、、、

我对Spark和Scala并不熟悉，所以我可能误解了这里的一些基本内容。我正在尝试根据我自己的数据来训练Sparks word2vec模型。根据他们的，一种方法是val word2vec = new Word2Vec在按摩了我自己的数据

浏览 6提问于2016-05-11得票数 1

回答已采纳

1回答

为什么spark.ml.feautures.Word2Vec要将句子向量化而不是单个单词？

、

在理解星火中的Word2Vec与gensim 1有何不同的过程中，我对Spark (参考链接：https://spark.apache.org/docs/2.2.0/ml-features.html#word2vec)中的例子感到非常困惑，我想知道为什么它们不是转换单个单词，而是转换整个句子。word2vec的目的不是将单个单词嵌入向量空间吗？为什么要嵌入整个句子？如何对wor

浏览 0提问于2018-07-27得票数 7

回答已采纳

2回答

谷歌word2vec训练模型是CBOW还是skipgram？

、、

是谷歌预先训练好的word2vec模型CBO或skipgram。我们通过以下方式加载预训练模型：我们如何具体加载预先训练的CB

浏览 40提问于2019-07-18得票数 0

1回答

如何加载训练过的模型，并用它训练doc2vec？

、、、

我有一个准备去word2vec模型，我已经训练过了。., 0.3461 如何加载word2vec

浏览 1提问于2016-04-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在星火集群环境下有效地训练word2vec模型？

能否以批处理模式训练spark* word2vec模型*

如何将spark* mllib word2vec模型转换为glove txt格式？*