我正在考虑在web爬虫转储上训练10 TB+以上的大型数据的TB+。我亲自在我的iMac上训练了c实现GoogleNews-2012转储(1.5gb),花了大约3个小时来训练和生成向量(速度给人留下深刻印象)。不过,我没有尝试python实现:(我在某个地方读到,在wiki转储(11 to )上生成300向量长度的向量需要大约9天的时间。
我看到word2vec实现不支持GPU培训。
我用Word2Vec of Gensim of Python训练了几百万个单词。我想用新的数据更新这个经过训练的模型。但是,从你以前的帖子和网络上的其他来源,我知道这是不可能的。因此,我试图创建多个模型并将它们转储。现在我想把我要丢弃的模型合并起来。我想用这些废弃的结果。我以前有一篇文章是,但我不知道该怎么做。我知道有一个名叫“深度博士”的图书馆,我想看看周围的一些实验:
model = word2vec.Word2Vec.load_word2vec_format('/