我正在考虑在web爬虫转储上训练10 TB+以上的大型数据的TB+。
我亲自在我的iMac上训练了c实现GoogleNews-2012转储(1.5gb),花了大约3个小时来训练和生成向量(速度给人留下深刻印象)。不过,我没有尝试python实现:(我在某个地方读到,在wiki转储(11 to )上生成300向量长度的向量需要大约9天的时间。
我看到word2vec实现不支持GPU培训。
发布于 2015-06-04 23:30:18
有许多机会可以在规模上创建Word2Vec模型。正如您所指出的,候选解决方案是分布式的(和/或多线程的)或GPU。这不是一个详尽的清单,但希望你能得到一些关于如何进行的想法。
分布式/多线程选项:
存在许多Word2Vec GPU实现。考虑到数据集的大小和有限的GPU内存,您可能需要考虑集群策略。
在不同程度的成熟度和支持程度上,还有许多其他的Word2Vec实现:
我相信SparkML团队最近已经开发了一个基于cuBLAS的原型Word2Vec实现。你也许想调查一下这个。
https://stackoverflow.com/questions/30573873
复制相似问题