问Spark -在主题建模上没有留下磁盘空间
EN

Stack Overflow用户

提问于 2019-04-28 00:51:41

回答 1查看 432关注 0票数 1

我在一个64 32内存、32个内核和500 32磁盘空间的系统上运行Jupyter notebook。

大约70万个文档将被建模为600个主题。词汇量为48000个单词。使用了100次迭代。

spark = SparkSession.builder.appName('LDA').master("local[*]").config("spark.local.dir", "/data/Data/allYears/tempAll").config("spark.driver.memory","50g").config("spark.executor.memory","50g").getOrCreate()

dataset = spark.read.format("libsvm").load("libsm_file.txt")

lda = LDA(k=600, maxIter=100 ,  optimizer='em' , seed=2 )

lda.setDocConcentration([1.01])
lda.setTopicConcentration(1.001)
model = lda.fit(dataset)

运行10小时后出现超过磁盘配额的错误

apache-spark-2.3

apache-spark

jupyter-notebook

apache-spark-mllib

apache-spark-ml

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55882791

复制

相似问题

问Spark -在主题建模上没有留下磁盘空间
EN

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark -在主题建模上没有留下磁盘空间EN

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark -在主题建模上没有留下磁盘空间
EN