我在一个64 32内存、32个内核和500 32磁盘空间的系统上运行Jupyter notebook。
大约70万个文档将被建模为600个主题。词汇量为48000个单词。使用了100次迭代。
spark = SparkSession.builder.appName('LDA').master("local[*]").config("spark.local.dir", "/data/Data/allYears/tempAll").config("spark.driver.memory","50g").config("spark.executor.memory","50g").getOrCreate()
dataset = spark.read.format("libsvm").load("libsm_file.txt")
lda = LDA(k=600, maxIter=100 , optimizer='em' , seed=2 )
lda.setDocConcentration([1.01])
lda.setTopicConcentration(1.001)
model = lda.fit(dataset)
运行10小时后出现超过磁盘配额的错误
https://stackoverflow.com/questions/55882791
复制相似问题