给定一个训练语料库docsWithFeatures,我在Spark (通过Scala )中训练了一个LDA模型,如下所示:
import org.apache.spark.mllib.clustering.{LDA, DistributedLDAModel, LocalLDAModel}
val n_topics = 10;
val lda = new LDA().setK(n_topics).setMaxIterations(20)
val ldaModel = lda.run(docsWithFeatures)
val distLDAModel = ldaModel.asInstance
目前,我正在将经验分布与中解释的理论分布进行拟合
使用分布,结果显示与分布有很好的拟合。
下面是我目前使用的一些scipys发行版的方法:
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
import scipy.stats
import matplotlib.pyplot as plt
# Sample data with random numbers of hypsecant distribution
data = scipy.stats.hypsecant.rvs(size=8760, loc=1.93,