我需要读取输入文件的每一行,并为每一行分配自己的ID,以便以后可以识别它。如果我知道文件的行数,或者如果它很短,这将很简单,但我需要使它能够接受包含任意行数的文件somewhere over rainbow bluebirds flybirds fly over rainbow why why
double time population long takes population do
我试图通过调用.topicDistributions()或.javaTopicDistributions()来获得文档的主题分布。这两种方法都返回文档上的主题分布的rdd。因此,根据我的理解,行数应该是文档数,列数应该是主题数。但是,当我在调用topicDistributions()之后对rdd进行计数时,我得到的计数是11,665 (少于传递给模型的文档数量)?[] values = new double[sarray.length];
for