cast to org.apache.spark.mllib.linalg.Vector[error] at DataCleaning$$anonfun$1.apply(DataCleaning.scala:105)at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)at
假设我有一个稀疏的文档集合矩阵,其中每一行都是一个表示文档的向量(例如,由scikit-learn的tfidf_transformer生成)。transformer.transform(vectorizer.transform(['I am a sample query']))
因此,我想使用scipy.spatial.distance.cosine (余弦相似性)将这个查询与矩阵的每个文档我确信这不是正确的方法(将一个函数映射到稀疏矩阵的每一行),但我似乎找不到正确
我仍然是scala的新手,在我的代码中很难让这个功能正常工作。我正在尝试从hour_vector创建24小时的映射,并在hour_visitors向量中的特定小时有访问者时填充“访问者”值 val hour_visitors = Vector((10,100),(我可以将hour_index中的值重新映射到列表中,但这会使我的想法落空,因为在这种情况下,我丢失了“小时”键,并且值将被错误地插入到24小时向量中。当两个向量中都存在键时,我如何使用标准库将
at org.apache.flink.ml.math.BLAS$.axpy(BLAS.scala:60)
at org.apache.flink.ml.optimization.GradientDescent$$anonfun$org$apache$flink$ml$optimization$GradientDescent$$SGDStep$2.apply(GradientDescent.scala:181org.apache.flink.ml.optimization.GradientDescent$$anonfun$org$apache$fli