如何将多个Spark ml模型拟合到单个Dataset/DataFrame的每个分区子集？

scala、apache-spark、apache-spark-mllib

我想一次训练多个Spark ML模型，使用单个数据集的每个子集。(一个分区对应一个模型。) 我怎样才能有效地实现它？Scala的循环看起来不太好，因为DAG将非常复杂，但是Spark的mapGroups不能很好地工作，因为Spark计划将是嵌套的。摘要示例如下。case class Person(name: String, a

浏览 5提问于2019-05-21得票数 4

1回答

如何在Spark中缓存数据帧/值的数组

scala、apache-spark、apache-spark-mllib

我正在尝试使用Spark分组。我的方法是缓存一个大型输入数据文件，根据school_id将其分成几个部分，在内存中缓存单个学校输入文件，对每个文件运行模型，然后提取标签和预测。= schools.map(School_ID => model_input.where($"School_ID" <=> School_ID).cache) import org.apache.spark.sql.DataFrameimport org.a

浏览 4提问于2015-08-30得票数 0

1回答

使用星火3000+ MLlib Scala按组运行MLlib随机森林模型

r、scala、apache-spark、apache-spark-mllib

我试图使用Spark按组(School_ID，超过3000)在一个大型模型输入的csv文件上构建随机森林模型。每个小组都包含大约3000到4000条记录.我所拥有的资源是20-30个AWSm3.2x大型实例。我能够根据下面的代码将文件拆分成School_ID，但似乎每次迭代都会创建一个单独的作业到子集，并且要花很长时间才能完成这些任务。有什么办法可以一蹴而就吗？select("SCHOOL_ID", "label", "

浏览 2提问于2015-08-20得票数 7

回答已采纳

3回答

如何以压缩的csv或拼花文件(类似的to.gz格式)有效地上传pyspark

python、amazon-s3、pyspark、apache-spark-sql

我在S3中有130个GB的S3文件，它使用从redshift到S3的并行卸载加载。因为它包含多个文件，所以我想减少文件的数量，这样我的ML模型(使用sklearn)就更容易阅读了。我已经设法使用: S3将多个数据从spark_df转换为火花数据格式(称为spark_df)。 spark_df1包含100多个列(特性)，是我对数百万客户ID的时间序列推断数据。因为它

浏览 8提问于2022-05-14得票数 0

回答已采纳

2回答

星星之火ML -从新的数据元素中创建一个特征向量来预测

apache-spark、machine-learning、spark-dataframe、apache-spark-mllib

步骤-缩合结果很可怕，但就像我说的，这是一次人为的练习.import org.apache.spark.ml.fe

浏览 2提问于2017-04-12得票数 1

回答已采纳

1回答

线程“java.lang.IllegalArgumentException: Field”特性中的异常不存在

apache-spark、apache-spark-ml

(StructType.scala:263) at org.apache.spark.ml.PipelineStage.transformSchema(ClusteringDSPOC.

浏览 2提问于2017-06-13得票数 2

1回答

如何从多个文件夹读取到单个Dataframe

scala、apache-spark、spark-dataframe

我在一个每天创建的文件夹中有数据。student_id=20170418 每个文件夹都有多个parquete格式的数据分区。现在我只想读取过去6个月(180天/180个文件夹)的数据，并在一些列上执行一些逻辑。如何将过去的180个文件夹读取到单个Dataframe中，我不想使用联合(例如，不想将每天的数据文件夹分别读取到每个单独的Datafram

浏览 20提问于2017-12-17得票数 1

2回答

我如何在Spark中训练一个带有稀疏矩阵的随机森林？

r、apache-spark、apache-spark-mllib、apache-spark-ml、sparklyr

现在，在我的集群上训练一个naive bayes模型只需要几秒钟。> library(microbenchmark)Unit:(pipeline, mytext_spark) 6.718354 6.996424 7.647227 7.274494 8.111663 8.948832 3 现在的问题是，试图在相同的</e

浏览 78提问于2018-06-05得票数 5

回答已采纳

1回答

在多个分区的DataFrame中，读取单个文件的单块分割结果

python、apache-spark、pyspark、parquet

上下文这是可行的，我只检索所需的数据。问题df.rdd

浏览 2提问于2021-12-17得票数 2

回答已采纳

1回答

火花ExecutorLostFailure内存超过

memory-management、apache-spark、hadoop-yarn、coalesce

" }该集群由20台机器组成，每个机器有32个核心和240 g内存。我是应该继续提出memoryOverhead，还是说它表明了一个更深层次的问题。这次的错误似乎发生在从5000个分区到500个分区的合并过程中，然后再将结果数据写入S3。我猜合并导致了混乱，而且由于集群的内存已经很低，它把它推得太远了。提取使用对dataframe的sq

浏览 1提问于2016-06-03得票数 2

2回答

关于火花多连接的建议

apache-spark、pyspark、apache-spark-sql

最近，我遇到了执行组合联接的要求。构建执行计划需要更多的时间。因此，我使用df.localCheckpoint()在中间阶段缓存执行计划。这是个好办法吗？

浏览 6提问于2022-08-20得票数 0

5回答

申请、工作、阶段和任务的概念是什么？

apache-spark

我的理解对吗？帮助想要提高这种理解。

浏览 3提问于2017-02-16得票数 73

1回答

如何知道(广播)联接查询中火花作业和阶段的数量？

apache-spark、apache-spark-sql

我用的是火花2.1.2。val df = Seq( (77, "Ontario"HashedRelationBroadcastMode(List(input[0, string, true])) +- LocalTableScan [Id#24, name#2

浏览 0提问于2018-03-20得票数 12

回答已采纳

2回答

如何在DataFrame中跨组使用QuantileDiscretizer？

scala、apache-spark、apache-spark-sql、apache-spark-mllib

我有一个包含以下列的DataFrame。show_name: string (nullable = true)这是关于客户观看某个特定节目的次数的数据我应该根据观看的总时间对每个节目的客户进行分类。对于每个单独的节目，我应该将客户分成3类(1,2,3)。我使用Spark<

浏览 0提问于2017-05-03得票数 5

2回答

将MinMaxScaler应用于PySpark中的多列

python、pyspark、apache-spark-sql

我想将MinMaxScalar of PySpark应用于PySpark数据帧df的多列。到目前为止，我只知道如何将其应用于单个列，例如x。from pyspark.ml.feature import MinMaxScaler df = spark.createDataFrame(pdf)

浏览 0提问于2020-02-18得票数 17

回答已采纳

10回答

什么是spark中的RDD

scala、hadoop、apache-spark、rdd

定义是：用户以两种方式创建RDDs :通过加载外部数据集，或者通过在其驱动程序中分发对象集合(例如，列表或集合我对RDD的理解以及与spark和hadoop的关系真的很困惑。

浏览 91提问于2015-12-23得票数 46

回答已采纳

4回答

使用谓词筛选pyarrow.parquet.ParquetDataset中的行

python、pandas、amazon-s3、parquet、pyarrow

我在s3上存储了一个拼花数据集，我想从该数据集中查询特定的行。我可以使用petastorm实现这一点，但现在我只想使用pyarrow。以下是我的尝试：import s3fs validate_schema=False, filters=[('event_name', '=', '

浏览 1提问于2019-06-10得票数 23

回答已采纳

5回答

火花缓存与广播

caching、apache-spark

看起来，广播方法在我的集群中创建了RDD的分布式副本。另一方面，cache()方法的执行只是在内存中加载数据。但是我不明白缓存的RDD是如何分布在集群中的。

浏览 8提问于2016-06-27得票数 27

回答已采纳

2回答

使用ApacheSpark2.0.0和mllib进行分布式Word2Vec模型培训

java、apache-spark、apache-spark-mllib、word2vec

我一直在尝试使用spark和mllib来训练word2vec模型，但我似乎没有从大型数据集上的分布式机器学习中获得性能上的好处。我的理解是，如果我有w工人，那么，如果我创建一个包含n个分区的RDD，n>w和我试图通过调用以RDD为参数的Word2Vec的fit函数来创建一个Word2Vec模型，然后spark将统一地分发数据，对这些w工人进行单独的word2vec模型

浏览 1提问于2016-09-28得票数 1

回答已采纳

2回答

为什么星火的Word2Vec会返回一个向量？

java、apache-spark、machine-learning、word2vec、apache-spark-ml

我的问题是，它不应该返回矩阵而不是向量吗？我以为每个输入字都有一个向量。但是它返回一个向量周期！Per @Shaido的请求，下面是我所做的小改动的代码，用于打印输出的模式： public static voidSchema: StructType(StructField(text,ArrayType(St

浏览 0提问于2018-11-13得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Spark中缓存数据帧/值的数组

使用星火3000+ MLlib Scala按组运行MLlib随机森林模型

如何以压缩的csv或拼花文件(类似的to.gz格式)有效地上传pyspark

星星之火ML -从新的数据元素中创建一个特征向量来预测

线程“java.lang.IllegalArgumentException: Field”特性中的异常不存在

如何从多个文件夹读取到单个Dataframe

我如何在Spark中训练一个带有稀疏矩阵的随机森林？

在多个分区的DataFrame中，读取单个文件的单块分割结果

火花ExecutorLostFailure内存超过

关于火花多连接的建议

申请、工作、阶段和任务的概念是什么？

如何知道(广播)联接查询中火花作业和阶段的数量？

如何在DataFrame中跨组使用QuantileDiscretizer？

将MinMaxScaler应用于PySpark中的多列

什么是spark中的RDD

使用谓词筛选pyarrow.parquet.ParquetDataset中的行

火花缓存与广播

使用ApacheSpark2.0.0和mllib进行分布式Word2Vec模型培训

为什么星火的Word2Vec会返回一个向量？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐