腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(43)
视频
沙龙
1
回答
如何将
多个
Spark
ml
模型
拟
合到
单个
Dataset
/
DataFrame
的
每个
分区
子集
?
scala
、
apache-spark
、
apache-spark-mllib
我想一次训练
多个
Spark
ML
模型
,使用
单个
数据集
的
每个
子集
。(一个
分区
对应一个
模型
。) 我怎样才能有效地实现它?Scala
的
循环看起来不太好,因为DAG将非常复杂,但是
Spark
的
mapGroups不能很好地工作,因为
Spark
计划将是嵌套
的
。 摘要示例如下。case class Person(name: String, a
浏览 5
提问于2019-05-21
得票数 4
1
回答
如何在
Spark
中缓存数据帧/值
的
数组
scala
、
apache-spark
、
apache-spark-mllib
我正在尝试使用
Spark
分组。我
的
方法是缓存一个大型输入数据文件,根据school_id将其分成几个部分,在内存中缓存
单个
学校输入文件,对
每个
文件运行
模型
,然后提取标签和预测。= schools.map(School_ID => model_input.where($"School_ID" <=> School_ID).cache) import org.apache.
spark
.sql.
DataFrame
import org.a
浏览 4
提问于2015-08-30
得票数 0
1
回答
使用星火3000+ MLlib Scala按组运行MLlib随机森林
模型
r
、
scala
、
apache-spark
、
apache-spark-mllib
我试图使用
Spark
按组(School_ID,超过3000)在一个大型
模型
输入
的
csv文件上构建随机森林
模型
。
每个
小组都包含大约3000到4000条记录.我所拥有的资源是20-30个AWSm3.2x大型实例。我能够根据下面的代码将文件拆分成School_ID,但似乎每次迭代都会创建一个单独
的
作业到
子集
,并且要花很长时间才能完成这些任务。有什么办法可以一蹴而就吗?select("SCHOOL_ID", "label", "
浏览 2
提问于2015-08-20
得票数 7
回答已采纳
3
回答
如何以压缩
的
csv或拼花文件(类似的to.gz格式)有效地上传pyspark
python
、
amazon-s3
、
pyspark
、
apache-spark-sql
我在S3中有130个GB
的
S3文件,它使用从redshift到S3
的
并行卸载加载。因为它包含
多个
文件,所以我想减少文件
的
数量,这样我
的
ML
模型
(使用sklearn)就更容易阅读了。我已经设法使用: S3将
多个
数据从
spark
_df转换为火花数据格式(称为
spark
_df)。
spark
_df1包含100
多个
列(特性),是我对数百万客户ID
的
时间序列推断数据。因为它
浏览 8
提问于2022-05-14
得票数 0
回答已采纳
2
回答
星星之火
ML
-从新
的
数据元素中创建一个特征向量来预测
apache-spark
、
machine-learning
、
spark-dataframe
、
apache-spark-mllib
步骤-缩合 结果很可怕,但就像我说
的
,这是一次人为
的
练习.import org.apache.
spark
.
ml
.fe
浏览 2
提问于2017-04-12
得票数 1
回答已采纳
1
回答
线程“java.lang.IllegalArgumentException: Field”特性中
的
异常不存在
apache-spark
、
apache-spark-ml
(StructType.scala:263) at org.apache.
spark
.
ml
.PipelineStage.transformSchema(ClusteringDSPOC.
浏览 2
提问于2017-06-13
得票数 2
1
回答
如何从
多个
文件夹读取到
单个
Dataframe
scala
、
apache-spark
、
spark-dataframe
我在一个每天创建
的
文件夹中有数据。student_id=20170418
每个
文件夹都有
多个
parquete格式
的
数据
分区
。现在我只想读取过去6个月(180天/180个文件夹)
的
数据,并在一些列上执行一些逻辑。
如何将
过去
的
180个文件夹读取到
单个
Dataframe
中,我不想使用联合(例如,不想将每天
的
数据文件夹分别读取到
每个
单独
的
Datafram
浏览 20
提问于2017-12-17
得票数 1
2
回答
我如何在
Spark
中训练一个带有稀疏矩阵
的
随机森林?
r
、
apache-spark
、
apache-spark-mllib
、
apache-spark-ml
、
sparklyr
现在,在我
的
集群上训练一个naive bayes
模型
只需要几秒钟。> library(microbenchmark)Unit:(pipeline, mytext_
spark
) 6.718354 6.996424 7.647227 7.274494 8.111663 8.948832 3 现在
的
问题是,试图在相同
的</e
浏览 78
提问于2018-06-05
得票数 5
回答已采纳
1
回答
在
多个
分区
的
DataFrame
中,读取
单个
文件
的
单块分割结果
python
、
apache-spark
、
pyspark
、
parquet
上下文这是可行
的
,我只检索所需
的
数据。问题df.rdd
浏览 2
提问于2021-12-17
得票数 2
回答已采纳
1
回答
火花ExecutorLostFailure内存超过
memory-management
、
apache-spark
、
hadoop-yarn
、
coalesce
" }该集群由20台机器组成,
每个
机器有32个核心和240 g内存。我是应该继续提出memoryOverhead,还是说它表明了一个更深层次
的
问题。这次
的
错误似乎发生在从5000个
分区
到500个
分区
的
合并过程中,然后再将结果数据写入S3。我猜合并导致了混乱,而且由于集群
的
内存已经很低,它把它推得太远了。 提取使用对
dataframe
的
sq
浏览 1
提问于2016-06-03
得票数 2
2
回答
关于火花多连接
的
建议
apache-spark
、
pyspark
、
apache-spark-sql
最近,我遇到了执行组合联接
的
要求。构建执行计划需要更多
的
时间。因此,我使用df.localCheckpoint()在中间阶段缓存执行计划。 这是个好办法吗?
浏览 6
提问于2022-08-20
得票数 0
5
回答
申请、工作、阶段和任务
的
概念是什么?
apache-spark
我
的
理解对吗? 帮助想要提高这种理解。
浏览 3
提问于2017-02-16
得票数 73
1
回答
如何知道(广播)联接查询中火花作业和阶段
的
数量?
apache-spark
、
apache-spark-sql
我用
的
是火花2.1.2。val df = Seq( (77, "Ontario"HashedRelationBroadcastMode(List(input[0, string, true])) +- LocalTableScan [Id#24, name#2
浏览 0
提问于2018-03-20
得票数 12
回答已采纳
2
回答
如何在
DataFrame
中跨组使用QuantileDiscretizer?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-mllib
我有一个包含以下列
的
DataFrame
。show_name: string (nullable = true)这是关于客户观看某个特定节目的次数
的
数据我应该根据观看
的
总时间对
每个
节目的客户进行分类。对于
每个
单独
的
节目,我应该将客户分成3类(1,2,3)。我使用
Spark<
浏览 0
提问于2017-05-03
得票数 5
2
回答
将MinMaxScaler应用于PySpark中
的
多列
python
、
pyspark
、
apache-spark-sql
我想将MinMaxScalar of PySpark应用于PySpark数据帧df
的
多列。到目前为止,我只知道
如何将
其应用于
单个
列,例如x。from pyspark.
ml
.feature import MinMaxScaler df =
spark
.createDataFrame(pdf)
浏览 0
提问于2020-02-18
得票数 17
回答已采纳
10
回答
什么是
spark
中
的
RDD
scala
、
hadoop
、
apache-spark
、
rdd
定义是:用户以两种方式创建RDDs :通过加载外部数据集,或者通过在其驱动程序中分发对象集合(例如,列表或集合 我对RDD
的
理解以及与
spark
和hadoop
的
关系真的很困惑。
浏览 91
提问于2015-12-23
得票数 46
回答已采纳
4
回答
使用谓词筛选pyarrow.parquet.ParquetDataset中
的
行
python
、
pandas
、
amazon-s3
、
parquet
、
pyarrow
我在s3上存储了一个拼花数据集,我想从该数据集中查询特定
的
行。我可以使用petastorm实现这一点,但现在我只想使用pyarrow。以下是我
的
尝试:import s3fs validate_schema=False, filters=[('event_name', '=', '
浏览 1
提问于2019-06-10
得票数 23
回答已采纳
5
回答
火花缓存与广播
caching
、
apache-spark
看起来,广播方法在我
的
集群中创建了RDD
的
分布式副本。另一方面,cache()方法
的
执行只是在内存中加载数据。 但是我不明白缓存
的
RDD是如何分布在集群中
的
。
浏览 8
提问于2016-06-27
得票数 27
回答已采纳
2
回答
使用ApacheSpark2.0.0和mllib进行分布式Word2Vec
模型
培训
java
、
apache-spark
、
apache-spark-mllib
、
word2vec
我一直在尝试使用
spark
和mllib来训练word2vec
模型
,但我似乎没有从大型数据集上
的
分布式机器学习中获得性能上
的
好处。我
的
理解是,如果我有w工人,那么,如果我创建一个包含n个
分区
的
RDD,n>w和我试图通过调用以RDD为参数
的
Word2Vec
的
fit函数来创建一个Word2Vec
模型
,然后
spark
将统一地分发数据,对这些w工人进行单独
的
word2vec
模型
浏览 1
提问于2016-09-28
得票数 1
回答已采纳
2
回答
为什么星火
的
Word2Vec会返回一个向量?
java
、
apache-spark
、
machine-learning
、
word2vec
、
apache-spark-ml
我
的
问题是,它不应该返回矩阵而不是向量吗?我以为
每个
输入字都有一个向量。但是它返回一个向量周期!Per @Shaido
的
请求,下面是我所做
的
小改动
的
代码,用于打印输出
的
模式: public static voidSchema: StructType(StructField(text,ArrayType(St
浏览 0
提问于2018-11-13
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何管理Spark的分区
将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架
大数据之spark基础知识
开源sk-dist,超参数调优仅需3.4秒,sk-learn训练速度提升100倍
美国“返利网”开源sk-dist框架将sklearn训练速度提升数倍
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券