腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
RDDs
类型
的
混淆
pyspark
、
apache-spark-sql
、
rdd
我刚开始学习
Spark
,开始学习
RDDs
,现在开始学习DataFrames。在我当前
的
pyspark项目中,我正在将一个S3文件读入RDD,并对其运行一些简单
的
转换。下面是代码。. \ filter(lambda line: line.split(",")[5] == '1') SplitComma是一个对行数据执行一些日期计算并返回10个逗号分隔字段
的
函数。一旦我得到它,我运行最后一个过滤器,如图所示,只拾取字段5中value = 1
的
行
浏览 20
提问于2020-01-30
得票数 0
回答已采纳
2
回答
使用scala在Apache
spark
中连接不同
RDDs
的
数据集
scala
、
apache-spark
、
apache-spark-sql
、
distributed-computing
、
rdd
有没有办法在
spark
中连接两个不同RDD
的
数据集? 需求是-我使用scala创建了两个具有相同列名
的
中间
RDDs
,需要组合这两个
RDDs
的
结果并缓存结果以访问UI。我如何在这里组合数据集?
RDDs
的
类型
为
spark
.sql.SchemaRDD
浏览 2
提问于2014-12-10
得票数 35
回答已采纳
1
回答
如何在火花放电中设置KryoSerializer?
dataframe
、
apache-spark
、
pyspark
、
rdd
我是新来
的
,请帮我一下:sc.setSystemProperty("
spark
.dynamicAllocation.enabled", "true") sc.setSystemProperty("
spark
浏览 3
提问于2020-03-16
得票数 1
回答已采纳
1
回答
无法理解scala操作是如何在Apache
spark
中运行
的
scala
、
apache-spark
、
time
、
rdd
、
operation
我所了解到
的
是,火花作业在有任务要在
RDDS
上操作
的
阶段上工作,在这些阶段中,它们是通过从
spark
控制台开始
的
惰性转换创建
的
。(如果我错了,请纠正我) ,那么这些函数和应用在
RDDs
上
的
任务之间有什么关系呢?Scala
的
编码有RDD上
的
操作,据我所知,RDD是逻辑
浏览 0
提问于2019-07-07
得票数 0
1
回答
RDDs
在
spark
中能持续多久?
apache-spark
、
persistence
、
spark-streaming
、
rdd
我已经写了一个程序,在其中我将RDD持久化到
spark
stream中,这样一旦新
的
RDD来自
spark
stream,我就可以将以前缓存
的
RDD与新
的
RDD连接起来。有没有办法为这个持久化
的
RDDs
设置生存时间,这样我就可以确保我不会加入我在上一个流周期中已经得到
的
RDDs
。另外,如果有人能解释并指出
RDDs
中
的
持久化是如何工作
的
,那就太好了,比如当我从
spark</em
浏览 1
提问于2015-07-15
得票数 1
1
回答
从
spark
scala中
类型
为case类
的
列提取数据时出错
scala
、
apache-spark
asInstanceOf[Employee].first_name**)) 我可以分解employees列表,但是当我试图从Employee获取first_name时,我得到了一个类转换异常,说明列不能转换为
类型
浏览 32
提问于2020-09-10
得票数 0
1
回答
的
Scalaz
类型
类
scala
、
apache-spark
、
functional-programming
、
rdd
、
scalaz
目标是实现不同
类型
的
类(如半群、Monad、函子等)。由Scalaz为
Spark
的
RDD (分布式集合)提供。不幸
的
是,我无法创建任何接受更高
类型
类型
(如Monad、函子等)
的
类型
类。和
RDDs
合作得很好。
RDDs
被定义(简化)为: def map[U: ClassTag](f: T => U): RDD[U] = {
浏览 3
提问于2016-04-17
得票数 7
回答已采纳
1
回答
将RDD转换为DataFrame时
的
java.lang.StackOverFlowError
python
、
dataframe
、
rdd
、
pyspark-sql
我得到
的
初始错误是 at java.lang.Thread.run(Thread.java:748) 我做了一些研究,似乎这个与数据帧相关
的
DAG(有向无环图)太大了,我应该对我
的
数据做一些缓存/检查点
浏览 26
提问于2019-11-08
得票数 0
1
回答
星火graphX使边缘/顶点RDD由数据挖掘而成
scala
、
apache-spark
、
type-conversion
、
spark-graphx
我有两个大型数据格式,edge和vertex,我知道它们需要特殊
类型
的
Vertex和Edge
RDDs
,但是我找到
的
每个教程都将Edge和Vertex
RDDs
指定为3到10个条目的数组。我需要他们直接转换从一个实质性
的
RDD。如何将dataframe/普通
的
RDD转换为正确
的
类型
? 我遵循了这里
的
示例:,但是它列举了所有的关系,在我
的
用例中有很多关系。sc.parallelize((ve
浏览 1
提问于2019-02-11
得票数 2
1
回答
在KryoSerializer和JavaSerializer上使用Scala酸洗序列化
scala
、
apache-spark
、
serialization
、
kryo
、
scala-pickling
在为Serialization搜索最佳apache-
spark
技术
的
同时,我在下面的链接中发现,使用该框架,在scala中
的
Serialization将更快、更自动。(参考文献- ) 注意:我正在使用scala语言编写apa
浏览 4
提问于2017-03-21
得票数 2
回答已采纳
1
回答
PySpark如何在SparkSql和Dataframes中使用泡菜
pyspark
、
spark-dataframe
、
pickle
、
pyspark-sql
我试图了解PySpark是如何为
RDDs
使用泡菜
的
,并避免对SparkSql和Dataframes使用泡菜。这个问题
的
基础是slide#30 in link.I,我在下面引用它以供参考: "PySpark
RDDs
通常是腌制对象
的
RDDs
。
Spark
(和DataFrames)可以避免其中
的
一些内容“。
Spark
中如何使用泡菜?
浏览 6
提问于2017-06-25
得票数 1
回答已采纳
3
回答
Spark
Streaming中
的
窗口?
apache-spark
、
spark-streaming
在
spark
streaming中,我们接收
的
DStreams是一批
RDDs
。那么窗口如何进一步提供帮助呢? 据我所知,它还批处理
RDDs
。如果我错了,请纠正我(
Spark
Streaming
的
新手)。
浏览 4
提问于2015-10-08
得票数 7
回答已采纳
1
回答
scala抛出java.util.NoSuchElementException:键未找到:0异常
scala
、
caching
、
apache-spark
val matrixA3=sc.textFile("A3") val cacheArray=
rdds
(0).asInstanceOf[RDD[Array[Double]]] val cacheLength=cacheArray.collect()
浏览 4
提问于2015-03-26
得票数 4
1
回答
Spark
SQL中Group By子句
的
底层实现
apache-spark
、
apache-spark-sql
Spark
SQL中Group By子句
的
底层实现是什么?我知道
Spark
支持下面两种
类型
的
Group by操作,即GroupByKey和ReduceByKey。ReduceByKey是一种map side reduce,它提供了比GroupByKey更好
的
性能。在我们
的
应用程序代码中,我们在
Spark
Dataframe上使用
Spark
SQL,而不是直接创建
RDDs
。所以,我想到了这个问题,
Spark</
浏览 0
提问于2019-08-30
得票数 1
1
回答
union()操作中
的
任务执行顺序
scala
、
apache-spark
下面是我
的
代码草图:但是,我对生成
的
DAG有问题。AFAIK,这意味着在最后一项任务中,
Spark
将以并行
的
80还原键调度,其中每个键都占用大量内存。在完成此RDD
的
映射阶段之后,为每个rdd单独
浏览 1
提问于2018-07-19
得票数 2
1
回答
H20数据帧与
Spark
RDD
的
区别
h2o
我正在研究h2o框架,以使用其额外
的
机器学习工具。我只是好奇H20数据帧和
Spark
RDDs
有什么不同。h2o数据帧可以像
Spark
RDDs
一样缓存或持久化吗?
浏览 0
提问于2017-05-21
得票数 2
1
回答
如何在Apache
Spark
中连接地图并对其执行RDD操作?
sql
、
csv
、
apache-spark
我一直在玩Apache
Spark
,首先我学习了PostgreSQL,我有几个问题需要在
Spark
上运行。我设法在
Spark
SQL中将它们作为SQL字符串运行,但现在我必须执行RDD操作才能获得相同
的
结果。我将数据从csv加载到地图。现在,我必须选择这些映射中
的
特定列,但我不知道如何连接它们(多个映射/csv文件)。我
的
第二个问题是如何最好地执行RDD操作,以便从postgresql查询中获得相同
的
结果?
浏览 7
提问于2019-06-09
得票数 0
1
回答
df中
的
映射&按键约简
pyspark
首先-谢谢你花时间阅读我
的
问题。+-------+-------------+-------+------+-----+ 我想我需要为每一行创建一个<key><value>对,这意味着我
的
键
浏览 0
提问于2019-05-01
得票数 1
回答已采纳
2
回答
如何将org.apache.
spark
.ml.linalg.Vector
的
RDD转换为Dataset?
apache-spark
、
apache-spark-sql
、
rdd
、
apache-spark-mllib
、
apache-spark-dataset
我很难理解
RDDs
、DataSets和DataFrames之间
的
转换是如何工作
的
。我对
Spark
非常陌生,每次我需要从一个数据模型传递到另一个数据模型(特别是从
RDDs
到数据集和Dataframes)时,我都会陷入困境。有人能解释一下我是怎么做
的
吗?举个例子,现在我有了一个RDD[org.apache.
spark
.ml.linalg.Vector],我需要将它传递给我
的
机器学习算法,例如一个KMeans (火花DataSet MLlib)。因此,我需要
浏览 1
提问于2018-06-04
得票数 2
回答已采纳
1
回答
spark
.sql.shuffle.partitions到底指的是什么?
apache-spark
、
apache-spark-sql
spark
.sql.shuffle.partitions到底指的是什么?我们是在谈论一个宽转换
的
结果
的
分区
的
数量,还是在中间发生
的
事情,比如在宽转换
的
结果分区之前发生
的
某种中间分区?因为根据我
的
理解,根据一个广泛
的
转变
spark
.sql.shuffle.partitions参数在这
浏览 3
提问于2018-09-24
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark基础篇
Spark Streaming和Kafka集成深入浅出
想要月入30k以上,那么这门技术是必须了解的
如果你想月薪超过3万英镑,那么这项技能是必要的
Spark 核心编程RDD简介与核心属性
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券