腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
RDDs
中
的
键
是否
与
数据
帧
中
的
索引
相同
?
apache-spark
、
key
、
rdd
在pyspark
中
,键值对用于定义RDD。但它们在概念上
与
dataframes
中
的
索引
相同
吗?
浏览 14
提问于2021-11-13
得票数 1
1
回答
H20
数据
帧
与
Spark RDD
的
区别
h2o
我正在研究h2o框架,以使用其额外
的
机器学习工具。我只是好奇H20
数据
帧
和Spark
RDDs
有什么不同。h2o
数据
帧
可以像Spark
RDDs
一样缓存或持久化吗?
浏览 0
提问于2017-05-21
得票数 2
2
回答
比较两个
数据
帧
(源
与
目标),如果在目标表
中
未找到记录(具有
与
源
相同
的
索引
号),则留空行
python
、
pandas
、
numpy
想要将dfs“源”
中
存在
的
数据
与
“
索引
”号
与
dfs“目标”
中
的
数据
进行比较,如果在目标dfs..blank
中
没有找到搜索到
的
索引
,则必须在目标表中使用
与
源
中
给定
的
相同
索引
键
打印行。是实现无循环
的
任何其他方法,因为我需要比较500,000条记录
的</e
浏览 11
提问于2019-06-13
得票数 0
2
回答
如何在多个
RDDs
上使用groupByKey()?
apache-spark
、
rdd
我有多个具有一个公共字段CustomerId
的
RDDs
。例如:creditcardRdd
的
数据
作为(CustomerId, creditField1, creditField2, ....) netbankingRdd
的
数据
作为(CustomerId, nbankingField1, nbankingField2, ....
浏览 2
提问于2018-09-11
得票数 1
回答已采纳
1
回答
无法理解scala操作是如何在Apache spark
中
运行
的
scala
、
apache-spark
、
time
、
rdd
、
operation
我所了解到
的
是,火花作业在有任务要在
RDDS
上操作
的
阶段上工作,在这些阶段
中
,它们是通过从spark控制台开始
的
惰性转换创建
的
。(如果我错了,请纠正我) ,那么这些函数和应用在
RDDs
上
的
任务之间有什么关系呢?Scala
的
编码有R
浏览 0
提问于2019-07-07
得票数 0
1
回答
相同
的
分区:用于
数据
帧
,之后用于该
数据
帧
的
RDD
apache-spark
、
pyspark
、
rdd
、
partitioning
我在
数据
帧
df上
的
规范中使用了多个窗口函数: Window 稍后,我使用:创建我
的
数据
帧
的
kv对并处理
RDDs
上
的
参数。['customID'] 在我<
浏览 0
提问于2017-12-03
得票数 0
1
回答
在Spark ml
中
是否
有梯度增强树(GBT)
的
runWithValidation特性?
scala
、
apache-spark
、
machine-learning
想知道在Spark ml
中
是否
有梯度增强树(GBT)
的
runWithValidation功能来防止过拟合。它在mllib
中
,它与
RDDs
一起工作。我也在寻找同样
的
数据
帧
。
浏览 0
提问于2016-12-20
得票数 0
1
回答
Spark:取消持久化我丢失了引用
的
RDDs
scala
、
apache-spark
如何取消持久化在没有引用
的
MLlib模型中生成
的
RDD?我知道在pyspark
中
,你可以用sqlContext.clearCache()解压所有的
数据
帧
,除了scala API
中
的
RDDs
之外,还有类似的东西吗?此外,有没有一种方法可以只取消一些
RDDs
的
持久化,而不必取消所有
RDDs
的
持久化?
浏览 2
提问于2017-02-07
得票数 6
回答已采纳
1
回答
如何分割大
数据
帧
,并使用较小
的
部分在星火中进行多个广播连接?
scala
、
apache-spark
假设我们有两个非常大
的
数据
帧
--A和B。现在,如果我对两个
RDDs
使用
相同
的
散列分区器,然后执行连接,那么
键
将被同时放置,并且通过减少洗牌,连接可能会更快(唯一会发生
的
洗牌是在A和B上分区器发生变化时)。我想尝试一些不同
的
东西--我想尝试像->这样
的
广播连接,假设B比A小,所以我们选择B来广播,但是B仍然是一个非常大
的
数据
格式。因此,我们要做
的
是用B制作多个
浏览 2
提问于2017-12-11
得票数 3
3
回答
将Pandas Series作为列附加到DataFrame
pandas
、
series
我有像'key','col1','col2','col3‘这样
的
panadas dataframe (df),还有pandas序列(sr),它
的
索引
与
数据
帧
中
的
'key’
相同
。我想使用
相同
的
“
键
”将序列附加到名为col4
的
新列
中
的
数据</em
浏览 0
提问于2017-01-07
得票数 9
回答已采纳
1
回答
Spark RDD
的
分区号
是否
可以在不重新分区
的
情况下手动更改
apache-spark
、
partitioning
、
rdd
在Spark
中
,我有两个PairRDD(让我们称它们为A和B),每个PairRDD由n个分区组成。我想根据它们
的
密钥加入这些
RDDs
。两个RDD都是一致分区
的
,也就是说,如果
键
x和y在RDD A
中
的
相同
分区
中
,它们也在RDD B
中
的
相同
分区
中
。对于RDD A,我可以保证分区是使用特定
的
分区程序完成
的
。但是对于RDD B,分区<e
浏览 2
提问于2015-08-31
得票数 1
1
回答
我们
是否
必须显式地使用
RDDs
和诸如foreach、parallelize之类
的
操作来在pyspark
中
执行并行处理?
python
、
pyspark
、
parallel-processing
如果我们对group by,merge,for两个
数据
帧
使用普通
的
python操作,而不是显式地使用map,reducebykey,groupbykey等,
是否
存在性能差异?前者(正常操作)是简单
的
顺序处理,而后者是并行处理吗? 这
是否
意味着要激活并行处理,我们必须显式使用
RDDs
?正常
的
数据
帧
使用不是并行处理(尽管是在pyspark
中
完成
的
)?
浏览 1
提问于2021-10-26
得票数 0
7
回答
是否
同时对列和
索引
值对pandas
数据
帧
进行排序?
python
、
pandas
、
sorting
、
dataframe
按列
的
值和
索引
对pandas dataframe进行排序
是否
可行? 如果按列
的
值对pandas
数据
帧
进行排序,则可以得到按列排序
的
结果
数据
帧
,但不幸
的
是,您会看到
数据
帧
的
索引
顺序
与
排序列
的
值
相同
。那么,我
是否
可以按列对
数据
帧
进行排序,例如名
浏览 2
提问于2013-11-29
得票数 59
1
回答
union()操作
中
的
任务执行顺序
scala
、
apache-spark
我有一个80 rdd
的
列表,我想要处理,然后最终加入。"process“部分包括为每个rdd执行一个映射和一个约简
键
。那我就通过联合加入他们。(
rdds
).collect() 但是,我对生成
的
DAG有问题。AFAIK,这意味着在最后一项任务
中
,Spark将以并行
的
80还原
键
调度,其中每个
键
都占用大量内存。在完成此RDD
的
映射阶段之后,为每个rdd单独执行reduceByKey()似乎更有效。
是否
有一种方法可
浏览 1
提问于2018-07-19
得票数 2
1
回答
在Mesos上访问不同Hadoop集群
中
的
HDFS
数据
的
独立星火集群
hadoop
、
apache-spark
、
apache-spark-sql
、
mesos
这个集群
与
几个项目共享,我们有一个纱线队列,用有限
的
资源分配给我们。为了增强性能,我们正在考虑为我们
的
项目(在同一个网络
中
的
Mesos上)构建一个独立
的
Spark集群,并在Hadoop集群上访问HDFS
数据
。--编辑-- 我想知道这个
数据
加载是如何发生
的
。例如,如果我对一个表执行一个SparkSQL查询,它
是否
通过从Hadoop集群加载
数据
来在Mesos集群
中
创建
RDD
浏览 3
提问于2017-08-28
得票数 1
2
回答
跨字典
中
的
键
聚合来自dataframes
的
列
python
、
pandas
、
dictionary
我有下面的字典,有2个
键
,每个
键
的
值都是一个pandas
数据
帧
。pd.DataFrame({'x':x1})我想在exampledict
中
创建一个新
的
键
,称为'total‘,其中结果是每个
键
的
浏览 2
提问于2017-04-13
得票数 0
1
回答
星火RDD记录计数
与
星火流Web不协调
python
、
apache-spark
、
pyspark
、
spark-streaming
我试图在星火中创建一个流,它从Kafka获取
数据
。当我检查RDD
中
的
记录计数时,似乎计数
与
Web不一样。我为DStream
中
的
所有
RDDs
执行一个函数(代码是用Python生成
的
):
rdds
=
rdds
.repartition(1batch_count = batch_count + 1 log("
浏览 2
提问于2020-04-15
得票数 0
1
回答
Spark和HDFS
数据
块
的
差异
hadoop
、
apache-spark
、
hdfs
、
rdd
请帮助我理解HDFS
的
数据
块和星火中
的
RDDs
之间
的
区别。HDFS将
数据
集作为
相同
大小
的
块分发到集群
中
的
多个节点,
数据
块将被多次复制和存储。RDD是作为并行化集合创建
的
。并行化集合
的
元素
是否
分布在节点之间,还是存储在内存中进行处理?
是否
与
HDFS
的
数据
块有关?
浏览 0
提问于2018-01-31
得票数 2
3
回答
我们应该什么时候使用Spark-sql,什么时候使用Spark RDD
apache-spark
、
pyspark
、
apache-spark-sql
、
rdd
我知道spark-sql提供了更好
的
性能,它对结构和半结构
数据
的
处理效果最好。但是,在选择spark Rdd和spark-sql时,我们还需要考虑哪些因素。
浏览 1
提问于2020-05-29
得票数 0
2
回答
将
数据
追加到空
数据
帧
apache-spark
、
apache-kafka
、
apache-spark-sql
、
spark-streaming
我正在创建一个空
的
数据
帧
,然后尝试将另一个
数据
帧
附加到该
数据
帧
中
。实际上,我希望根据
RDDs
的
数量动态地将许多
数据
帧
附加到最初为空
的
数据
帧
中
。val df3=df1.union(df2) 但我想继续附加到我创建
的
初始
数据
帧
(空),因为我想将所有
RDD
浏览 1
提问于2018-05-03
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何防止数据质量知识库中是否有历史的相同或相似的现象发生?
Python基础教程 基本的字典操作
Python入门系列3——字典
大数据有道之Mysql实用技能
数据库索引学习&分享
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券