腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
在
单个
链
中
使用
多个
groupby
。
如何
避免
?
这是我
使用
Spark
的第二份工作,我想知道是否有可能
避免
类似的操作。 .
groupBy
( "task_attributes.call_sid") \ .pivot("call_ended").cast("
浏览 16
提问于2020-02-27
得票数 1
1
回答
Microsoft
Spark
聚合方法
、
、
我正在
使用
Microsoft.
Spark
Spark
API并将
GroupBy
应用于DataFrame对象。我想在分组后将Agg应用于
多个
列。
在
pyspark
中
,我会用下面这样的东西来表达我想要实现的目标 new_df = df.
groupBy
("customer_id") func.mean("a").alias
使用
.NET应用程序接口,我已经设置了DataFra
浏览 18
提问于2021-10-01
得票数 0
回答已采纳
2
回答
分组数据的火花并行处理
、
、
、
但是
使用
spark
,特别是
groupBy
,可以将其缩减到一个可管理的大小。(适用于
单个
节点的RAM )
如何
确保将
单个
组的数据收集到
单个
节点?例如,我可能希望
使用
local matrix进行计算,但不希望遇到有关数据局部性的错误。
浏览 1
提问于2016-04-20
得票数 4
回答已采纳
5
回答
PySpark
中
的Panda的value_counts()的等价物是什么?
、
、
、
我有以下python/pandas命令:我在这里获取DataFrameGroupBy
如何
在PySpark
中
执行此操作?
浏览 1
提问于2018-06-27
得票数 32
1
回答
使用
列名数组聚合
Spark
数据框,并保留这些名称
、
、
、
我希望
使用
列名数组作为输入来聚合
Spark
数据帧,同时保留列的原始名称。这是可行的,但不能保留名称。受到找到的答案的启发,我尝试了一下,但没有成功:error: no `: _*'annotation allowed heredf.
浏览 4
提问于2016-09-08
得票数 4
回答已采纳
1
回答
什么是实现分散的、不信任的交易的最佳方式,涉及真实的金钱和虚拟货币?
、
、
、
这是否有可能使我们
在
现实世界中进行一项交易(用金钱购买商品/服务) 让我们举一个虚拟货币兑换的例子,有人在卖比特币,我想买,我们商定了条件和价格,现在他让我把钱转到他/她的银行账户。我们能
避免
这种情况吗?
使用
一个聪明的合同,可以持有真正的钱,只有转让给卖方,如果可以核实交易的区块
链
,如果不送我回去。
浏览 0
提问于2017-06-08
得票数 1
1
回答
为什么每个星火任务没有
使用
所有分配的核心?
、
、
、
、
我注意到的基本要点是,当我将每个任务设置为
使用
一个核心(默认)时,我对工作人员的CPU利用率约为70%,每个执行器将同时执行36个任务(正如我所预期的)。但是,当我将配置更改为每个任务有6个核心(--conf
spark
.task.cpus=6)时,我会将每个执行器每次下降到6个任务(如预期的那样),但我的CPU利用率也会下降到10%以下(出乎意料)。我会假设
Spark
会知道
如何
在这6个核心上并行工作负载。 重要的实现细节是,我
在
DataFrame的一个列上运行一个UDF函数,并将结果作为该datafra
浏览 0
提问于2018-01-04
得票数 2
回答已采纳
1
回答
Cassandra
中
的自定义分区程序
现在,为了通过
Spark
进行分析,我希望将特定devid的所有数据都放到同一个节点上,而不考虑维度和纪元,这样就有了良好的数据局部性,并且对于
单个
devid的分析,我可以
避免
Spark
中
的网络数据混洗。然而,每个devid的数据量将太大,
在
单个
分区
中
效率不高。因此我不能定义像(devid,dimension,epoch)这样的主键。然而,这将开始将
单个
devid的数据放在
多个
节点上(然后
Spark
将
浏览 25
提问于2019-02-15
得票数 0
0
回答
将pyspark 2.2.0数据帧分区写入S3并行化
、
、
、
开始
使用
pyspark,遇到了我用代码创建的瓶颈: g=df.
groupBy
(df.drive_id) rows=sorted(g.count().collect())
如何
使用
单个
写入命令替换循环,该命令将在
单个
操作中将所有分区
浏览 4
提问于2017-12-10
得票数 0
1
回答
Scala:
如何
合并数据帧
中
的
多个
CSV文件
我正在编写下面的代码以获取RDD
中
的csv文件,我希望合并
多个
csv文件,并希望存储
在
单个
RDD变量
中
。我能够
在
RDD
中
存储一个csv文件的数据,帮助我
如何
合并
多个
csv文件并存储
在
单个
RDD变量
中
。val Rdd =
spark
.sparkContext.textFile(“File1.csv").map(_.split(","))
浏览 0
提问于2018-01-11
得票数 0
回答已采纳
2
回答
如何
防止jointjs / rappid
中
的循环
我正在构建一个
使用
jointjs / rappid的应用程序,我希望能够
避免
在
多个
单元格之间出现循环。Jointjs已经有了一些关于
如何
在
单个
单元格
中
避免
这种情况的示例(将"out“端口连接到同一单元格的”端口“
中
),但对于
如何
检测和防止循环
在
链
中
更高的位置上的发生没有任何了解。这就是我想要
避免
的。 任何帮助都是非常感谢的。
浏览 2
提问于2018-03-03
得票数 1
回答已采纳
1
回答
Spark
/Koalas实现pandas resample('D')方法
、
、
、
、
我有一个
Spark
数据帧需要填充。数据帧大小较大(>1亿行)。我可以
使用
pandas实现我想要的效果,如下所示。new_df = df_pd.set_index('someDateColumn') \ .
groupby
(['Column1', 'Column2', 'Column3'].reset_index(['Column1', 'Column2', 'Column3
浏览 5
提问于2020-08-04
得票数 0
2
回答
设置
多个
NSWindowController对象和NSDocument
、
、
我是NSDocument体系结构的新手,我希望为
单个
文档设置
多个
窗口(以及
多个
NSWindowController对象)。据我所知,NSDocument实际上是为了
使用
单个
窗口而创建的,而且似乎在后面增加了
多个
窗口的能力。例如,似乎NSDocument应该始终是任何窗口的NIB文件的所有者。例如,
在
NSDocument子类
中
,我目前正在
使用
以下代码: [self
浏览 2
提问于2015-10-18
得票数 0
回答已采纳
1
回答
火花DataFrame清除重复通过
GroupBy
第一
、
、
、
我正在
使用
groupBy
函数来删除火花DataFrame
中
的重复项。对于每个组,我只想选择第一行,这将是最近的一行。我不想执行max()聚合,因为我知道结果已经存储
在
Cassandra
中
,并且希望
避免
不必要的计算。看
使用
熊猫,这正是我想要的,除了
在
星火。df = sqlContext.read\
浏览 2
提问于2016-07-19
得票数 2
回答已采纳
1
回答
按文件进行
Spark
分区
、
、
我
在
一个S3存储桶上有几千个压缩的CSV文件,每个文件的大小约为30MB(解压后约为120-160MB ),我想
使用
spark
处理这些文件。
在
我的
spark
工作
中
,我对每一行执行简单的filter select查询。有没有一种方法可以获取文件和分区数据,使每个任务处理一个完整的文
浏览 0
提问于2017-09-06
得票数 1
1
回答
遍历scala
中
的文件以根据文件名创建值
、
、
、
、
我想可能有一个简单的解决方案,我想知道是否有人知道
如何
迭代一组文件并根据文件名输出一个值。 我的问题是,我想读取每个月的一组图的边,然后创建一个单独的月图。
浏览 1
提问于2016-02-05
得票数 0
1
回答
PySpark -在读取拼花后优化分区数
、
、
、
在
一个由year和month分隔的拼花数据湖
中
,
spark
.default.parallelism设置为4,假设我想创建一个DataFrame,由2017年以来的11~12个月,以及2018年的1~3个月df =
spark
.read.parquet( "A.parquet/_YEAR={2018}/_MONTH"B.parquet/_Y
浏览 1
提问于2018-06-05
得票数 2
回答已采纳
1
回答
Apache
Spark
with Java :同时启动
多个
应用程序请求
、
、
、
我们
在
java中
使用
spark
,并创建了Java REST api来调用我们的
spark
代码。
在
调用REST url时,我的java方法将创建SparkSession和上下文以进行计算。这对于
单个
请求可以很好地工作,但是对于
多个
请求,我们同时收到了与SparkContexts相关的问题:
在
同一驱动程序JVM中有
多个
SparkContexts 也尝试
使用
: conf.set("
spark
.d
浏览 0
提问于2019-06-10
得票数 1
3
回答
pyspark列不可迭代
、
当我尝试
groupBy
并获取最大值时,有了这个数据帧I正在获取列是不可迭代的:+---+-----++---+-----+ 65 linesWithSparkDF.show(10)---> 67 linesWithSparkGDF = linesWithSparkDF.
groupBy
(col("id")).agg(max(col("cycle"))) 68 print
浏览 4
提问于2016-04-29
得票数 23
回答已采纳
1
回答
DataFrame - join /
groupBy
按-agg-分区
、
、
、
、
在
RDD的日子里,每当我想要执行.
groupBy
-agg时,我都会说reduceByKey (对于PairRDDFunctions)和一个可选的分区策略(
使用
的是分区的数量或分区工具) b. join(对于PairRDDFunctions)及其变体,我曾经有一种方法可以提供许多分区
在
DataFrame
中
,
如何
指定此操作过程
中
的分区数量?我可以
在
事后
使用
repartition()。但这将是工作的另一个阶段。
在
join
浏览 0
提问于2017-07-12
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券