腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(8063)
视频
沙龙
1
回答
尝试
更改
Spark
数据
帧
中
多
列
中
的
多个
值
时
,
ASW
spark
作业
超时
、
、
作为glue工作
的
一部分,我正在
尝试
更改
多个
列
中
的
多个
值
。不管怎么说,我写
的
函数完全
超时
了。我在函数
中
添加了注释,以指出问题所在。 是什么导致胶合
作业
不将
作业
分配给执行者?
浏览 20
提问于2021-10-25
得票数 0
1
回答
由于DeadlineExceededException,
Spark
作业
无法写入Alluxio
、
我正在运行一个
Spark
作业
,写到一个有20个工作者
的
Alluxio集群(Alluxio 1.6.1)。由于alluxio.exception.status.DeadlineExceededException,
Spark
作业
无法写入其输出。这名工人还活着,来自阿卢西奥WebUI。alluxio.exception.status.DeadlineExceededException: Timeout writing to WorkerNetAddress{host=
spark
-74domai
浏览 7
提问于2018-11-16
得票数 2
1
回答
Sparklyr on Databricks -在具有
多个
NaN
值
的
sparklyr
数据
帧
上按行取
多
列
的
平均值
、
、
、
、
我正在
尝试
为sparklyr
数据
帧
创建最小、最大和平均列。我只想在计算
中
按行使用该大型
数据
帧
中
的
5
列
。
列
中有许多NaN
值
,这些
值
可能是计算对象。在标准R
中
,使用
的
代码是: df_train$MinEncoding <-
spark
_apply(df_train,f=min ,columns=[,EncodingFeatur
浏览 13
提问于2019-10-15
得票数 1
3
回答
如何处理
spark
sql
中
缺少
的
列
、
、
我们正在处理无模式
的
JSON
数据
,有时
spark
作业
会失败,因为我们在
spark
SQL
中
引用
的
一些
列
在一天
中
的
某些时间内不可用。在这些小时内,
spark
作业
失败,因为所引用
的
列
在
数据
帧
中
不可用。我
尝试
过UDF,但是我们缺少太多
的
列
,所以不
浏览 5
提问于2018-08-10
得票数 2
2
回答
如何在Airflow dag中途成功退出任务?
、
我有一个在FTP服务器上检查文件
的
dag (airflow在单独
的
服务器上运行)。如果文件存在,则将文件移动到S3 (我们在此存档)。从那里,文件名被传递给
Spark
提交
作业
。
spark
作业
将通过S3 (不同服务器上
的
spark
集群)处理文件。我不确定是否需要
多个
dags,但流程如下。我要做
的
是,如果S3存储桶
中
存在文件,则只运行
Spark
作业
。我
尝试</
浏览 1
提问于2017-06-24
得票数 1
2
回答
Spark
调度器thershold
、
我在
Spark
上运行一些分析工具,这会产生大量
的
开销,所以计算需要更多
的
时间。当我运行它
时
,我得到这个错误:问题是-我可以在某
浏览 0
提问于2016-08-31
得票数 0
4
回答
Spark
dataframe添加新
的
列
问题-结构化流
、
我正在使用
spark
Structured。我有一个
数据
帧
,并添加了一个新
列
"current_ts“。当
作业
被触发
时
,它更新相同
的
epcoh时间,从而使DF
中
的
每一行都具有相同
的
值
。这在正常
的
spark
工作
中
效果很好。这是
spark
structured
的
问题吗?
浏览 1
提问于2018-04-01
得票数 4
1
回答
如何修复来自apache-
spark
的
对等消息导致
的
连接重置?
、
经过研究,我发现我可以做.set("
spark
.submit.deployMode", "nio");,但这也不起作用,我使用
的
是
Spark
2.0.0 WARN TransportChannelHandler
浏览 2
提问于2016-09-06
得票数 23
回答已采纳
2
回答
Spark
中
的
bucketBy和partitionBy有什么不同?
、
、
、
、
difference .saveAsTable("someTable") 我猜,在第一种情况下,bucketBy创建了4个带有国家
的
目录,而partitionBy将在“国家”
列
中
创建与
多个
唯一
值
一样
多
的
目录。这是正确
的
理解吗?
浏览 0
提问于2021-05-19
得票数 0
1
回答
使用
spark
-redis加载
数据
集
时
出现问题
、
、
、
我正在
尝试
使用
spark
-redis加载
数据
集,但操作总是失败。我
尝试
写入
的
spark
dataframe有8500万行,但写入操作在2500万行之后大致失败。我想知道如何解决这类问题。").option("table", "output_table").option("key.column", "id").option("dbNum", 0).save(); 我正在
尝试
浏览 100
提问于2021-06-11
得票数 2
1
回答
将
数据
帧
从
spark
集群写入cassandra集群:分区和性能调优
、
、
、
、
Cloudera Hadoop-
Spark
作业
在此处运行2.Cloud - Cassandra集群,
多个
DC<code>A0</code> 在我
的
多
租户
spark
集群
中
浏览 25
提问于2020-06-08
得票数 1
回答已采纳
1
回答
通过连接比较两个pyspark
数据
帧
、
、
、
我有两个pyspark
数据
帧
,它们
的
行数不同。我试图通过在
多个
键上连接这两个
数据
帧
来比较所有
列
中
的
值
,这样我就可以找到这些
列
中
具有不同
值
的
记录和具有相同
值
的
记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id','a
浏览 14
提问于2021-02-13
得票数 0
2
回答
在pyspark
中
读取太多
的
小文件需要花费很多时间
、
、
我已经编写了pyspark
作业
来加载s3存储桶
中
存在
的
文件。在s3
中
有太多
的
小文件,我在
spark
中一个接一个地读文件。我正在一个接一个地读取文件,因为我添加了一个
列
,该
列
具有文件所在
的
存储桶路径
的
值
。由于这个
spark
作业
花费了大量
的
时间,因为它忙于一个接一个地迭代文件。下面是实现该功能
的
代码: for filepathins
浏览 7
提问于2020-12-08
得票数 0
1
回答
更改
spark
_temporary目录路径,避免删除parquets
、
、
当两个或
多个
Spark
作业
具有相同
的
输出目录
时
,相互删除文件将不可避免。我正在使用
spark
2.4.4在append模式下写入一个
数据
帧
,我想在
spark
的
tmp目录
中
添加一个时间戳,以避免这些删除。示例:使用其他
数据
调用
浏览 20
提问于2020-03-19
得票数 1
2
回答
Spark
:线程"main“org.apache.
spark
.sql.catalyst.errors.package
中
的
异常
、
在运行我
的
spark
- my代码
时
,我在执行时得到了这个错误。我只是好奇地想知道这个TreeNodeException错误是什么。Exception in thread “main” org.apache.
spark
.sql.catalyst.errors.package
浏览 2
提问于2017-10-25
得票数 8
3
回答
从EMR迁移到AWS Glue后,在
Spark
SQL
中
找不到表
、
、
我在EMR上有
Spark
作业
,并且EMR被配置为对Hive和
Spark
元
数据
使用Glue目录。我创建了Hive外部表,它们出现在Glue目录
中
,我
的
Spark
作业
可以在
Spark
SQL
中
引用它们,比如
spark
.sql("select * from hive_table ...")现在,当我
尝试
在Glue
作业
中
运行相同<em
浏览 29
提问于2019-02-09
得票数 1
2
回答
在
spark
结构化流
中
写入来自kafka / json
数据
源
的
损坏
数据
、
、
在
spark
批处理
作业
中
,我通常会将JSON
数据
源写入到一个文件
中
,并且可以使用DataFrame阅读器
的
损坏
列
功能将损坏
的
数据
写出到不同
的
位置,并使用另一个阅读器从同一
作业
中
写入有效
数据
。(
数据
写为拼接) 但在
Spark
Structred Streaming
中
,我首先通过kafka将流作为字符串读取,然后使
浏览 34
提问于2018-12-27
得票数 1
回答已采纳
1
回答
如何在aws胶水
作业
中
重写couchbase查询
超时
?
、
、
、
、
我试图使用在aws胶水
作业
中
运行Couchbase查询。(CbN1qlQuery), "bucket-name", Some(Duration(130, SECONDS)))System.setProperty("com.couchbase.env.timeout.queryTimeout",
浏览 8
提问于2022-05-17
得票数 2
回答已采纳
1
回答
使用
spark
datastax连接器忽略具有
数据
帧
的
空
值
、
、
、
、
我们有一个超过50
列
的
Cassandra模式,我们通过使用
Spark
(
数据
帧
而不是rdd)转换
数据
来将来自
多个
数据
源
的
数据
插入到其中。 我们遇到了许多墓碑
的
问题,因为我们
的
数据
是稀疏
的
。我已经
尝试
过
spark
.cassandra.output.ignoreNulls=true,但它不工作。在cassandra
浏览 1
提问于2019-08-26
得票数 1
1
回答
如何使用scala评估
Spark
中
的
minHashLSH?
、
、
、
我有一个学术论文
的
数据
集,它有27770篇论文(节点)和另一个文件(图形文件),其中
的
原始边有352807个条目。我想计算minHashLSH来查找相似的文档,并预测两个节点之间
的
链接!下面你可以看到我
尝试
用scala在
spark
上实现这一点。我面临
的
问题是我不知道如何评估结果!我
的
结果以nodeAId,nodeBId,JaccardSimilarity
的
形式出现。它们都是
数据
帧
。如何评估我
浏览 3
提问于2019-01-27
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券