腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我
可以
让
Spark
只
在
必要
的
行
上
运行
UDF
吗
?
apache-spark
、
pyspark
、
apache-spark-sql
我
刚刚开始使用pyspark,无法
让
我
的
UDF
仅在
必要
的
行
上
运行
。相反,它在所有
行
上
运行
。
我
确实在一个相关
的
帖子中找到了一些信息:Is
Spark
only applying my
UDF
on records being shown?。下面是一个简短
的
例子,展示了
我
浏览 8
提问于2019-05-18
得票数 0
1
回答
udf
来自SparkSession和
udf
来自pyspark.sql.functions有什么区别?
apache-spark
、
pyspark
、
apache-spark-sql
、
user-defined-functions
我
有两种方法来使用
udf
:
spark
= pyspark.sql.SparkSession.builder.getOrCreate()output:print(
udf
)<function py
浏览 4
提问于2021-12-20
得票数 0
回答已采纳
1
回答
在
星火中调用Scala时,如何将BinaryType转换为Array[Byte]?
scala
、
apache-spark
、
user-defined-functions
我
用Scala编写了以下
UDF
:import java.util.zip.return output Decompress(compressed)然后,
我
浏览 1
提问于2021-05-01
得票数 0
回答已采纳
1
回答
在
UDF
如何通过Row?
java
、
apache-spark
、
apache-spark-sql
我
正在用Java编写一个
UDF
。
UDF
1<Dataset<Row>,String> myUDF = new
UDF
1<Dataset<Row>,String>() {
浏览 0
提问于2018-12-16
得票数 1
1
回答
星星之火:将每个任务强制执行到一个独立
的
执行器
上
。
python
、
apache-spark
、
pyspark
假设我们有一个20
行
的
SparkDataFrame。
我
在
执行一些昂贵
的
计算
的
每一
行
上
都应用了一个吡火花
UDF
。这两个任务都在单个(相同)执行器
上
执行。显然,这不是
我
想要
的
,
我
想
让
每个任务
在
一个单独
的
执行者
上
并行
运行
。
我
将dat
浏览 9
提问于2022-10-03
得票数 1
1
回答
为什么这个List[String]到数据仓库NullPointerException
在
斯派克斯卡拉?
scala
、
apache-spark
我
不确定,这个异常是发生在某些
行
上
,还是总是因为dataframe很大而无法指向
行
。很抱歉没有粘贴到这里
的
整个代码,
我
尽
我
最大
的
努力来最小化失败
的
代码在这里。下面是
我
在
实际代码中遇到
的
例外情况:
浏览 0
提问于2018-11-30
得票数 0
回答已采纳
2
回答
在
Spark
dataframe withColumn方法中使用
spark
RDD.map
python
、
apache-spark
、
pyspark
我
有以下代码:from pyspark.sql import *;from20',20.0,30200), schema=schema); 然后
我
在
没有使用
spark
的
情况下做了一些计算
浏览 2
提问于2017-07-02
得票数 1
1
回答
Spark
管道中
的
UDF
apache-spark
、
pyspark
、
user-defined-functions
我
在
python中创建了一个
UDF
,用于计算表中两个日期列之间
的
日期数组,并将其注册到
spark
会话中。
我
在
管道中使用这个
UDF
来计算一个新列。现在,当我将这个流水线保存到HDFS,并希望它被读回以便在不同
的
程序中执行(使用不同
的
spark
会话)时,
UDF
是不可用
的
,因为它没有在任何地方全局注册。由于该进程是通用
的
,并且需要
运行
浏览 1
提问于2018-02-12
得票数 0
1
回答
似乎不适用于星火提交。
scala
、
apache-spark
、
apache-spark-sql
、
udf
我
无法
让
UDF
与火花提交工作。
我
在
使用火花壳
的
时候没有任何问题。会感谢你
的
帮助
的
!-你好,文奇 Exception in thread "main" java.lang.NoSuchMethodError: scala.refle
浏览 2
提问于2016-08-17
得票数 3
回答已采纳
2
回答
v2
在
Azure数据工厂中
的
HDInsight/
Spark
活动没有选项指定火花提交
的
--文件参数
apache-spark
、
hadoop-yarn
、
azure-data-factory-2
、
azure-hdinsight
、
.net-spark
我
已经
在
Azure中创建了一个HDInsight集群(v4,
Spark
2.4),并希望通过Azure Data v2活动在这个集群
上
运行
一个
Spark
.Ne应用程序。
在
星火活动中,
可以
指定jar
的
路径、-class参数和传递给
Spark
应用程序
的
参数。这些参数在
运行
时自动以"-args“作为前缀。但是,能够设置“--文件”是
必要
的
,因为
浏览 15
提问于2020-10-29
得票数 0
2
回答
将拼花文件从S3加载到DynamoDB
amazon-web-services
、
amazon-s3
、
amazon-dynamodb
、
amazon-emr
、
parquet
我
一直
在
寻找从S3到DynamoDB加载Parquet文件
的
选项(基本
上
是空
的
和还原
的
)。拼花文件本身是通过
运行
在EMR集群
上
的
火花作业创建
的
。这里有几件事要记住, 文件将包含数百万行(比如1000万
行
),因此需要一个有效
的
解决方案。
我
相信boto (即使是批处理写入)可能没有那么有效?还有其他选择
吗</
浏览 0
提问于2019-04-23
得票数 1
1
回答
星星之火:通过
UDF
分配低数量
的
计算密集型任务。
python
、
apache-spark
、
pyspark
、
databricks
、
azure-databricks
我
有一个火花集群,有5个工作节点可供计算(
在
Azure中)。然而,
我
需要解决
的
任务不同于一个典型
的
火花用例:不需要对数百万行应用一个简单
的
任务,
我
必须对60
行
数据
运行
一个非常复杂
的
操作。这似乎是这样
的
,
运行
num_executors = len(
spark
.sparkContext._jsc.sc().statusTracker().getExecutorInf
浏览 2
提问于2021-09-28
得票数 3
回答已采纳
1
回答
通过Azure + DataBricks + MLFlow进行令人尴尬
的
并行超参数搜索
databricks
、
azure-databricks
、
mlflow
我
的
公司正在推广Azure + DataBricks。
我
正在试着理解这会把我们带到哪里。
我
正在将我
在
本地完成
的
一些工作移植到Azure + Databricks平台。
我
想使用Azure + Databricks + MLfLow对大量
的
超参数组合进行实验。
我
正在使用PyTorch来实现
我
的
模型。
我
有一个包含8个节点
的
集群。
我
想以一种令人尴尬<
浏览 14
提问于2020-07-07
得票数 0
回答已采纳
1
回答
在给定
行
的
Spark
DataFrame中并行
运行
UDF
apache-spark
withColumn("resultA",expensiveUDF($"inputA")).show()
我
试图增加
spark
.ta
浏览 2
提问于2018-11-05
得票数 0
1
回答
Spark
(Java)从现有的
UDF
转换中创建自定义转换器
java
、
apache-spark
、
user-defined-functions
我
的
代码中有很多自定义
的
Dataframe转换。第一组是简单
的
造型:第二组是
UDF
转换: dframe =
浏览 0
提问于2016-10-26
得票数 0
2
回答
Pyspark应用程序仅部分利用dataproc集群资源
python-2.7
、
apache-spark
、
hadoop
、
google-cloud-dataproc
我
的
pyspark应用程序
在
106,36MB
的
数据集(817.270条记录)
上
运行
UDF
,使用常规
的
python lambda函数需要大约100个小时。
我
已经创建了一个包含20个工作节点
的
Google Dataproc集群,每个工作节点有8个vCPU。但是,
在
执行时,总共
只
使用3个节点和3个vCPU。显然,
我
希望集群使用
我
提供
的
浏览 10
提问于2019-07-23
得票数 4
回答已采纳
1
回答
过滤并不真的删除
行
?
apache-spark
、
dataframe
、
pyspark
、
apache-spark-sql
、
user-defined-functions
我
的
数据经过两个连续
的
过滤传递,每个都使用一个布尔值
的
UDF
。第一个筛选移除列
在
某些广播字典中未作为键出现
的
所有
行
。第二个筛选对此字典与当前键相关联
的
值施加阈值。如果
我
只
在
第一次筛选之后显示结果,那么包含“c”
的
行
就不会像预期
的
那样出现在其中。但是,试图显示第二个筛选
的
结果会导致u'c‘
的</
浏览 0
提问于2018-01-27
得票数 2
回答已采纳
2
回答
在
大型数据集中
运行
Pandas时出现问题
python
、
apache-spark
、
pyspark
、
pyarrow
我
的
数据集相当大,分为七个主分区,每个分区由78m
行
组成。数据集由70列组成。
我
在其中定义了一个Pandas来对dataset执行一些操作,这些操作只能使用Python
在
Pandas数据基
上
完成。return pdf
在
执行操作之前,绝对没有办法
让
Pandas
在
崩
浏览 1
提问于2019-12-26
得票数 5
回答已采纳
2
回答
在
星火Dataset<Row>中使用custome
UDF
withColumn;不能将java.lang.String转换为org.apache.
spark
.sql.Row
java
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
、
apache-spark-dataset
我
有一个包含许多字段
的
JSON文件。
我
在
java中使用
spark
的
Dataset读取该文件。 .getOrCreate();
我
想使用withColumn") ) ).show();
浏览 2
提问于2017-08-25
得票数 4
回答已采纳
1
回答
Spark
中
的
用户定义函数(
UDF
)是否
在
集群工作节点
上
并行
运行
?
apache-spark
、
user-defined-functions
假设
我
在
python中创建了一个函数,所以将一个数字求幂为2: def squared(s): return s * s 然后
我
在
Spark
session中注册了这个函数,如下所示:
spark
.
udf
.register("squaredWithPython", squared) 然后当我
在
Spark
SQL中调用
UDF
时,如下所示:
spark
.range(1, 20).
浏览 33
提问于2019-10-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
教程:Apache Spark SQL入门及实践指南!
Apache Spark强势崛起
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券