腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
有没有
办法
在
Spark
中
实现
矢量化
的
UDF
?
、
、
在
Pandas
中
,您可以这样做: @pandas_
udf
(df.schema, PandasUDFType.GROUPED_MAP) returnpdf.assign(v=pdf.v - pdf.v.mean()) df.groupby('id').apply(subtract_mean) 我们
有没有
办法
在
Spark
中
做到这一点?
浏览 26
提问于2021-11-09
得票数 0
1
回答
Spark
中
的
用户定义函数(
UDF
)是否
在
集群工作节点上并行运行?
、
假设我
在
python
中
创建了一个函数,所以将一个数字求幂为2: def squared(s): return s * s 然后我
在
Spark
session中注册了这个函数,如下所示:
spark
.
udf
.register("squaredWithPython", squared) 然后当我
在
Spark
SQL
中
调用
UDF
时,如下所示:
spark
.range(1, 20).
浏览 33
提问于2019-10-10
得票数 0
回答已采纳
3
回答
Spark
函数与
UDF
性能?
、
、
、
、
Spark
现在提供了可以在数据帧中使用
的
预定义函数,而且它们似乎是高度优化
的
。我最初
的
问题是哪个更快,但我自己做了一些测试,发现
spark
函数至少
在
一个实例
中
快了10倍。
有没有
人知道为什么会这样,什么时候
udf
会更快(只有
在
存在相同
的
spark
函数
的
情况下)?下面是我
的
测试代码(
在
Databricks社区版上运行): # <em
浏览 26
提问于2016-07-11
得票数 58
回答已采纳
1
回答
Spark
管道
中
的
UDF
、
、
我
在
python
中
创建了一个
UDF
,用于计算表
中
两个日期列之间
的
日期数组,并将其注册到
spark
会话
中
。我
在
管道中使用这个
UDF
来计算一个新列。现在,当我将这个流水线保存到HDFS,并希望它被读回以便在不同
的
程序
中
执行(使用不同
的
spark
会话)时,
UDF
是不可用
的
,因为它没有在任何地方全局注册。由于该进程是通用
的</e
浏览 1
提问于2018-02-12
得票数 0
1
回答
Pyspark
中
的
Pandas
Udf
在
yarn客户端或集群模式下仅在一个执行器
中
运行
、
、
、
我有一个从Hive Table读取数据并应用pandas
udf
的
代码,当它从表
中
读取数据时,它在11个执行器
中
运行,但是当它执行一个pandas
udf
时,它只使用一个执行器。
有没有
办法
指派10个执行者来执行pandas
udf
?
spark
-submit --master yarn --deploy-mode client --conf
spark
.dynamicAllocation.enabled=false -
浏览 12
提问于2020-10-01
得票数 0
1
回答
在给定行
的
Spark
DataFrame
中
并行运行
UDF
withColumn("resultA",expensiveUDF($"inputA")).show()我试图增加
spark
.task.cpus,但
浏览 2
提问于2018-11-05
得票数 0
1
回答
如何注销星火
UDF
、
、
、
我
在
Java中使用
Spark
1.6.0。 if(StringUtils.isNumeric((String)value)) {}, DataTypes.IntegerType); sqlContext.f
浏览 3
提问于2017-06-09
得票数 1
2
回答
在
Spark
dataframe withColumn方法中使用
spark
RDD.map
、
、
spark
的
情况下做了一些计算。; return first_summation.sum(); df.withColu
浏览 2
提问于2017-07-02
得票数 1
1
回答
如何注册永久
spark
udf
?
、
、
、
我想在其他会话或视图中使用我
的
udf
,那么
有没有
办法
注册用Python或scala编写
的
永久
Spark
UDF
?
浏览 4
提问于2018-12-17
得票数 1
1
回答
如何使用pandas_
udf
对(创建带有预测
的
新列)上
的
py手电筒模型进行推断?
、
、
、
、
是否有一种方法可以以
矢量化
的
方式(使用pandas_
udf
)
在
电火花数据框架上运行pytorch模型
的
推断。import torch import torc
浏览 2
提问于2020-02-05
得票数 8
1
回答
用
UDF
火花将字符串
的
嵌套ArrayType转换为日期
的
嵌套ArrayType
、
、
、
、
:f1:ArrayType(ArrayType(StringType))
的
模式我希望使用
spark
将日期值从字符串转换为日期格式。这里
的
输入可能有Array[Any]。我编写了
udf
,它适用于一维值,比如["2017-08-07","2013
浏览 4
提问于2017-08-28
得票数 0
2
回答
要应用于PySpark
中
的
窗口
的
用户定义函数?
、
、
、
、
我正在尝试将用户定义
的
函数应用于PySpark
中
的
窗口。我读到过UDAF可能是可行
的
,但我找不到任何具体
的
东西。= SparkSession.builder.master("local").config(conf=SparkConf()).getOrCreate() a =
spark
.createDataFrame([[1, "a"], [2, "b"], [3, "c"], [4, "d&qu
浏览 0
提问于2018-01-09
得票数 11
回答已采纳
2
回答
pandas_
udf
在
两个ArrayType(StringType())字段上操作
、
、
我写了一本
UDF
。它非常慢。我想用pandas_
udf
代替它,以利用
矢量化
的
优势。我知道没有
UDF
我也能达到同样
的
效果。这是因为我简化了这个例子,
浏览 0
提问于2019-09-05
得票数 3
回答已采纳
1
回答
使用PySpark并行化自定义函数
、
我熟悉使用
UDF
将自定义函数逐行应用于DataFrame。但是,我想知道如何将自定义函数并行应用于我
的
DataFrame
的
不同子集。下面是一个简化
的
例子:import pandas as pd '
浏览 1
提问于2018-07-20
得票数 2
3
回答
在
Spark
UDF
中
操作数据帧
、
、
、
我有一个从dataframe过滤和选择值
的
UDF
,但它遇到了"object not serializable“错误。详情见下文。"))java.io.NotSerializableException: org.apache.
spark
.sql.Column-object not serializable (class: org.apache.
spark
.sql.Column, value: Y1) 我查了一下,发现
浏览 20
提问于2018-02-21
得票数 3
回答已采纳
1
回答
注册匿名类功能
在编写
spark
代码时,我使用了
UDF
(用户定义函数)。
UDF
是一个接口,它以下面的方式
实现
。(SparkSession
spark
) {
spark
.
udf
().register("registerCountryCodeFunctionUDF", new
UDF
1<String当我使用
UDF
1接口创建实例时,JVM创建了
实现
UDF
1接口
的</e
浏览 32
提问于2020-01-12
得票数 0
回答已采纳
2
回答
使用
spark
实现
散列
、
、
、
、
因此,我用Java语言
实现
了分离链接散列:https://github.com/Big-data-analytics-project/Static-hashing-closed/blob/main/Static%20hashing%20closed 下一步是使用
spark
实现
它,我试着阅读教程,但我仍然迷失方向。
浏览 21
提问于2020-11-04
得票数 0
1
回答
如何在星火数据库
中
实现
链式功能?
、
、
如何在星火数据库
中
实现
链式功能?
在
我
的
代码
中
,我想先做大写,然后进行布尔转换。但我
的
密码不起作用。谢谢val trimStr: String => String = _.trim import org.apache.
spark
.sql.functions.
udf<
浏览 2
提问于2016-12-03
得票数 1
回答已采纳
2
回答
在
PySpark
UDF
酸洗错误中使用外部库
、
、
、
、
pyspark.sql import SparkSessionfrom pyspark.sql import functions as F m = MorphAnalyzer() gen = F.
udf
(gender, T.S
浏览 7
提问于2022-10-07
得票数 1
回答已采纳
1
回答
将
spark
.sql查询转换为
spark
/scala查询
、
、
我使用在scala
中
返回true/false
的
一些业务逻辑,
在
中
添加了一列。
实现
是使用
UDF
完成
的
,
UDF
有10个以上
的
参数,因此
在
使用
UDF
之前我们需要先注册
UDF
。已完成以下工作 // writing the <e
浏览 0
提问于2019-04-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
Spark实战(6)_spark-sql-e-f-i命令的整合和spark-sql日常作业开发流程总结
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
什么是Spark SQL,它的作用是什么?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券