腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scala
火花
UDF
函数,它接受输入并将其放入数组
中
、
、
、
我正在尝试为
Spark
创建一个
Scala
,它可以在
Spark
中使用。该函数
的
目标是接受任何列类型作为输入,并将其放入
ArrayType
中
,除非输入已经是
ArrayType
。下面是我到目前为止掌握
的
代码:importo
浏览 8
提问于2022-05-06
得票数 0
1
回答
将
ArrayType
列传
递给
Spark
Scala
中
的
UDF
、
、
我在
Scala
中
的
Spark
dataframe中有一个列,它是使用以下命令聚合多列后生成
的
agg(collect_list(struct(col(abc), col(aaa)).as(def)我希望将此
列传
递给
UDF
进行进一步处理,以便处理此聚合列
中
的
一个索引。当我
将
参数传
递给
我
的
UDF
时: .withColumn(def, remove
浏览 21
提问于2021-10-19
得票数 1
回答已采纳
2
回答
使用
Scala
、
Spark
UDF
中
的
类型多态性
将
一系列Map展平为Map
、
、
我有以下函数,它将字符串
的
映射序列展平为双精度。如何
将
类型字符串转换为双泛型?,DoubleType,false),Some(List(
ArrayType
(MapType(StringType,DoubleType,false),true)))) 我需要像这样
的
东西, val flattenSeqOfMaps编辑1:我使用
的
是
spark
2.3。我知道
spark
2.4
中
的
高阶函数 编辑2:我变得更接近了。在val flattenSe
浏览 34
提问于2019-03-20
得票数 1
回答已采纳
1
回答
定义一个接受
Spark
DataFrame
中
的
对象数组
的
UDF
?
、
、
、
、
在使用
Spark
的
DataFrames时,需要用户定义函数(
UDF
)来映射列
中
的
数据。
UDF
要求显式指定参数类型。在我
的
例子
中
,我需要操作一个由对象数组组成
的
列,但我不知道要使用哪种类型。对列
中
的
数据执行基本操作相对简单data.select($"topic", size($
浏览 2
提问于2016-08-18
得票数 29
回答已采纳
1
回答
具有空值
的
pyspark
UDF
check和if语句
如果传
递给
pyspark
UDF
的
数组
中
不存在空值,则此方法有效。concat_
udf
=
udf
() 我不明白我们如何通过一个带有If
的
空/无检查来适应这一点。如何正确地适应下面不起作用
的
以下内容: concat_
udf
=
udf
(
浏览 14
提问于2020-10-27
得票数 0
回答已采纳
1
回答
Spark
dataframe
中
ListType、MapType、StructType字段
的
通用处理
、
、
如何在
Scala
中
对
Spark
StructType执行通用处理,如按名称选择字段、遍历映射/列表字段等?在
spark
dataframe
中
,我有类型为"
ArrayType
“
的
列"instances”,其模式如下: instances[
ArrayType
]: 0 [ StructType:,如下所示,但我没有找到任何在
Scala
-
spark
中
实现上述伪代码<em
浏览 117
提问于2020-07-10
得票数 0
1
回答
星星之火SQL (语言而不是API)和从
UDF
访问数据行
、
、
、
我在
Spark
表达式( SQL语言)中使用自己
的
Spark
函数(不是通过
Spark
)。如果在我
的
UDF
函数中出现故障,我想使用所有列访问整行,并公开此信息(例如,通过自定义异常或日志),以更好地处理错误。现在,我不知道如何访问
UDF
中
的
行列,甚至不知道如何通过SQL
将
所有
列传
递给
我
的
UDF
。请建议一下。
浏览 1
提问于2020-02-25
得票数 2
回答已采纳
1
回答
用
UDF
火花
将
字符串
的
嵌套
ArrayType
转换为日期
的
嵌套
ArrayType
、
、
、
、
输入:f1:
ArrayType
(
ArrayType
(StringType))
的
模式 我希望使用
spark
将
日期值从字符串转换为日期格式。这里
的
输入可能有Array[Any]。我编写了
udf
,它适用于一维值,比如["2
浏览 4
提问于2017-08-28
得票数 0
1
回答
Spark
DataFrame
ArrayType
或MapType用于检查列
中
的
值
、
、
、
、
例如,我想获取其中包含特定ID
的
行数。或者使用
浏览 1
提问于2018-10-30
得票数 2
回答已采纳
1
回答
接受带有数组
的
嵌套JSON结构
的
用户定义函数
的
输入参数
的
类型是什么?
、
、
我有下面的嵌套JSON对象(cellsDF)描述多边形(许多多边形因此使用
Scala
和
Spark
): |-- geometry: struct (nullable = true) |我用
scala
编写了
UDF
来查找这些数据,但是
Spark
似乎不喜欢在这个嵌套
的
JSON上运行
UDF
的
方式。注意,还没有编写inPolygon
UDF
,只是想测试整个概念是否适用于
UDF
。candidateCells是预先定义
浏览 2
提问于2017-05-29
得票数 1
1
回答
在数组类型
的
列
spark
数据帧
中
不区分大小写
的
搜索
、
我有如下
的
spark
数据帧: |col1 |wordstime, and, money] | 我想从上面的列
中
筛选不区分大小写
的
数据目前我是这样做
的
。 df.filter(array('words, "
浏览 48
提问于2017-07-26
得票数 1
回答已采纳
2
回答
如何展平结构数组类型
的
列(由
Spark
ML API返回)?
、
、
也许只是因为我对API比较陌生,但我觉得
Spark
ML方法经常返回不必要
的
难以使用
的
DFs。
scala
> val
arrayType
=
ArrayType
(new StructType().add("itemId", IntegerType).add("ratingitemId: intege
浏览 0
提问于2017-10-14
得票数 6
回答已采纳
3
回答
如何使用
udf
更新包含数组
的
spark
数据框列
、
、
、
因此,我可以使用
udf
更新这个字段,如下所示: "Mr. " + sdf.withColumn("person(false)+---------++---------++---------+def updateArray =
udf<
浏览 30
提问于2019-10-29
得票数 3
回答已采纳
1
回答
Apache当类型是对象数组时如何获得TypedColumn?
、
、
我试图根据现有列向我
的
数据框架添加一个新列,其中数据是一个自定义对象数组。at org.apache.
spark
.sql.catalyst.encoders.ExpressionEncoder$.javaBean(ExpressionEncoder.
scala
:87) ~[
spark
-catalyst_2.11-2.2.0.jar:2.2.0] at org.apache.
spark
.sql.Encoders$.bean(Encoders.
scala
:142) ~[
spa
浏览 5
提问于2017-09-19
得票数 0
回答已采纳
1
回答
当输出是要从Pyspark使用
的
复杂类型(使用StructType和StructField)时,如何传递
Scala
UserDefinedFunction
、
、
、
、
因此,我想创建一个可以在Pyspark中使用
的
scala
UDF
。它适用于
Scala
Spark
。 我
的
问题是试图让这个在pyspark
中
可调用。import org.apache.
spark
.sql.functions.
udf
import org.apache.
spark
.sql.api.jav
浏览 29
提问于2020-10-09
得票数 4
回答已采纳
1
回答
在Apache
中
,从用户定义
的
聚合函数返回多个数组
、
、
、
、
我正在尝试使用Apache在Java
中
创建一个用户定义
的
聚合函数,该函数在完成时返回多个数组。我已经在网上搜索过了,找不到任何关于如何做到这一点
的
例子或建议。我能够返回一个数组,但无法知道如何在计算()方法
中
以正确
的
格式获取数据以返回多个数组。由于我可以在below ()方法
中
打印出数组,所以UDAF确实可以工作,但我不知道如何
将
这些数组返回给调用代码(如下所示,以供参考)。,但是关键
的
方法是dataType()和计算方法(),这是首先显示
的<
浏览 4
提问于2015-11-26
得票数 9
回答已采纳
1
回答
spark
dataframe中键值对
的
字符串(无Pyspark)
、
、
例如:我有一个带有字符串
的
列。我需要将其转换为元组或数组。主要
的
挑战是我需要整数形式
的
键和双精度形式
的
值。Array. 如果有人给我提供一个想法或建议,那就太好了。
浏览 15
提问于2020-07-15
得票数 0
回答已采纳
1
回答
将
结构
的
2D数组嵌套为二维数组
的
结构
我有一个array<array<struct<a: String, b: Int>>>类型
的
列。我想要一个struct<a: array<array<String>>, b: array<array<Int>>类型
的
列。理想情况下,这个过程应该自动取消所有struct字段(即,无需我手动指定字段"a“和"b”),但是在这里工作
的
任何内容都会非常有用。 示例代码(我正在尝试
将
ds转换为expected)。case c
浏览 2
提问于2019-06-17
得票数 3
回答已采纳
2
回答
如何在PySpark中将向量类型
的
列转换为数组/字符串类型?
、
、
、
考虑以下pyspark
中
的
dataframe:| Col A|| [0.5, 0.6]| | [1.1, 1.5]| A列
的
类型是向量,如何创建一个值为A列但类型为数组或字符串
的
新列?
浏览 1
提问于2020-03-04
得票数 1
2
回答
将
Array[struct]类型
的
两列附加到
Scala
DataFrame
的
单个列
中
、
、
add("col1",
ArrayType
(new StructType(). add("name",StringType).add("pages",IntegerType))) val df =
spark
.createDataFrame(
spark
.spark
浏览 5
提问于2022-08-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
教程:Apache Spark SQL入门及实践指南!
北风网-Spark 2.0从入门到精通
Apache Spark强势崛起
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券