腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
在不从
DataFrame
转换和
访问
数据集
的
情况下向Dataset添加
列
?
scala
、
apache-spark
我知道使用.withColumn()向星火.withColumn()添加新
列
的
方法,以及返回
DataFrame
的
UDF
。我还知道,我们可以将结果
DataFrame
转换为DataSet。我
的
问题是: 如果我们仍然遵循传统
的
DF方法(即将列名作为
UDF
输入
的
字符串传递),DataSet
的
类型安全性是
如何
发挥作用
的
?是否有一种“面向对象
的
方式”来<
浏览 1
提问于2016-11-15
得票数 11
回答已采纳
1
回答
如何
通过
scala
访问
udf
中
的
dataframe
列
值
dataframe
、
scala
、
apache-spark
、
apache-spark-sql
我正在尝试向
dataframe
添加一
列
,使用来自特定
列
的
值
--让我们假设它是一个id--从另一个df
中
查找它
的
实际
值
。String): String { .where(s”id = ‘$id’”).as[String].first } 如果我
通过
传递一个id字符串自己测试查找def,它会返回相应
的
值
。但是我很难找到在
浏览 13
提问于2021-11-20
得票数 0
回答已采纳
1
回答
在Pyspark中使用具有多个参数
的
Scala
UDF
scala
、
apache-spark
、
pyspark
、
user-defined-functions
我有一个用
Scala
编写
的
UDF
,我希望能够
通过
Pyspark会话调用它。
UDF
有两个参数,字符串列
值
和第二个字符串参数。如果
UDF
只需要一个参数(
列
值
),我就可以成功地调用它。以下是我到目前为止在
Scala
和Pyspark中所能做
的
事情:class SparkUDFTest() extends Serializable { def s
浏览 1
提问于2018-02-12
得票数 2
1
回答
如何
计算
dataframe
列
的
平均值并找到前10%
apache-spark
、
scala
我对
Scala
和Spark非常陌生,我正在用棒球统计做一些自制
的
练习。我正在使用case类,创建一个RDD并为数据分配一个模式,然后将其转换为一个
DataFrame
,这样我就可以使用SparkSQL来
通过
满足特定条件
的
统计数据来选择玩家组。一旦我有了我感兴趣
的
球员
的
子集,我想找到一个
列
的
平均值;例如打击平均数或打点。从那以后,我想根据所有球员
的
平均表现,把他们分成百分位组;前10%,最低10%,40-50%。但是,我
浏览 0
提问于2015-07-22
得票数 14
回答已采纳
1
回答
加入数据和数据集时
的
Scala
MatchError
dataframe
、
scala
、
apache-spark
Paris, Country -> France} |31 | 我试图
通过
检查
列
"City_Name“
中
的
映射是否包含在
列
"Country_Details”
的
映射中来连接它们。dataset2.join(
dataframe
1 , mapEqual(dataset2("Country_Details"
浏览 3
提问于2022-07-18
得票数 0
1
回答
Scala
-当我们将GMM模型与数据拟合成两个单独
的
列
时,
如何
将我们得到
的
概率
列
(向量
列
)分开?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-mllib
prob1 & prob2,每个
列
都有对应
的
值
,如probability
列
中所示。我发现了类似的问题--一个在PySpark
中
,另一个在
Scala
。我不知道
如何
翻译PySpark代码,而且我收到了
Scala
代码
的
错误。'c1'), split2_
udf
('probability').alias('c2')) 或将这些
列
附加到原始<e
浏览 3
提问于2017-06-13
得票数 5
回答已采纳
1
回答
Apache注册一个
UDF
返回
的
数据
scala
、
apache-spark
、
user-defined-functions
我有一个返回数据
的
UDF
。就像下面的那个res3: org.apache.spark.sql.
DataFrame
时我遇到了一个错误 java.lang.UnsupportedOperationException
浏览 3
提问于2016-12-20
得票数 3
回答已采纳
1
回答
java,
如何
在spark 1.4.1
中
调用
UDF
java
、
apache-spark
、
user-defined-functions
、
spark-dataframe
在spark 1.4.1
中
,callUdf方法
的
参数是没有任何方法可以直接作用于
列
,如1.5.1
中
的
方法那么
如何
在1.4.1
中
调用
UDF
呢?或
如何
将
列
类型更改为
scala
.collectio
浏览 1
提问于2016-11-28
得票数 0
回答已采纳
1
回答
无法将函数应用于
列
scala
、
apache-spark
、
dataframe
、
udf
我正在尝试将一个函数应用到我
的
dataframe
列
之一,以转换
值
。
列
中
的
值
类似于"20160907“,我需要
的
值
是"2016-09-07”。
scala
代码
中
,我使用
的
是: val oneDF = hiveContext.read.orc("/tmp/new_file.txt&qu
浏览 4
提问于2017-05-18
得票数 0
回答已采纳
2
回答
使用NonPrimitive数据类型创建
UDF
函数并在Spark查询中使用:
Scala
scala
、
apache-spark
、
hive
、
apache-spark-sql
我正在
scala
中
创建一个函数,我想在我
的
星星之火中使用它-- sql query.my查询在单元格
中
运行良好,或者如果我在星火sql中提供相同
的
查询,但是在多个地方使用相同
的
查询,所以我希望将它作为可重用
的
函数我在
scala
类
中
创建了下面的函数。For 'substr': 未找到:
值
substr。另外,如果我正在创建任何简单
的
函数(同时以类型作为
列
),我无法注
浏览 3
提问于2020-05-07
得票数 0
回答已采纳
2
回答
将映射
列
转换为结构
列
dataframe
、
scala
、
apache-spark
、
dictionary
、
struct
我有一个
dataframe
,其中一个
列
是map类型
的
。映射来自
UDF
和
dataframe
的
现有
列
。我使用
Scala
2.10,地图
的
列有50多个字段。
浏览 6
提问于2017-08-18
得票数 1
回答已采纳
3
回答
Scala
在中断字符串后返回
UDF
中
的
多个
列
。
scala
、
apache-spark
、
spark-dataframe
、
user-defined-functions
我正在尝试打破一个字符串(技术上是从
dataframe
的
列
中
传递
的
字符串),并将这些破碎
的
字符串作为列表返回到
dataframe
。
Scala
版本2.11。我更喜欢使用
udf
的
scala
或pyspark解决方案--因为在
udf
内部发生了很多事情。(在
udf
中
,因为那里发生了很多事情;
Scala
版本2.11)
浏览 4
提问于2018-04-24
得票数 1
回答已采纳
2
回答
如何
在不指定每一
列
的
情况下将整行作为参数传递给Spark (Java)
中
的
UDF
?
java
、
apache-spark
、
apache-spark-sql
UDF
所做
的
就是检查广播HashMap是否包含rowKey,如果包含,则返回一个新行,其中包含输入行
中
的
一些现有
值
,以及来自广播HashMap
的
一些更新
的
值
。如果没有,则按原样返回输入行。我这样做是因为我想根据HashMap
中
的
值更新行列
值
。"),
浏览 10
提问于2017-05-22
得票数 3
1
回答
将ArrayType列传递给Spark
Scala
中
的
UDF
scala
、
apache-spark
、
apache-spark-sql
我在
Scala
中
的
Spark
dataframe
中有一个
列
,它是使用以下命令聚合多
列
后生成
的
agg(collect_list(struct(col(abc), col(aaa)).as(def)我希望将此列传递给
UDF
进行进一步处理,以便处理此聚合
列
中
的
一个索引。当我将参数传递给我
的
UDF
时: .withColumn(def, remove
浏览 21
提问于2021-10-19
得票数 1
回答已采纳
1
回答
迭代
的
列
并更新指定
的
值
scala
、
apache-spark
、
hive
、
apache-spark-sql
为了迭代从Hive表创建
的
Spark
列
并更新所有所需
的
列
值
,我尝试了以下代码。import org.apache.spark.sql.functions._ val a:b = {for (column: String <- required_columns) { a.withColumn(colu
浏览 0
提问于2018-05-06
得票数 0
回答已采纳
2
回答
Scala
-
如何
将Dataset[Row]转换为可以添加到
Dataframe
的
列
scala
、
apache-spark
、
dataframe
、
dataset
我试图将一个
列
的
数据main添加到更大
的
dataframe
中
,但是,第一个
dataframe
的
问题是,在创建它之后,尝试
通过
命令将其添加到主
dataframe
中
: required: org.apache.spark.sql.Column** 我知道DatasetRow应该是
Dataframe
浏览 0
提问于2018-05-20
得票数 3
回答已采纳
2
回答
不使用
UDF
从
dataframe
访问
scala
映射
scala
、
apache-spark
、
apache-spark-sql
、
rdd
、
user-defined-functions
我有一个Spark (版本1.6)
Dataframe
,我想添加一个包含在
Scala
中
的
值
的
列
,这是我
的
简化代码:valdf2 = df.withColumn("newVal", map(col("key"))) 此代码不工作,显然我收到以下错误,因为映射在接收
列
浏览 2
提问于2018-05-18
得票数 2
回答已采纳
1
回答
将元组列表作为参数传递给
scala
中
的
spark
scala
、
apache-spark
、
udf
我试图将元组列表传递给
scala
中
的
udf
。我不知道
如何
准确地定义数据类型。我试着把它作为一整行传递,但它不能真正解决它。我需要根据元组
的
第一个元素对列表进行排序,然后将n个元素发回。我为
udf
尝试了以下定义 def udfFilterPath=
udf
((id: Long, id
浏览 3
提问于2017-01-09
得票数 6
回答已采纳
1
回答
有一个星火内置
的
扁平嵌套数组吗?
scala
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
我有一个
DataFrame
字段,它是一个Seq[Seq[String]],我构建了一个
UDF
来将所述
列
转换为SeqString
列
;基本上,是用于
Scala
中
的
flatten函数
的
UDF
。def combineSentences(inCol: String, outCol: String):
DataFrame
=>
DataFrame
= { def flatfunc(seqOfSe
浏览 0
提问于2019-01-19
得票数 1
回答已采纳
1
回答
火花数据计算柱
scala
、
apache-spark
、
apache-spark-sql
我正在学习星星之火(
scala
),并且我正在创建一个带有派生
列
的
dataframe
。我正在努力找出最佳做法。我
的
用例有两个派生
列
,它们寻找另一个
列
的
值
-例如- if (col22 = "USD") then col1 = "US" elseif (col22 = "CDN" the col1 = "CA" else我想知道有什么更好
的
方法
浏览 3
提问于2016-06-18
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
用神经网络算法,预测乳腺肿瘤性质
年薪50万+的大数据工程师需要具备哪些技能?
肝了3天,整理了90个Pandas案例
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券