腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
Dataset
joinWith
API
给出
错误
的
结果
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
这是一个小
的
测试用例,用于重现我在代码中
的
联接中看到
的
问题 case class B(val b1:String, val b2: Int)val B2= new B("Two",2)dsB.show()| b1| b2||Two| 2|val m = Map(1
浏览 19
提问于2021-01-29
得票数 0
回答已采纳
3
回答
Spark
Dataset
API
- join
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
我正在尝试使用
Spark
API
,但我在执行简单
的
连接时遇到了一些问题。假设我有两个包含字段
的
数据集:date | value,那么在DataFrame
的
情况下,我
的
连接将如下所示:val dfB : DataFrame 但是,对于
Dataset
,有.
joinWith
方法,但同样<
浏览 2
提问于2016-04-07
得票数 24
回答已采纳
2
回答
使用
Spark
数据集在Scala中执行类型化连接
scala
、
apache-spark
、
join
、
apache-spark-sql
、
apache-spark-dataset
我喜欢火花数据集,因为它们在编译时给我分析
错误
和语法
错误
,并且允许我使用getter,而不是硬编码
的
名称/数字。大多数计算都可以使用
Dataset
的
高级
API
来完成。例如,通过访问
Dataset
类型化对象来执行agg、select、sum、avg、map、filter或groupBy操作比使用RDD行
的
数据字段要简单得多。ds1.
joinWith
(ds2, ds1.toDF().col("key") ==
浏览 0
提问于2016-11-15
得票数 34
回答已采纳
1
回答
Scala数据集映射主要工作,但功能不起作用。
scala
、
apache-spark
、
dataset
、
implicit
joinWith
(ds2, ds1("id") === ds2("id"))得到预期
的
结果
。) :
Dataset
[(T, Option[V])] = { leftDs.
joinWith
(rightDs, condition_对leftJoinWith
的</
浏览 3
提问于2017-11-05
得票数 0
回答已采纳
2
回答
如何在中实现基于时间
的
两个数据集
的
连接?
scala
、
apache-spark
给出
S和R
的
两个数据集,其时间列(t)如下所述:case class S(id: String, t: Int) implicit class SOps(ss:
Dataset
[S]) { def asOfJoin(rs:
Dataset
[R])
浏览 0
提问于2018-12-26
得票数 0
回答已采纳
2
回答
如何将csv文件与配置单元中
的
表连接起来
java
、
apache-spark
、
apache-spark-sql
我对
spark
中
的
join有点问题。我已经从一些CSV加载了数据,并且我想将它们连接到hive中
的
一个表。我试着根据文档来做这件事,但是没有起作用 我将该表定义为
Dataset
<Row> table = SparkSession.sql(query); 我想和它一起
Dataset
<Row> data =
浏览 8
提问于2019-04-09
得票数 1
2
回答
火花数据集连接性能
apache-spark
、
hadoop
、
apache-spark-sql
、
apache-spark-dataset
因此,我想到
的
最简单
的
解决方案是为另一个表创建第二个数据集并执行
joinWith
。def joinFunction(dogs:
Dataset
[Dog]):
Dataset
[(Dog, Cat)] = { dogs.
joinWith
(cats, ...)在这里,我主要关注
浏览 0
提问于2019-07-12
得票数 1
1
回答
spark
中Scala/Java不兼容
的
布尔类型
java
、
scala
、
apache-spark
、
boolean
).toDS joined.show()Caused by: org.codehaus.commons.compiler.CompileException
浏览 2
提问于2017-08-23
得票数 0
1
回答
如何仅使用
Dataset
API
连接两个数据集
scala
、
apache-spark
、
apache-spark-dataset
我正在努力扁平化由连接另外两个数据集产生
的
数据集。City(0, "Warsaw"), City(2, "Sopot")).toDSval joined = family.
joinWith
(cities, family("cityId") ===cities("id"),"crossjoin")joine
浏览 31
提问于2018-06-20
得票数 0
3
回答
在
Spark
之后使用scala对象
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
我
的
假设是,我需要实现一个新
的
dataframe (即通过一个连接操作),以便在
Spark
中执行这个操作。到目前为止,这个假设是正确
的
吗?到目前为止,这是这样
的
代码: val postsFromDF1:
Dataset
[Post] = ... // dataframe read as a
Dataset
of Scala Objectsval postsFromDF2:
Dataset
[Post] = ... /
浏览 2
提问于2019-12-23
得票数 1
回答已采纳
1
回答
spark
如何在两个数据集连接后自动推断数据集?
scala
、
apache-spark
、
functional-programming
spark
有没有可能自动推断模式并将Dataframe转换为
Dataset
,而无需程序员为每个连接创建case类?import
spark
.implicits._ id: Long, val joined: DataFrame = dfLeft.join(dfRight) // this results in DataFrame instead of a
Data
浏览 12
提问于2021-10-04
得票数 1
回答已采纳
1
回答
给定事件
的
开始和结束时间,如何使用火花计算同时发生
的
事件
的
数量?
scala
、
apache-spark
给定一个庞大
的
事件数据集,每个事件
的
开始和结束时间如下:|id | startTime,如何计算同时发生
的
事件
的
数量?||2018-01-01 00:00:...| 0|这是针对batch用例
的
,下面是使用
Spark
的
浏览 0
提问于2018-09-26
得票数 0
回答已采纳
1
回答
星星之火在范围内未解析
scala
、
apache-spark
、
implicit
._ a.
joinWith
], Unit =>
Dataset
[MyCaseClassB]) =>
Dataset
[AB] = (a, b) => a然而,最终发生
的
浏览 5
提问于2020-09-03
得票数 0
回答已采纳
1
回答
使用星火数据集
的
Typesafe连接比我预期
的
更安全
scala
、
apache-spark
在试图使这个到作为隐式可用
的
过程中,我遇到了一些我不理解
的
东西。在下面的测试中,innerJoin
的
签名是def innerJoin[U, K](ds2:
Dataset
[U])(f: T => K, g: U => K)(implicit e1: Encoder[我希望在编译时会出现
错误
,但它编译得很好。为什么会这样呢?实际情况是,它编译得很好,当
Spark
试图创建一个产品编码器时,java.lang.ClassNotFoundException: scala.Any测试就
浏览 1
提问于2018-08-21
得票数 0
回答已采纳
2
回答
Spark
结构化流中
的
外部连接两个数据集(非DataFrames)
scala
、
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
所以我尝试
的
是非常简单
的
: expr(, joinType = "leftOuter")但是,这会产生以下
错误
: org.apache.
spark
.sql.A
浏览 0
提问于2018-07-09
得票数 7
回答已采纳
1
回答
使用
Spark
SQL
joinWith
,我如何连接两个数据集,以基于日期将当前记录与其以前
的
记录进行匹配?
scala
、
apache-spark-sql
、
dataset
我正在尝试使用
joinWith
在
Spark
SQL中连接两个仪表读数
的
数据集,这样返回
的
类型就是
Dataset
(读数,读数)。目标是根据日期列将第一个数据集中
的
每一行(称为当前)与其在第二个数据集中
的
上一条记录(称为上一条)进行匹配。我需要首先加入计量键,然后通过比较日期来加入,找到比当前读数日期(即前一个读数)小
的
下一个最大日期。 这是我尝试过
的
,但我认为这太微不足道了。我也得到了一个‘无法解决’
的
最大
错误
浏览 79
提问于2020-01-17
得票数 0
1
回答
突触中火花应用程序
的
检查点目录
apache-spark
、
apache-spark-sql
、
azure-synapse
如何在突触分析中为火花池设置有效
的
火花检查点目录?在中,我使用了以下方法(c#用于
spark
):然而,在synapse上同样
的
事情也
给出
了警告:如果我根本不提供任何检查点目录,那么执行器就会失败: 2022-07-15T23:34:20.7303213Z
错误
org.apache.
spark
.SparkException:检查点目录未在org.apache
浏览 6
提问于2022-07-15
得票数 0
1
回答
星火数据集:示例:无法生成编码器问题
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
、
apache-spark-encoders
新
的
激发世界和尝试一个用scala编写
的
数据集示例,这是我在网上找到
的
。在通过SBT运行它时,我继续获取以下
错误
at org.apache.
spark
.sql.
Dataset
.<init>(
Dataset
.scala:79) at org.apache.
spark
浏览 5
提问于2016-10-25
得票数 8
回答已采纳
1
回答
如何在Scala中创建一个Typesafe数据集
scala
、
apache-spark
、
apache-spark-dataset
背景我可以用内在
的
连接来做这件事。问题,如果不管(左)外部连接类型如何,该函数在任何一侧都不返回选项,那么如何使用
Dataset
.
joinWith
(rightDS, condition, "left")?它似乎要么需要在“外部”侧返回一个选项(如果执行左联接,则返回
浏览 4
提问于2021-05-28
得票数 2
1
回答
为什么RDD.getStorageLevel.useMemory返回true,但是
Spark
存储不显示缓存
的
数据?
scala
、
apache-spark
、
caching
、
rdd
下面是我遵循
的
命令:res12: Boolean = false res13at filter at <console>:29 res14: Boolean = true有什么遗漏了吗?如果命令行显示它已被缓
浏览 2
提问于2017-12-07
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
Spark的核心组件是什么?
Spark之SparkSQL
Spark2.0新特性分析,看看你都是用到哪些了?
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券