腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在
spark
中
连接
两个
数据
帧
并添加字段
、
、
、
例如,我有
两个
数据
帧
, DF1|id | value1|value2|value3|| 2 |200 |300 |400 |+----+-------+------+------+ 我想按id
合并
这
两个
数据
帧
,同时将
两个
数据
<em
浏览 19
提问于2019-03-30
得票数 1
2
回答
当编码时Row模式未知时,如何将string与Row
合并
以创建新的
spark
dataframe?
、
、
、
、
我计划将此函数应用于不同模式的各种
数据
帧
。这些
数据
帧
非常庞大,每个
数据
帧
有数百万行,但每个
数据
帧
都有一个定义好的模式 我想创建另一个函数,它将调用第一个函数,将函数的输出字符串与它发送到函数的行
合并
,并创建一个新的
数据
帧
,该
数据
帧
将作为第二个函数的输出这
两个
函数都将在
spark
-
scala
环境
中</em
浏览 46
提问于2019-10-15
得票数 0
回答已采纳
1
回答
如何
合并
或连接
spark
中
列号不相等的
数据
帧
、
、
、
、
我正在做一个使用
spark
的项目。
在
某些阶段,我需要在单个
数据
帧
中
合并
或连接3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我使用了联合函数,它已经
合并
了
两个
表
中
具有相同编号的列,但我也需要
合并
不相等的列值。我现在很困惑,有没有办法
在
pyspark
中
合并
或连接不相等的基于列的
浏览 13
提问于2016-09-22
得票数 0
3
回答
如何比较SQL语句中两种
数据
的模式?
、
、
在
spark
(如 )
中
,有许多方法来验证
两个
数据
帧
的架构。但是我只想在SQL
中
验证
两个
数据
帧
的模式,我指的是SparkSQL。
中
没有
数据
库(模式)的概念,但是我读到了包含模式信息等的亚稳态。我们可以
在
SparkSQL
中
编写像上面这样的SQL查询吗?我只是
在
检查为什么显示create没有使用
spark
浏览 6
提问于2018-09-04
得票数 1
4
回答
在
scala
spark
中
合并
两个
数据
帧
、
我有
两个
数据
帧
: dataframe1: +-----++-----++-------------++-----++-----++----|| 7|| nmb|| true | +-----++-----++--------------+ 我必须
合并
这些
数据
帧
以获得以下内容
浏览 9
提问于2020-03-18
得票数 0
3
回答
字符串列包含通过
spark
scala
进行精确匹配的单词
、
、
我有
两个
数据
帧
,第一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方):
数据
帧
-2:我想要的输出:我在这里使用
spark
scala
。我想要一个与dataframe-1
中
的dataframe-2完全匹配的单词。我使用了like、rlike
浏览 1
提问于2021-02-12
得票数 0
1
回答
如何在
scala
中
访问和
合并
未来类型的多个DataFrame
、
、
、
、
我有
spark
scala
应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我
在
期货
中
调用它们,它们返回给我未来类型的DataFrame,我如何在最后
合并
它们,并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试
在
onComplete块
中
应用
数据
帧
的联合时,它显示以下错误 value union is not a member of
scala
.concurrent.Future[
浏览 2
提问于2020-01-22
得票数 0
1
回答
从多个文件读取
Spark
数据
帧
、
、
假设您有
两个
s3存储桶,您想要从中读取
spark
数据
帧
。对于
在
spark
数据
帧
中
读取的一个文件,将如下所示: file_1 = ("s3://loc1/") df =
spark
.read.option("MergeSchema","True").load(file_1) 如果我们有
两个
文件: file_1
浏览 9
提问于2021-10-18
得票数 0
回答已采纳
3
回答
如何连接具有相同列的
数据
集并选择一个?
、
、
、
我有
两个
Spark
数据
帧
,之后我会加入并选择它们。我想选择其中一个
数据
帧
的特定列。但是
在
另一个
中
存在相同的列名。因此,我得到了一个二义列的异常。
浏览 0
提问于2017-12-28
得票数 5
回答已采纳
1
回答
Spark
structured streaming -联合
两个
或多个流媒体源
、
、
、
我使用的是
spark
2.3.2,在对来自Kafka的2个或更多流媒体资源进行联合时遇到了一个问题。这些都是来自Kafka的流媒体源,我已经将它们转换并存储
在
Dataframes
中
。理想情况下,我希望将此UNIONed
数据
帧
的结果以parquet格式存储
在
HDFS
中
,甚至可能存储回Kafka
中
。最终目标是以尽可能低的延迟存储这些
合并
的事件。$apache$
spark
$sql$execution$streaming$M
浏览 52
提问于2019-07-02
得票数 1
回答已采纳
3
回答
Spark
合并
不会减少分区数量
、
我有这个代码print(" after coalisce getting nb partition " + str(df.rdd.getNumPartitions()))
浏览 1
提问于2018-10-09
得票数 0
2
回答
当表已经存在时,使用
spark
dataframe覆盖表失败
、
、
、
为什么我的代码不能像预期的那样覆盖
数据
库
中
的
数据
?我已经使用客户端检查了该表,并且它确实存在(这应该无关紧要)。而且里面也有
数据
。怎么了?这会不会是内存问题?(commands.
scala
:68) at or
浏览 2
提问于2019-12-13
得票数 1
3
回答
在
Scala
中
追加/联合多个
数据
帧
、
、
、
我来自python背景,试图将
中
的函数转换为
scala
。 在这个虚拟示例
中
,我有多个(未知数量)的
数据
帧
需要
合并
在一起。%python
spark
.createDataFrame( ('B', 'E')], ['dummy1','dummy2
浏览 24
提问于2021-09-29
得票数 2
回答已采纳
1
回答
spark
-cassandra-connector -从Dataframe创建表格- StructType?
、
、
我正试着从
Spark
数据
帧
中
写给Cassandra。当我有一个简单的
数据
帧
模式时,如示例中所示,它可以工作: |-- id: string (nullable = true)但是,当我尝试编写包含StructTypes的
数据
帧
时,其模式如下: |-- crawl: struct (nullable = true) | |-- id: string (
浏览 4
提问于2016-06-27
得票数 1
1
回答
spark
vs pandas dataframe (具有大列) jupyter笔记本
中
的head(n)
、
、
、
、
几天后,
数据
带来了大量的功能。为了获得简短的
数据
摘要,人们将
数据
加载到
数据
框
中
,并使用head()方法显示
数据
。使用Jupyter Notebook( Toree for
scala
)进行实验是很常见的。
Spark
(
scala
)很适合处理大量
数据
,但是它的head()方法不能在水平滚动的notebook
中
显示列标题。熊猫
数据
帧
头
Spark
浏览 3
提问于2018-06-13
得票数 2
2
回答
列拆分-星火DataFrame -
Scala
、
、
我正在使用
Scala
的
Spark
数据
帧
进行一个小项目。我成功地从.csv文件
中
清除了一些
数据
,但是最终结果(输出)包含一个列,其中
合并
了“年龄”和“作业”
数据
。请看下面的截图。我已经为这个做了很长一段时间了,但我现在被困住了。注意:我
在
Shell上使用
Scala</
浏览 11
提问于2022-10-02
得票数 0
3
回答
如何使用createDataFrame创建pyspark
数据
帧
?
我知道这可能是一个愚蠢的问题。我有以下代码:rows = [1,2,3]df.printSchema()但是我得到了一个错误:我不明白为什么会发生这种情况,因为我已经提供了'data',也就是变量row。
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
3
回答
在
spark
1.6
中
将csv读取为
数据
帧
、
我使用的是
Spark
1.6,正在尝试将csv (或tsv)文件读取为
数据
帧
。以下是我采取的步骤:
scala
> import sqlContext.implicits._
scala
> .format("com.databric
浏览 12
提问于2016-07-27
得票数 2
1
回答
在
S3
中
将sparkdataframe写入.csv文件,并在pyspark中选择一个名称
、
、
、
、
我有一个
数据
帧
,我打算用S3把它写成一个.csv文件,我用下面的代码:它将一个.csv文件放在product_profit_weekly文件夹
中
,目前.csv文件
在
S3
中
有一个奇怪的名字,我写的时候可以选择一个文件
浏览 0
提问于2016-10-28
得票数 9
回答已采纳
1
回答
如何在pyspark中使用azure-sqldb-
spark
连接器
、
、
、
我想每天写大约10 GB的
数据
到Azure SQL server DB,使用PySpark.Currently,使用JDBC driver,这需要花费数小时逐个制作insert语句。我计划使用azure-sqldb-
spark
连接器,它声称可以使用批量插入来加速写入。import com.microsoft.azure.sqldb.
spark
.config.Config import com.microsoft.azure.
浏览 2
提问于2018-10-27
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
将多个Excel工作表合并到一个Pandas数据帧中
浅谈Hadoop在大数据中的作用以及与Spark的关系
2018年数据科学前15名的Scala库
数据中心在合并过程中七个存储错误
数据中心在合并过程中的七个存储错误
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券