腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
嵌套
列
连接
两个
spark
Dataframe
并
更新
其中
一个
列
、
我正在处理一些需求,
其中
我从CSV文件中获得了
一个
小表格,如下所示: root |-- SUBID: integer (如果匹配,则
使用
CSV文件中的NewClosedDate
更新
accountlinks.account.closeddate。我已经编写了以下代码来分解所需的
列
并将其与小表
连接
,但我不太确定如何
使用
NewClosedDate
更新
closeddate字段(对于
浏览 15
提问于2020-01-13
得票数 0
1
回答
如何将multipleColumns文件中的XML转换规则传递给
Spark
中的
Dataframe
?
、
、
、
、
我有XML文件,
其中
包含
使用
withColumn函数在
DataFrame
上运行的所有转换,如下所示:如何在
DataFrame
上应用它。我有
一个
使用
Scala ToolBox和runTmirror编写的代码,它在内部编译代码并在
DataFrame
上运行这些规则。它能很好地工作在不到100
列
的地方。但是现在需求已经改变了,
列
的数量从80
列
增加到210
列
,所以这段代码失败了,应该是StackOverflo
浏览 0
提问于2019-08-31
得票数 0
回答已采纳
3
回答
连接
-仅在第一次数据中选择数据
、
我有
两个
数据格式: DF1和DF2。我的任务是选择只存在于DF1中而不存在于DF2中的数据。any1能帮忙吗?我用的是
Spark
1.6shell。
浏览 6
提问于2017-03-06
得票数 0
回答已采纳
1
回答
Parquet中的
嵌套
数据类型
、
、
、
Parquet文件的文档表明它可以存储/处理
嵌套
数据类型。然而,我找不到更多关于最佳做法/陷阱/.的信息。将这些
嵌套
数据类型存储到Parquet时。我正在考虑以下情况: I
使用
PySpark (
Spark
3.3)将我的星火
DataFrame
存储到
一个
Delta文件(该文件在罩下
使用
Parquet文件)。
DataFrame
DataFrame
有
一个
嵌套
的数据类型( Str
浏览 2
提问于2022-11-11
得票数 1
1
回答
DataFrame
na()填充方法和不明确引用的问题
、
我
使用
的是
Spark
1.3.1,
其中
连接
两个
数据帧会重复
连接
的
列
。我在外部
连接
两个
数据帧,希望将结果数据帧发送到na().fill()方法,以便根据
列
的数据类型将空值转换为已知值。我构建了
一个
"table.column“-> "value”的映射,并将其传递给fill方法。但我得到的是异常而不是成功:(。我有什么选择?我看到有
一个
dataFram
浏览 4
提问于2016-02-28
得票数 3
3
回答
如何将两
列
合并为新的
DataFrame
?
、
、
我有
两个
DataFrames (
Spark
2.2.0和Scala2.11.8)。第
一个
DataFrame
df1有
一个
名为col1的
列
,第二个df2也有
一个
名为col2的
列
。
两个
DataFrames中的行数相等。我尝试过join,但我认为应该有其他方法来实现它。 另外,我尝试应用withColumm,但它没有编译。val resul
浏览 1
提问于2017-11-24
得票数 3
回答已采纳
1
回答
如何
使用
python将
列
添加到增量表
、
、
我有三角桌df =
spark
.read.load("/databricks-datasets/learning-
spark
-v2/people10m.delta") table_name = "people_10m"现在,我要添加
一个
模式更改,可能是单个
列
,可
浏览 9
提问于2022-10-20
得票数 0
回答已采纳
3
回答
如何
使用
来自另
一个
dataframe
的新值
更新
?
、
我有
两个
火花数据:|col_1 | col_2 | ... | col_n |和数据交换B: |col_1 |我想在
spark
中编写
一个
操作,
其中
我可以创建
一个
新的
dataframe
,
其中
包含来自
dataframe
A的行以及来自
dataframe
B的
更新
行和新行。首先,我创建了
一个
哈希<
浏览 3
提问于2018-05-11
得票数 4
回答已采纳
1
回答
在
Spark
上生成确定性ID
列
、
、
、
我
使用
Spark
窗口函数row_number()为具有
嵌套
结构的复杂
DataFrame
生成ID。然后,我提取
DataFrame
的一部分以创建多个表作为输出,
其中
包括这个键。但是,
Spark
只会在操作被触发时物化该表,所以当提取的表保存到HDFS中时,它最终会生成ID。另一方面,在处理大型DataFrames和转换时,
Spark
可能会打乱数据,从而更改row_number()可能生成的值。因为我从单个
DataFrame
生成多个表,所以我
浏览 1
提问于2017-11-21
得票数 1
1
回答
spark
:只拆分
dataframe
中的一
列
,
并
保持其余
列
不变
、
、
我正在读取
spark
dataframe
中的文件。在第一
列
中,我将获得
两个
用"_“
连接
的值。我需要将第一
列
拆分为两
列
,
并
保持其余
列
不变。我正在
使用
Scala和
Spark
例如: col1 col2 col3 a 1
浏览 32
提问于2019-05-01
得票数 0
1
回答
除了火种之外,左撇子有什么区别吗?
、
、
在我下面的实现中,左反
连接
和除星火之外是否有区别? | ).toDF("number", "word", "value") someDF5: org.apache.
spark
.sql.
DataFrame
| ("202003101750", "202003101700",42
浏览 1
提问于2020-04-29
得票数 0
回答已采纳
1
回答
火花
DataFrame
--如何在没有联接的情况下改变一
列
的排列
、
我试图
使用
Pyspark在
dataframe
中更改
一个
列
,也就是跨行对单个
列
的所有值进行洗牌。我试图避免这样的解决方案,即在将
列
拆分
并
分配索引
列
之前,将其重新
连接
到原始的
dataframe
,而原始
dataframe
也有
一个
添加的索引
列
。# for some
dataframe
spark
_df new_df =
spar
浏览 0
提问于2019-06-06
得票数 0
1
回答
如何在
两个
不同的DataFrames中添加相应的整数值
、
我的代码中有
两个
DataFrames,维数完全相同,假设是1,000,000×50。我需要在
两个
数据文件中添加相应的值。如何实现这一目标。
一个
选项是添加另
一个
带有ids的
列
,union和DataFrames,然后
使用
reduceByKey。但还有其他更优雅的方式吗? 谢谢。
浏览 5
提问于2017-03-09
得票数 0
回答已采纳
2
回答
如何合并火花(java)中具有不同模式的
两个
拼花文件
、
、
我有
两个
不同
列
数的拼板文件,
并
试图将它们与下面的代码片段合并如何
使用
java中的
spark
合并这些文件?
更新
:示例 数据集
浏览 2
提问于2021-08-26
得票数 2
回答已采纳
1
回答
大数据结构
还要解释
两个
join语句要实现的目标。empColumns = ["emp_id","name","superior_emp_id","year_joined",\模式=
spark
.createDataFrame”,10),\ (&
浏览 2
提问于2021-10-28
得票数 0
1
回答
将
嵌套
的JSON
列
转换为Pyspark
列
、
、
、
现在,在第二阶段,我试图在databricks中读取pyspark
dataframe
中的parquet文件,
并
面临将
嵌套
的json
列
转换为适当
列
的问题。首先,我
使用
以下命令从S3读取拼图数据:我的pyspark
dataframe
中的
一个
嵌套
列
如下所示: event_params因
浏览 8
提问于2022-06-07
得票数 0
2
回答
Spark
:向
dataframe
添加条件
列
、
、
、
、
我希望向
dataframe
添加
一个
条件
列
Flag。当满足以下
两个
条件时,将1添加到Flag,否则为0: +----+------+-----+------------------------+|1001|taco |2.59 |2018-07-21T01:00:07.961Z
浏览 0
提问于2019-04-08
得票数 0
回答已采纳
1
回答
如何
使用
StructField数组向df添加
列
?
、
、
我有
两个
dataframes,我想在第
一个
数据中添加第二个
列
中的所有
列
,而不是第
一个
列
。我得到了
一个
StructField
列
数组,我想将这些
列
添加到
dataframe
中,
并
填充为null。这是我想出的最好的: private def addColumns(df:
DataFrame
, columnsToAdd: Array[StructField]):
DataFrame<
浏览 2
提问于2022-08-12
得票数 0
回答已采纳
1
回答
Pyspark:
连接
可变
列
数的函数
、
、
、
我想做
一个
函数,在这个函数中,我会告诉你,我想要加入多少列。如果我有3
列
的
dataFrame
,
并
给出
一个
参数"number_of_columns=3",那么它将
连接
列
: 0,1,2。但如果我有7
列
的
dataFrame
,
并
给出参数"number_of_columns=7",那么它将
连接
列
: 0,1,2,3,4,5,6。
列
的名称
浏览 12
提问于2021-04-01
得票数 2
回答已采纳
1
回答
如何
使用
Datastax
连接
器从
Spark
Dataframe
更新
Cassandra
列
的特定集合
、
、
、
、
我有
一个
由几个
列
组成的Cassandra表,我想要
更新
其中
的
一个
(多
列
又是什么呢?)从星火2.4.0。但是如果我不提供所有的
列
,那么记录就不会
更新
。Cassandra模式: 重点是星火
DataFrame
由带有
更新
时间戳的rowkey组成,必须在Cassandra表中
更新
时间戳rowkey","c
浏览 0
提问于2018-12-26
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 5-Pandas DataFrame 常用功能实践
如何管理Spark的分区
Python数据分析入门日记Day6:数据分析库Pandas:Series和Dataframe
我用Rust徒手重写了一个Spark,并把它开源了
Spark之SparkSQL
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券