腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
python
将
两个
spark
数据
帧
合
并到
一个
模式
中
、
、
、
我有
两个
不同的pyspark
数据
帧
,需要合并成
一个
。有一些逻辑需要为合并编码。其中
一个
数据
帧
具有以下
模式
:(id,类型,计数),另
一个
具有
模式
:(id,timestamp,test1,test2,test3) 第
一个
数据
帧
是通过sql "group by“查询创建的。并且,对于给定的类型,有
一个
相关的计数。 在最终的
模式</em
浏览 46
提问于2020-01-29
得票数 0
回答已采纳
1
回答
有没有办法在pyspark中加速缓存过程?
、
我正在尝试缓存
一个
基于Pyspark的3列27行的
数据
帧
,这个过程大约需要7-10秒。提前感谢!
浏览 1
提问于2020-07-20
得票数 0
3
回答
如何
使用
createDataFrame创建pyspark
数据
帧
?
我知道这可能是
一个
愚蠢的问题。SparkSessiondf = SparkSession.createDataFrame(rows)df.show() 但是我得到了
一个
错误
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
1
回答
将
88个JSON文件合并和/或读取到Dataframe -不同的
数据
类型
、
、
、
我基本上有
一个
过程,在这个过程
中
,我对
一个
API进行多次调用,并在JSON返回中
使用
一个
令牌,
将
这个包传递到函数顶部,再次调用API以获得
一个
“分页”文件。在
将
每个JSON文件下载到
数据
帧
后,我尝试读取它,然后尝试将该
数据
文件合
并到
主
数据
帧
中
,因此基本上,我将有
一个
大
数据
帧
与
浏览 5
提问于2022-06-24
得票数 0
2
回答
如何在"pyspark“
中
读取xml文件?
、
、
其他人
使用
此代码。
spark
.read \ .option('rootTag', 'tags')df =
spark
.read.format('xml').options(rowTag='file').load('ted_en-20160408.xml') 但也有错误。Please
浏览 2
提问于2021-09-30
得票数 0
1
回答
使用
更改
模式
将
数据
插入到增量表
中
、
、
如何通过改变
数据
库
中
的
模式
将
数据
插入到增量表
中
。 在Databricks Scala
中
,我分解了
一个
Map列并将其加载到增量表
中
。我有
一个
预定义的增量表
模式
。 假设
模式
有4列A、B、C、D。因此,有一天,我
使用
下面的代码
将
包含4列的
数据
帧
加载到增量表
中
。例如,在第2天,添加了
两个</e
浏览 18
提问于2021-10-29
得票数 0
1
回答
合并具有不同
模式
的
两个
地块文件
、
、
、
我有
两个
拼图文件,拼花A有137列,拼花B有110列。拼图文件包含表的整个历史记录。因此,拼图A拥有表的整个历史记录的所有字段。拼图B是我今天拉入的所有值,删除了17列。是否可以
将
缺少的列添加到拼接B并添加空值。那就加入工会吧?
浏览 19
提问于2018-09-06
得票数 0
1
回答
Spark
-SQL :如何
将
TSV或CSV文件读入dataframe并应用自定义
模式
?
、
、
、
我在
使用
制表符分隔值(TSV)和逗号分隔值(CSV)文件时
使用
Spark
2.0。我希望
将
数据
加载到
Spark
-SQL
数据
帧
中
,在读取文件时,我希望完全控制
模式
。我不希望
Spark
从文件
中
的
数据
中
猜测
模式
。 如何
将
TSV或CSV文件加载到
Spark
SQL Dataframe
中</em
浏览 2
提问于2017-04-20
得票数 6
2
回答
Pyspark:通过ID和最近日期向后加入2个
数据
帧
、
、
、
在pyspark (和一般的
python
)
中
执行
两个
数据
帧
的滚动连接时,我遇到了很多问题。我希望
将
两个
pyspark
数据
帧
通过它们的ID和最近日期反向连接在一起(这意味着第二个
数据
帧
中
的日期不能晚于第
一个
数据
帧
中
的日期) Table_2:期望的结果:从本质上讲,
浏览 1
提问于2020-08-08
得票数 2
1
回答
使用
pyspark在Azure Blob存储中将多个csv文件合并为
一个
csv文件
、
、
、
我
使用
下面的代码
将
csv文件保存回blob存储,尽管它在循环中运行时会创建多个文件。现在我想将它们合
并到
一个
单独的csv文件
中
。虽然我已经
使用
了dbutils.fs.cp/mv,但它没有什么帮助df =
spark
.read.format("com.databricks.
spark
.csvappend").option("header"
浏览 15
提问于2019-08-20
得票数 1
回答已采纳
6
回答
如何在Pyspark
中
定义
一个
空的dataframe并将其附加到相应的dataframe?
、
所以我想从
一个
目录
中
读取csv文件,作为pyspark dataframe,然后将它们附加到单个dataframe
中
。而不是像我们在熊猫身上做的那样,在pyspark
中
得到替代方案。例如,在熊猫
中
,我们这样做: dff=pd.read_csv(f,delimiter=',')在Pysp
浏览 5
提问于2017-04-10
得票数 11
3
回答
pySpark
将
mapPartitions的结果转换为
spark
DataFrame
、
、
我有
一个
作业需要在分区的
spark
数据
帧
上运行,该进程如下所示: rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions现在我希望
将
结果转换成
spark
数据
帧
,我这样做的方式是: sp = None if i == 0:sp =
spark
.creat
浏览 124
提问于2019-12-10
得票数 4
回答已采纳
3
回答
在写入dataframe - pyspark之前从表
中
删除记录
、
、
、
、
在从dataframe向表
中
写入
数据
之前,我正在尝试从表
中
删除记录。这对我不起作用。我做错了什么?query = "(delete from xx_files_tbl)" .option("url", "jdbc:sqlserver
浏览 172
提问于2020-10-14
得票数 1
回答已采纳
1
回答
spark
.createDataFrame ()不
使用
Seq RDD
、
、
CreateDataFrame有
两个
参数,
一个
rdd和
一个
模式
。", StringType,false) ) )`val data1=Seq(Row(1,"one"),Row(2,"two")) data2不能成为
数据
帧
的有效rdd,这有什么
浏览 16
提问于2019-08-19
得票数 0
回答已采纳
4
回答
Spark
dataframe to arrow
、
、
、
我在
Python
中
使用
Apache Arrow和
Spark
已经有一段时间了,通过
使用
Pandas作为中介,我可以很容易地在dataframes和Arrow对象之间进行转换。然而,最近我为了与
Spark
进行交互而从
Python
转到了Scala,在Scala (Java)中
使用
Arrow并不像在
Python
中
那样直观。我的基本需求是尽快将
Spark
dataframe (或RDD,因为它们很容易转换)转换为Arrow对象
浏览 58
提问于2017-07-28
得票数 11
3
回答
pyspark to hive
中
的Pandas
数据
帧
、
、
、
如何
将
熊猫
数据
帧
发送到hive表?我知道如果我有
一个
spark
数据
帧
,我可以将它注册到
一个
临时表
中
,
使用
sqlContext.sql("create table table_name2as select * from table_name") 但是当我尝试对registerTempTable
使用</
浏览 0
提问于2016-04-28
得票数 9
回答已采纳
1
回答
在
spark
中
处理json文件
、
、
在
spark
-scala
中
,我需要
使用
嵌套结构的json文件来创建
数据
帧
我有
一个
具有复杂嵌套结构的json输入。每天都有可能一些键在任何记录上都不可用(键是可选的),键的.some可能不会出现在day1上,可能会出现在day2
中
,但我希望得到
一个
通用的输出,其中所有列都期望inspite键缺失。我不能
使用
withcolumn函数并应用默认值,因为如果键出现在某一天,相应的值应该是我选择的taken.if,它无法解决错误,
浏览 1
提问于2019-10-01
得票数 0
1
回答
使用
数据
仓库
中
的
python
客户端库加载BQ表。需要成本分析。ETL vs ELT
、
、
我需要开发
一个
数据
仓库,它要求我
使用
Python
将
JSON
数据
加载到大型查询表
中
。列也将被转换为特定的
数据
类型。我应该采用哪种方法来节省成本--a.先
使用
临时表
中
的
Python
Big Query客户端库
将
数据
加载到Big Query表
中
。b.在大型查询表上执行Cast SQL以更新
模式
。并加载到
数据
仓
浏览 3
提问于2020-05-26
得票数 0
1
回答
在
Spark
结构的流
中
读取嵌套Json
、
、
我正在尝试
使用
结构化流媒体从Kafka
中
读取
数据
。从kafka收到的
数据
为json格式。我
使用
样例json创建
模式
,稍后在代码中
使用
from_json函数
将
json转换为
数据
帧
以进行进一步处理。我面临的问题是嵌套
模式
和多值。示例
模式
将
标记(比如a)定义为结构。从kafka读取的json
数据
对于同一标签可以有
一个
或多个值(
浏览 6
提问于2019-06-11
得票数 0
1
回答
更改
spark
_temporary目录路径,避免删除parquets
、
、
当
两个
或多个
Spark
作业具有相同的输出目录时,相互删除文件将不可避免。我正在
使用
spark
2.4.4在append
模式
下写入
一个
数据
帧
,我想在
spark
的tmp目录
中
添加
一个
时间戳,以避免这些删除。示例:
使用
其他
数据
调用
浏览 20
提问于2020-03-19
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何高效地合并Spark社区PR到自己维护的分支
2018年数据科学前15名的Scala库
GitHub标星2400,Netflix开源笔记本工具Polynote
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券