腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
多个
PySpark
DataFrames与MergeSchema
合并
python
、
pyspark
、
pyspark-dataframes
我想将
多个
PySpark
数据
帧
合并
到一个
PySpark
数据
帧
中
。它们都来自相同
的
模式,但是它们可能会有所不同,因为有时会缺少一些列(例如,模式通常包含200个具有已定义
数据
类型
的
列,其中dataFrame A有120列,dataFrame B有60列)。是否有可能在不写入和读取所有
数据
帧
的
情况下再次使用mergeSchema<e
浏览 2
提问于2020-06-22
得票数 0
1
回答
PySpark
中
多个
数据
帧
的
迭代
合并
python
、
apache-spark
、
pyspark
我正在尝试使用
pyspark
中
的
unionAll函数来连接
多个
数据
帧
。这就是我要做
的
: df_list = [] normalizer = Normalizer(inputCol="features", outputColreduce(unionAll, df_list) big_df.write.mode('append').parquet('some_p
浏览 18
提问于2019-05-17
得票数 0
1
回答
如何
合并
或连接spark
中
列号不相等
的
数据
帧
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-dataframe
我正在做一个使用spark
的
项目。在某些阶段,我需要在单个
数据
帧
中
合并
或连接3个
数据
帧
。这些
数据
帧
来自spark sql表,我使用了联合函数,它已经
合并
了两个表
中
具有相同编号
的
列,但我也需要
合并
不相等
的
列值。我现在很困惑,有没有办法在
pyspark
中
合并
或连接不相等
的
基于列<
浏览 13
提问于2016-09-22
得票数 0
1
回答
根据update_time将
数据
帧
内
的
多个
spark行按ID
合并
为一行
pyspark
我们需要使用
Pyspark
将基于ID
的
多行
合并
到单个记录
中
。如果该列有
多个
更新,那么我们必须选择对它进行了最后一次更新
的
那个。请注意,NULL表示没有对该实例
中
的
列进行更新。因此,基本上我们必须创建一行,其中包含对记录所做
的
合并
更新。因此,例如,如果这是
数据
帧
...寻找类似的答案,但在
Pyspark
..Merge rows in a spark scala Da
浏览 18
提问于2021-10-14
得票数 0
1
回答
从
数据
帧
列表生成单个DataFrame
list
、
pyspark
、
apache-spark-sql
、
jupyter-notebook
、
pyspark-dataframes
我有一个
数据
帧
列表,在列表
的
每个位置上,我有一个
数据
帧
,我需要将所有这些
数据
帧
合并
到一个
数据
帧
中
。在我使用之前,这是在
PySpark
中
完成
的
dataframe_new =pd.concat(listName) 解决方案1 from
pyspark
.sql.types import * import
pyspark</e
浏览 12
提问于2021-01-28
得票数 0
1
回答
pySpark
中
的
数据
帧
级计算
pyspark
、
pyspark-dataframes
我正在使用
PySpark
,并希望利用多节点
的
优势来提高性能时间。Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新
的
薪水列,并希望使用
pyspark
中
多个
节点
的
能力来减少整体处理时间。我不想做一个
迭代
的
逐行计算新工资。 df.withColumn是否在
数据
帧</e
浏览 16
提问于2021-03-24
得票数 0
1
回答
在执行python文件时使用submit
的
CLI参数。
python
、
apache-spark
、
pyspark
、
spark-submit
我正试图通过下面的
pyspark
代码将sql server表转换为.csv格式。from
pyspark
import SparkContextfrom
pyspark
.sql import SQLContextdf.registerTempTable("test") df.write.format("com.databricks.spark.csv").save(&qu
浏览 0
提问于2017-09-07
得票数 0
回答已采纳
1
回答
如何使用
pyspark
合并
来自两个不同
数据
帧
的
数据
?
python
、
dataframe
、
apache-spark
、
pyspark
、
amazon-emr
我有两个不同
的
(非常大
的
)
数据
帧
(详细信息如下)。我需要
合并
他们两个人
的
数据
。由于这些
数据
帧
非常庞大(第一个
数据
帧
有数百万行,第二个
数据
帧
有数千行),我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成
的
,我看到
的
教程大多只显示了一个
数据
帧
的
说明。所以,我一直想知道如
浏览 11
提问于2021-06-03
得票数 0
回答已采纳
1
回答
如何在循环中创建一个
pyspark
DataFrame?
pyspark
、
pyspark-dataframes
如何在循环中创建一个
pyspark
DataFrame?在这个循环中,在每次
迭代
中
,我输出2个值print(a1,a2)。现在,我想将所有这些值存储在一个
pyspark
数据
帧
中
。
浏览 26
提问于2021-01-12
得票数 0
1
回答
如何使用
Pyspark
/SQL/DataFrames SPARK RDD来插入/删除DB2源表
数据
?
pyspark
、
apache-spark-sql
、
spark-streaming
、
pyspark-sql
我尝试运行upsert/delete命令来插入/删除DB2
数据
库源表
中
的
一些值,这是DB2上
的
一个现有表。是否可以使用
Pyspark
/Spark SQL/Dataframes。
浏览 2
提问于2019-05-10
得票数 0
2
回答
如何使用
PySpark
将这些
多个
csv文件(大约130,000个)有效地
合并
为一个大型
数据
集?
python
、
apache-spark
、
memory
、
pyspark
、
bigdata
我之前发布了这个问题,并得到了一些使用
PySpark
的
建议。 下面的压缩文件()包含一个名为data
的
文件夹,其中包含大约130,000个csv文件。我想把它们
合并
到一个单独
的
数据
帧
中
。所以现在我改用
PySpark
,但是我不知道连接所有文件
的
最有效
的
方法是什么,对于pandas
数据
帧
,我会像这样连接单个
帧
的
列表,因为我想让它们
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
1
回答
从
多个
S3存储桶导入
pyspark
dataframe,其中有一列指示条目来自哪个存储桶
amazon-s3
、
pyspark
、
pyspark-dataframes
这些存储桶
中
的
每一个都存储我正在读取到
pyspark
dataframe
中
的
拼图文件。从每个存储桶生成
的
pyspark
dataframe具有完全相同
的
模式。我想要做
的
是
迭代
这些存储桶,并将所有这些拼图文件存储到一个单独
的
pyspark
dataframe
中
,该
数据
框有一个date列,表示dataframe
中
的
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
1
回答
如何使用Azure databricks在第二代ADLS
的
多张工作表
中
读写excel
数据
python
、
pyspark
、
databricks
、
azure-databricks
我想使用
pyspark
在Azure databricks
中
实现以下逻辑。我有一个下面的文件,其中有多张纸。我想将所有工作表
的
数据
读入一个不同
的
文件
中
,并将该文件写入到ADLS2
中
的
某个位置。注意:所有工作表都有相同
的
模式( Id,名称)
浏览 4
提问于2021-10-27
得票数 0
1
回答
在Databricks中使用
Pyspark
更新
数据
库表
python
、
pandas
、
pyspark
、
databricks
我在Azure SQL Server
数据
库中有一个表,该表是从我
的
Dataframe填充
的
。我想使用
pyspark
/ pandas基于多条件
数据
库来更新这个表。我是
PySpark
/ Databricks / Pandas
的
新手,有人能告诉我如何更新表吗?我已经将
数据
插入到表
中
-我可以想到
的
一种解决方案是将表
中
的
数据
加载到
数
浏览 2
提问于2020-04-20
得票数 0
4
回答
使用python将
pyspark
dataframe
中
的
多列
合并
为一列
python
、
dataframe
、
pyspark
我需要使用python
中
的
pyspark
将一个
数据
帧
的
多个
列
合并
成一个单独
的
列,并使用list(或tuple)作为该列
的
值。
浏览 2
提问于2017-06-19
得票数 12
1
回答
分组依据列表
中
的
元素
python
、
pyspark
、
pyspark-sql
我是
PySpark
的
新手。我创建了spark dataframe,并且我有一个" countries“列,其中包含国家列表。如何通过存在于国家/地区列表
中
的
单个国家/地区来groupBy我
的
数据
帧
+-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
1
回答
有没有办法在
pyspark
中加速缓存过程?
python
、
pyspark
我正在尝试缓存一个基于
Pyspark
的
3列27行
的
数据
帧
,这个过程大约需要7-10秒。提前感谢!
浏览 1
提问于2020-07-20
得票数 0
1
回答
如何在AWS胶水作业中将
多个
源映射到单个目标
amazon-web-services
、
aws-glue
、
aws-dms
我有一个MySQL
数据
库和一个包含200个表
的
Mongo
数据
库,我正在尝试将它连接到Glue并
合并
一些表,最终得到
合并
数据
的
20个表,以及一些过滤器和脚本,在
数据
到达需要
的
地方之前过滤掉其中
的
一些
数据
。我正在使用AWS Glue来做这件事,在使用爬虫生成1-1个表之后,我想开始将这些表
合并
在一起,但当我创建作业时,我只能选择一个表作为源,这意味着我最终会有200个作业。有没有一种方
浏览 6
提问于2018-08-17
得票数 1
回答已采纳
1
回答
pyspark
:创建
多个
dataframe失败
python
、
pandas
、
pyspark
我想将几个大型Pandas
数据
帧
转换为Spark
数据
帧
,然后对它们进行操作和
合并
,如下所示:from
pyspark
import SparkContext,SQLContextdf2) File "/home/user/anaconda3/envs/conda_py3.6.8/lib/python3.6/sit
浏览 208
提问于2020-06-08
得票数 0
回答已采纳
1
回答
在
PySpark
中
合并
(包括左侧和右侧)
pandas
、
dataframe
、
pyspark
、
merge
在
PySpark
中
,用来
合并
两个不同
数据
帧
(包括左侧和右侧)
的
等效代码是什么?
浏览 19
提问于2021-11-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
将多个Excel工作表合并到一个Pandas数据帧中
表格中合并数据换行的技巧
Excel里合并多个单元格内容的技巧,再多数据合并也能轻松搞定!
中际旭创:预计 AI 的迭代速度将快于传统云数据中心的迭代速度
怎样合并多个不同格式的文档到一个PDF文档中?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券