腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
,
当
使用
df.write.partitionBy
(..).
save
时
,
如何
partitionBy
某一
列
的
值
的
一部分
?
、
、
我想在我
的
Spark Dataframe
中
partitionBy
date而不是time,我该怎么做呢?假设我有一个dataframe,第一
列
是日期时间,比如'2019-06-25 12:00:00','2019-06-25 11:00:00‘等等。我知道
如何
按时间划分它,但我不知道
如何
按日期划分它。06-24 02:03:10| 2||2019-03-12 08:01:34| 3| +-------
浏览 103
提问于2019-06-25
得票数 2
回答已采纳
1
回答
Spark Job将数据帧写入已分区
的
增量表
、
、
、
、
文件
中
的
总记录为179619219条。它被划分为A
列
(8419个唯一
值
)、年份( 10年)和月份。"month").format("delta").mode("append").
save
(path) (“A”,"year",
df.write.partitionBy
作业
在
写入步骤
中
停滞,并在运行5-6小
时
后中止
浏览 4
提问于2021-11-10
得票数 1
2
回答
Pyspark
partitionBy
:
如何
对数据进行分区,然后选择
列
、
、
2], 'col2': [3, 4], 'col3': [5, 6]}我想按'col1‘对数据进行分区,但我不希望'col1’变量出现在最终数据
中
。这个是可能
的
吗?
df.write.partitionBy
("
浏览 3
提问于2020-05-13
得票数 0
2
回答
写入Parquet文件并将其保存为分区表
时
的
保存模式
、
、
、
、
当我
在
没有指定保存模式
的
情况下将数据帧写入现有位置
时
,它会返回一个错误。
df.write.partitionBy
("column").option("path", <EXISTING PATH>).format("parquet").
save
但是,当我只
使用
saveAsTable选项执行相同
的
命令
时
,如果表不存在,Spark似乎会覆盖数据。
df.write.partiti
浏览 3
提问于2019-11-26
得票数 0
1
回答
将Spark dataframe写入为带分区
的
CSV
、
、
、
我正在尝试将spark
中
的
数据帧写入到HDFS位置,并且我希望如果添加
partitionBy
符号,Spark将创建以下形式
的
分区文件夹(类似于以Parquet格式编写)(df.write .mode('overwrite') .format("com.databricks.spark.csv"
浏览 2
提问于2016-05-29
得票数 11
回答已采纳
1
回答
如何
有效地划分Delta表?
在
delta表
中
存储我
的
数据
时
,寻找有效
的
数据分区策略。column6 =有246个不
浏览 4
提问于2022-07-23
得票数 3
回答已采纳
2
回答
将当前时间戳添加到Spark dataframe,但按当前日期将其分区,而不将其添加到dataframe
中
、
、
、
、
org.apache.spark.sql.functions.current_timestamp 但是,如果我们想通过从时间戳派生它,而不将它添加到dataframe
中
,我想要达到
的
目标是这样
的
:
df.write.partitionBy
(date("time_stamp")).parquet("/path/to/file")
浏览 35
提问于2022-04-18
得票数 0
1
回答
读入分区
的
拼花"my_file.parquet/col1=NOW“字符串
值
,
在
read()上替换为<current_time>
、
、
、
、
在
wsl Debian 10上
使用
pyspark
3.1.1df = spark.createDataFrame(data=[("NOW",1), ("TEST", 2)], schema = ["col1", "i
浏览 2
提问于2021-04-18
得票数 1
回答已采纳
1
回答
星星之火
在
S3上创建分区
、
、
、
、
"DS1".
中
。因为我也希望句点在s3文件
中
,所以我正在从句点
列
中
创建另一个
列
"datasetPeriod“。 dataframe .write .
partitionBy
在
datasetPeriod上为分区添加新
列
浏览 0
提问于2020-06-10
得票数 2
1
回答
PartitionBy
删除
PySpark
中
的
特殊字符
、
我有一个包含3
列
(col1字符串、col2整数、col3字符串)
的
数据帧(df),如下所示,但是有上百万条记录:Tes#t 456 mnopqrstTest's 789 hdskfdss 当我尝试用下面的语句
使用
PySpark
来写数据
时
,Col1
中
的
特殊字符丢失了,并且
在
hdfs
中
创建目录
时
被ascii字符替换。有没有办法
在<
浏览 0
提问于2017-09-08
得票数 0
1
回答
DataFrame写
PartitionBy
-不能参数化多
列
、
、
、
创建一个接受TableName和分区列作为输入
的
通用代码。但是,
在
尝试将dataframe作为分区表编写
时
面临
的
问题。partAttr='product_category_id,product_id'
df.write.partitionBy
('"'+'","'.join(pattr)+'"').saveAsTab
浏览 4
提问于2018-01-03
得票数 0
1
回答
PySpark
:
在
写入增量表
时
拆分数据
的
有效策略
、
、
我想知道是否有一个有效
的
策略来写我
的
星火数据在三角洲表
在
Datalake。根据经验,我将数据分割成一个
列
,该列有70到300个不同
的
值
。我用来查看在"
partitionBy
“中
使用
的
候选
列
的
‘技巧’如下所示。我将数据转换为临时表,并查看基数。
df.write.partitionBy
("column_candidate") .forma
浏览 2
提问于2022-07-15
得票数 0
回答已采纳
2
回答
在
星火库上列出特定单元表
的
所有分区,并添加一个分区
、
如何
向hive表
中
添加新
的
分区?有什么api
的
蜂巢亚稳态,我可以
使用
火花? 有没有办法获得映射dataframe row => partition_path
的
内部单元函数?根据我
在
HDFS上看到
的
内容编辑,
当
SaveMode.Overwrite spark将发出表定义,即CREATE TABLE my_table ....当我编写
df.write.partitionBy
(...).mode(Overwrite)
浏览 2
提问于2016-10-26
得票数 6
回答已采纳
3
回答
编写
partitionBy
后创建多个文件
、
我过去经常
使用
df.repartition(1200).write.parquet(...),它创建了修复参数中指定
的
1200个文件。我现在
使用
的
是paritionBy,即df.repartition(1200).write.
partitionBy
("mykey").parquet(...)。“我
的
火花”版本( for my,2.4.0)似乎暗示这个特性是后来添加
的
。还有其他方法来实现这一目标吗?我想我可以重新划分到1200/len(un
浏览 7
提问于2021-12-03
得票数 0
1
回答
将星火DataFrame数据划分为不同
的
文件
、
、
、
、
我从一个DataFrame文件
中
获得了下面的s3输入,并需要将数据转换成以下所需
的
输出。我
在
Scala中
使用
SparkVersion1.5.1,但可以用Python更改为Spark。欢迎任何建议。file.csv bbbbbddddd 下面是我尝试过
的
现有cols.tail: _*).count().take(100).f
浏览 0
提问于2016-11-11
得票数 4
回答已采纳
2
回答
基于
列
值
对数据进行分区
、
、
、
、
嗨,我有如下
的
数据源102 27-10-2015 facebook102 27-10-2015 instagram105 30-10-2015 bing例如在这里
浏览 0
提问于2015-11-03
得票数 1
1
回答
PySpark
-从dataframe创建多个json文件
、
、
我有以下格式
的
数据,这是从Hive获得
的
数据格式:1388534400, GOOG, 501388534400, MSFT, 551388620800, FB, 61其中日期是当天午夜
的
时代,我们有大约10年前
的
数据(800million我
的
目标是最终得到一堆JSON文件,每个股票一个,看起来如下:{ '1
浏览 0
提问于2018-12-25
得票数 2
1
回答
在按键进行分区后,是否将一个键
的
所有数据保存在一个分区
中
?
这可能是这个
的
副本。根据答案,密钥
的
所有数据都驻留在一个分区
中
。但是,这个来自星火邮件组
的
回答却有所不同。 如果您
使用
的
是Spark2.0
中
可用
的
水桶,这是不必要
的
。对于分区,它仍然是必要
的
,因为我们不认为每个分区都是小<
浏览 4
提问于2017-03-13
得票数 1
2
回答
在
S3
中
将每个分区数据写入单个文件
中
、
我们有这样
的
用例,我们希望按
列
值
对数据帧进行分区,然后将每个分区写到单个文件
中
。我做了以下事情来做同样
的
事情: df.rdd.saveAsTextFile("s3://d
浏览 1
提问于2018-03-14
得票数 1
2
回答
优化用于
使用
组
的
查询
的
Delta表
、
、
、
当
涉及到优化我
的
增量表
时
,我学到了一些东西。
df.write.partitionBy
("column_1").format("delta").mode("overwrite").
save
("path")
浏览 5
提问于2022-08-18
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
2022#Power BI 12月产品功能更新
一文读懂 PySpark 数据框
遇见YI算法之初识Pyspark(二)
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券