腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
读取
分区
列
显示
为
null
scala
、
apache-spark
我在尝试使用
Spark
读取
分区
数据时遇到了一个问题。 如果
分区
列
中的数据是特定格式的,那么它将在结果数据帧中
显示
为
null
。_09h32m38s| 3|ds1.write.partitionBy("a").parquet("test")
浏览 44
提问于2020-10-08
得票数 1
回答已采纳
1
回答
从表模式处理看Hive和Parquet之间的火花-主键差异
apache-spark
、
hive
我不明白这句话如果有人用例子来解释这句话,那对我会更好。谢谢你。
浏览 1
提问于2016-12-10
得票数 1
1
回答
通过DataFrames
读取
蜂巢视图与蜂巢表时的性能考虑
apache-spark
、
hive
、
pyspark
、
apache-spark-sql
、
pyspark-sql
如果我在pyspark中使用
spark
并
读取
该视图,那么与直接从表中
读取
相比,会出现任何性能问题。在单元格中,如果我们不将where子句限制在精确的表
分区
上,我们就有了所谓的完整表扫描。searching是否足够智能,可以直接
读取
具有我们正在寻找的数据的表,而不是搜索整个视图?请给我建议。
浏览 4
提问于2019-10-22
得票数 1
回答已采纳
1
回答
推送过滤器如何处理数据库中的Parquet文件?
apache-spark
、
apache-spark-sql
、
databricks
HighVolume =
spark
.read.parquet("/FileStore/shared_uploads/highVolume/*.parquet") \ HighVolume_wofilter =
spark
.read.parquet("/FileStore/shared
浏览 6
提问于2022-08-31
得票数 1
1
回答
从拼图文件中
读取
分区
数据并将其写回,保持层次结构?
apache-spark
、
apache-spark-sql
我正在尝试找到从拼图文件中
读取
分区
数据的最佳方法,并将它们写回
Spark
中的层次结构。当我使用
spark
.read.parquet(inputPath)时,
Spark
从目录层次结构中
读取
所有
分区
,并将它们表示
为
列
,但是当我写回该数据帧时,我丢失了所有层次结构。这需要指定
分区
列
。有没有一种更自动的方法来做这件事?
浏览 9
提问于2019-12-12
得票数 2
回答已采纳
3
回答
将文件保存到Parquet时,
分区
列
被移动到行尾
apache-spark
、
parquet
parquet").mode("overwrite").save(fpath) 还有一个(对我来说)令人惊讶的结果: 下面是从保存的p
浏览 4
提问于2018-06-21
得票数 5
回答已采纳
2
回答
火花镶嵌地板隔断移除了隔断柱
apache-spark
、
pyspark
、
parquet
数据将删除数据上的
分区
列
。 如何避免呢?
浏览 2
提问于2021-03-16
得票数 0
3
回答
避免从
Spark
写入时丢失
分区
数据的数据类型
apache-spark
、
spark-dataframe
、
parquet
itemName, itemCategoryName2, C1我想将此数据帧保存为
分区
拼接文件:Name1, 0Name3, 0 在这种情况下,在作为
分区
写入之后,当回读时,结果数据帧的数据类型
为
itemCategory。如何指定
分区
的数据类型,以便将其作为String而不是Int回读?
浏览 0
提问于2017-10-10
得票数 4
1
回答
如何从拼花地板的当前日期开始
读取
最近N天的最后天数
scala
、
apache-spark
我已经用partition by date类型
列
将数据以拼图文件格式保存在仓库中。文件数据保存方式与仓库路径类似。Tespath/filename/dt=2020-02-28 如果我
读取
所有的数据,它的数据量是非常大的。
浏览 14
提问于2020-02-24
得票数 1
回答已采纳
2
回答
使用
分区
JSON的
Spark
分区
投影/下推和模式推理
json
、
apache-spark
、
pyspark
、
apache-spark-sql
我想以JSON格式
读取
分区
数据的子集,使用
spark
(3.0.1)从JSON推断模式。我的数据被
分区
为
s3a://bucket/path/type=[something]/dt=2020-01-01/ 当我尝试用read(json_root_path).where($"type" ==x && $"dt" >= y && $"dt" <= z
浏览 20
提问于2021-01-27
得票数 4
2
回答
当数据存储在对象存储中时,从
Spark
SQL访问配置单元表
apache-spark
、
hive
、
object-storage
我使用
spark
dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表,格式
为
parquet。因此,我的配置单元元存储在HDP集群中,我正在从HDP集群运行
spark
作业。此
spark
作业将数据以parquet格式写入IBM COS。(通过partitionBy)时,我无法直接从
spark
sql访问数据要从
分区
浏览 40
提问于2018-12-18
得票数 0
2
回答
火花拼花模式演变
apache-spark
、
parquet
我有一个
分区
的hdfs拼板位置,它有不同的模式是不同的
分区
。 第一个
分区
中有5个
列
,第二个
分区
中有4个科尔。现在我尝试
读取
基本的Parquet路径,然后过滤第二个
分区
。这给了我DF中的5
列
,即使我在第二个
分区
的Parquet文件中只有4
列
。当我直接读第二个
分区
时,它给出了正确的4次方。如何解决这个问题。
浏览 6
提问于2020-03-17
得票数 2
1
回答
是否有可能将项目阶段推到HiveTableScan?
apache-spark
、
hadoop
、
hive
、
apache-spark-sql
、
apache-spark-dataset
我使用
Spark
查询以Hive格式存储的ORC格式的数据。当我对提供给
spark
.sql(query)的查询运行explain命令时,我看到以下查询计划:*Project [col1, col2, col3] +- HiveTableScan [col1, col2, col3, ...col50] 正如我所理解的,它从Hive中查询所有50
列
,只有这样,火花和后置词中的筛选才只选择实际需要的
列
是否有可能将所需的
列
直接推倒
浏览 1
提问于2019-09-06
得票数 2
回答已采纳
1
回答
Spark
load parquet无法从已
分区
列
推断时间戳
apache-spark
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我可以保存由一个看起来像时间戳但实际上是一个字符串的
列
划分的拼图文件。当我尝试使用
spark
.read.load()将拼图加载回
spark
时,它会自动推断
分区
的列有一个日期,导致我丢失所有的时间信息。有没有一种方法可以将parquet文件作为字符串读回到
分区
列
中,或者更好的是让它自动解析成指定格式的时间戳?下面是一个例子: [ ('2020-01-01T00-00-01&
浏览 16
提问于2020-02-12
得票数 1
回答已采纳
1
回答
不具有
分区
列
性能的火花下推滤波器
apache-spark
我有一个关于
spark
中的过滤的问题,当你不在过滤器中包括
分区
列
时。假设我有以下按日期
分区
的数据: part-0001.parquet数据有一个名为"action“的
列
,其中大约30%的数据值
为
0,其余的数据值
为
1
spark
.read.parquet("s3a:/
浏览 2
提问于2020-08-02
得票数 0
3
回答
星火数据加入问题
scala
、
apache-spark
、
hbase
(
读取
CSV、
读取
Parquet和相互连接) df1=
spark
.read.format("csv").load(filePath) //Join with Another table : Number of(阅读Hbase,阅读Parquet并相互连
浏览 1
提问于2019-03-10
得票数 3
3
回答
Spark
在加载Hive表时创建了多少个
分区
apache-spark
、
hadoop
、
pyspark
、
apache-spark-sql
即使是Hive表或HDFS文件,当
Spark
读取
数据并创建数据帧时,我认为RDD/dataframe中的
分区
数量将等于HDFS中的partfile数量。但是,当我使用配置单元外部表进行测试时,我可以看到这个数量与数据帧中
分区
的部分文件数量.The数量119不同。该表是一个Hive
分区
表,其中包含150个部分文件,最小文件大小
为
30MB,最大大小
为
118MB。那么,是什么决定了
分区
的数量呢?
浏览 69
提问于2020-04-02
得票数 3
3
回答
如何在
Spark
中
读取
ORC文件时保留
分区
列
apache-spark
、
apache-spark-sql
、
orc
在
Spark
中
读取
ORC文件时,如果在路径中指定
分区
列
,则该
列
将不会包含在数据集中。例如,如果我们有那么dfWithColumn将有一个reg
浏览 1
提问于2018-09-13
得票数 5
1
回答
带有pyspark结构流的kafka自定义分割器
apache-spark
、
pyspark
、
apache-kafka
我希望能够根据data/message中的某个键控制应该将数据推送到哪个
分区
。在中,我找不到此类用例的任何参考资料或示例。我正在使用python处理和pyspark,被用作kafka客户端,但它也缺乏自定义
分区
程序的文档/示例。df = (df .withColumn("topic
浏览 1
提问于2021-11-01
得票数 1
1
回答
是否可以在从HDFS
读取
CSV文件时对其进行
分区
?
csv
、
apache-spark
我正在尝试
读取
一个巨大的csv文件到
spark
中,并将其加载到雪花表中。,我们可以使用选项partitionColumn,其中我们可以指定
分区
列
(这是一个旧方案&我的数据属于hive表的单个
分区
),其中
列
epochVals具有几乎唯一的值,参数numPartitions帮助将数据划分为确切数量的
分区
(15是用于解释该方案的随机数字),因此在
读取
数据时,
spark
有15个
分区
可以将数据排列到其中。我们总是可以根
浏览 25
提问于2020-07-23
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming如何读Kafka数据 Hbase如何设计表
Hive底层数据存储格式详解
AI 时代,你需要了解的数据库架构设计和内存优化思路
Zzreal的大数据笔记-SparkDay04
超完整的Explain总结,妈妈再也不担心我的SQL优化了
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券