Spark读取分区列显示为null_如何在Spark中将每个列重新分区为固定数量的分区？_Spark JDBC read API:为datetime类型的列动态确定分区数量 - 腾讯云开发者社区

scala、apache-spark

我在尝试使用Spark读取分区数据时遇到了一个问题。如果分区列中的数据是特定格式的，那么它将在结果数据帧中显示为null。_09h32m38s| 3|ds1.write.partitionBy("a").parquet("test")

浏览 44提问于2020-10-08得票数 1

回答已采纳

1回答

从表模式处理看Hive和Parquet之间的火花-主键差异

apache-spark、hive

我不明白这句话如果有人用例子来解释这句话，那对我会更好。谢谢你。

浏览 1提问于2016-12-10得票数 1

1回答

通过DataFrames读取蜂巢视图与蜂巢表时的性能考虑

apache-spark、hive、pyspark、apache-spark-sql、pyspark-sql

如果我在pyspark中使用spark并读取该视图，那么与直接从表中读取相比，会出现任何性能问题。在单元格中，如果我们不将where子句限制在精确的表分区上，我们就有了所谓的完整表扫描。searching是否足够智能，可以直接读取具有我们正在寻找的数据的表，而不是搜索整个视图？请给我建议。

浏览 4提问于2019-10-22得票数 1

回答已采纳

1回答

推送过滤器如何处理数据库中的Parquet文件？

apache-spark、apache-spark-sql、databricks

HighVolume = spark.read.parquet("/FileStore/shared_uploads/highVolume/*.parquet") \ HighVolume_wofilter = spark.read.parquet("/FileStore/shared

浏览 6提问于2022-08-31得票数 1

1回答

从拼图文件中读取分区数据并将其写回，保持层次结构？

apache-spark、apache-spark-sql

我正在尝试找到从拼图文件中读取分区数据的最佳方法，并将它们写回Spark中的层次结构。当我使用spark.read.parquet(inputPath)时，Spark从目录层次结构中读取所有分区，并将它们表示为列，但是当我写回该数据帧时，我丢失了所有层次结构。这需要指定分区列。有没有一种更自动的方法来做这件事？

浏览 9提问于2019-12-12得票数 2

回答已采纳

3回答

将文件保存到Parquet时，分区列被移动到行尾

apache-spark、parquet

parquet").mode("overwrite").save(fpath) 还有一个(对我来说)令人惊讶的结果：下面是从保存的p

浏览 4提问于2018-06-21得票数 5

回答已采纳

2回答

火花镶嵌地板隔断移除了隔断柱

apache-spark、pyspark、parquet

数据将删除数据上的分区列。如何避免呢？

浏览 2提问于2021-03-16得票数 0

3回答

避免从Spark写入时丢失分区数据的数据类型

apache-spark、spark-dataframe、parquet

itemName, itemCategoryName2, C1我想将此数据帧保存为分区拼接文件：Name1, 0Name3, 0 在这种情况下，在作为分区写入之后，当回读时，结果数据帧的数据类型为itemCategory。如何指定分区的数据类型，以便将其作为String而不是Int回读？

浏览 0提问于2017-10-10得票数 4

1回答

如何从拼花地板的当前日期开始读取最近N天的最后天数

scala、apache-spark

我已经用partition by date类型列将数据以拼图文件格式保存在仓库中。文件数据保存方式与仓库路径类似。Tespath/filename/dt=2020-02-28 如果我读取所有的数据，它的数据量是非常大的。

浏览 14提问于2020-02-24得票数 1

回答已采纳

2回答

使用分区JSON的Spark分区投影/下推和模式推理

json、apache-spark、pyspark、apache-spark-sql

我想以JSON格式读取分区数据的子集，使用spark (3.0.1)从JSON推断模式。我的数据被分区为s3a://bucket/path/type=[something]/dt=2020-01-01/ 当我尝试用read(json_root_path).where($"type" ==x && $"dt" >= y && $"dt" <= z

浏览 20提问于2021-01-27得票数 4

2回答

当数据存储在对象存储中时，从Spark SQL访问配置单元表

apache-spark、hive、object-storage

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。(通过partitionBy)时，我无法直接从spark sql访问数据要从分区

浏览 40提问于2018-12-18得票数 0

2回答

火花拼花模式演变

apache-spark、parquet

我有一个分区的hdfs拼板位置，它有不同的模式是不同的分区。第一个分区中有5个列，第二个分区中有4个科尔。现在我尝试读取基本的Parquet路径，然后过滤第二个分区。这给了我DF中的5列，即使我在第二个分区的Parquet文件中只有4列。当我直接读第二个分区时，它给出了正确的4次方。如何解决这个问题。

浏览 6提问于2020-03-17得票数 2

1回答

是否有可能将项目阶段推到HiveTableScan？

apache-spark、hadoop、hive、apache-spark-sql、apache-spark-dataset

我使用Spark查询以Hive格式存储的ORC格式的数据。当我对提供给spark.sql(query)的查询运行explain命令时，我看到以下查询计划：*Project [col1, col2, col3] +- HiveTableScan [col1, col2, col3, ...col50] 正如我所理解的，它从Hive中查询所有50列，只有这样，火花和后置词中的筛选才只选择实际需要的列是否有可能将所需的列直接推倒

浏览 1提问于2019-09-06得票数 2

回答已采纳

1回答

Spark load parquet无法从已分区列推断时间戳

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

我可以保存由一个看起来像时间戳但实际上是一个字符串的列划分的拼图文件。当我尝试使用spark.read.load()将拼图加载回spark时，它会自动推断分区的列有一个日期，导致我丢失所有的时间信息。有没有一种方法可以将parquet文件作为字符串读回到分区列中，或者更好的是让它自动解析成指定格式的时间戳？下面是一个例子： [ ('2020-01-01T00-00-01&

浏览 16提问于2020-02-12得票数 1

回答已采纳

1回答

不具有分区列性能的火花下推滤波器

apache-spark

我有一个关于spark中的过滤的问题，当你不在过滤器中包括分区列时。假设我有以下按日期分区的数据： part-0001.parquet数据有一个名为"action“的列，其中大约30%的数据值为0，其余的数据值为1spark.read.parquet("s3a:/&#x

浏览 2提问于2020-08-02得票数 0

3回答

星火数据加入问题

scala、apache-spark、hbase

(读取CSV、读取Parquet和相互连接) df1=spark.read.format("csv").load(filePath) //Join with Another table : Number of(阅读Hbase，阅读Parquet并相互连

浏览 1提问于2019-03-10得票数 3

3回答

Spark在加载Hive表时创建了多少个分区

apache-spark、hadoop、pyspark、apache-spark-sql

即使是Hive表或HDFS文件，当Spark读取数据并创建数据帧时，我认为RDD/dataframe中的分区数量将等于HDFS中的partfile数量。但是，当我使用配置单元外部表进行测试时，我可以看到这个数量与数据帧中分区的部分文件数量.The数量119不同。该表是一个Hive分区表，其中包含150个部分文件，最小文件大小为30MB，最大大小为118MB。那么，是什么决定了分区的数量呢？

浏览 69提问于2020-04-02得票数 3

3回答

如何在Spark中读取ORC文件时保留分区列

apache-spark、apache-spark-sql、orc

在Spark中读取ORC文件时，如果在路径中指定分区列，则该列将不会包含在数据集中。例如，如果我们有那么dfWithColumn将有一个reg

浏览 1提问于2018-09-13得票数 5

1回答

带有pyspark结构流的kafka自定义分割器

apache-spark、pyspark、apache-kafka

我希望能够根据data/message中的某个键控制应该将数据推送到哪个分区。在中，我找不到此类用例的任何参考资料或示例。我正在使用python处理和pyspark，被用作kafka客户端，但它也缺乏自定义分区程序的文档/示例。df = (df .withColumn("topic

浏览 1提问于2021-11-01得票数 1

1回答

是否可以在从HDFS读取CSV文件时对其进行分区？

csv、apache-spark

我正在尝试读取一个巨大的csv文件到spark中，并将其加载到雪花表中。，我们可以使用选项partitionColumn，其中我们可以指定分区列(这是一个旧方案&我的数据属于hive表的单个分区)，其中列epochVals具有几乎唯一的值，参数numPartitions帮助将数据划分为确切数量的分区(15是用于解释该方案的随机数字)，因此在读取数据时，spark有15个分区可以将数据排列到其中。我们总是可以根

浏览 25提问于2020-07-23得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云