使用分区JSON的Spark分区投影/下推和模式推理_在使用kafka和spark streaming创建直播流之前，获取主题的分区数量？_如何使用json的字段和基于时间的分区为json配置kafka s3接收器连接器？ - 腾讯云开发者社区

、、、

我想以JSON格式读取分区数据的子集，使用spark (3.0.1)从JSON推断模式。当我试图提前找出我的分区路径并将它们传递给read(paths :_*)时，spark抛出一个错误，它无法推断模式，我需要手动指定模式。(请注意，在这种情况下，除非我指定basePath，否则spark也会丢失type和dt列，但这没问题，我可以接受。)我想，

浏览 20提问于2021-01-27得票数 4

1回答

不具有分区列性能的火花下推滤波器

我有一个关于spark中的过滤的问题，当你不在过滤器中包括分区列时。假设我有以下按日期分区的数据： part-0001.parquet数据有一个名为"action“的列，其中大约30%的数据值为0，其余的数据值为1spark.read.parquet(&

浏览 2提问于2020-08-02得票数 0

1回答

星火中的蜂箱分区和桶形支持不像预期的那样工作

、

在使用S3中的分区时，Spark逐个列出所有分区，这将消耗time.Rather &它应该在元存储表中查找分区&应该立即进入分区。我尝试以125个partitions.When为例，通过附加分区列值来计算S3的确切位置&尝试访问它，它在5sec.But中执行，如果我试图让Spark计算出分区，它将列出所有分区，这本身需要超过30秒如何让Spark使用

浏览 1提问于2017-10-22得票数 0

回答已采纳

1回答

在MemSQL中使用分区下推实现星火中的并行化

、、、

我在MemSQL中有一个列存储表，其模式类似于下面的模式：source_id TEXT,metric1 FLOAT,±--------------±----------------±-------------±-------±-----------+ 我的问题是关于分区下推我的理解是，有了它，我们可以使用机器的

浏览 0提问于2019-02-26得票数 3

1回答

星星之火SQL和Cassandra联接

、、

我的Cassandra模式包含一个表，其中一个分区键是一个时间戳，一个parameter列是一个集群键。每个分区都包含10k+行。这是以每秒一个分区的速度记录数据。另一方面，用户可以定义“数据集”，而我有另一个表，其中包含“数据集名称”作为分区键，以及一个集群列，该列是引用另一个表的时间戳(因此"dataset“是分区键列表)。当然，我想做的事情看起来像是卡桑德拉的反模式</em

浏览 2提问于2016-02-14得票数 3

1回答

我如何实现火花放电卡桑德拉“基于键”连接器？

、、、

我使用的是Spark2.4.7，并且我已经实现了普通的吡火花卡桑德拉连接器，但是有一个用例，我需要实现基于键的连接器，我没有得到有用的博客/教程围绕它，有人请帮助我。我试过普通的火花放电-卡桑德拉连接器，它工作得很好。现在，我希望实现基于键的连接器，我找不到。 Cassandra通常加载整个表，但我不想加载整个表，而是在源上运行查询并获取所需的数据。通过基于键的方法，我想使用一些键来获取数

浏览 3提问于2022-03-25得票数 1

1回答

星火的分区剪枝和谓词下推有什么区别？

我正在研究星火优化方法，并遇到了实现优化的各种方法。但有两个名字引起了我的注意。他们说：Spark是一种性能优化，它限制查询时读取的文件和分区的数量。在对数据进行分区之后，匹配某些分区筛选条件的查询通过允许Spark只读取目录和文件的子集来提高性能。火花将尝试将

浏览 1提问于2020-03-10得票数 3

2回答

不要忽略空分区

、、、、

我试图通过使用下推谓词读取数据集的子集。我的输入数据集包含存储在s3上的1,2TB和43436块文件。使用下推谓词，我应该读取1/4的数据。看到星火UI。我看到作业实际上读取1/4的数据(300 of )，但是在作业的第一阶段仍然有43436个分区，但是只有1/4的分区有数据，其余的3/

浏览 2提问于2020-06-25得票数 6

回答已采纳

1回答

SparkSQL通过Cassandra分区键范围限制查询

、

假设我的主键是一个timestamp。我似乎无法让它工作，即使我使用了token()。另外，我不能在分区键上创建二级索引。这应该怎么做呢？

浏览 2提问于2016-03-14得票数 0

1回答

Spark scala谓词下推和分区在处理和存储方面的区别是什么

、

我正在使用数据帧，并且我遇到了这些术语。如果可能的话，我不能完全理解它们，你能在这两个方面都举一个例子吗？

浏览 8提问于2020-05-07得票数 0

1回答

星星之火:在写入文件类型时不理解行为。

、、

我有这样的csv记录：name | age | entranceDate | Tom| 12 | 2019-10-01 |Mary | 15 | 2019-10-01 | ));} sqlContext

浏览 1提问于2019-09-23得票数 3

回答已采纳

1回答

显示Spark+Parquet程序中读取的字节数

、、

我正试图通过利用分区和下推来优化一些Spark查询和一个Parquet模式。我的理解是，这些技术允许跳过大部分的拼图文件。有没有办法显示Spark读取的字节数与Parquet文件的总大小之间的关系？另外，读操作的数量是多少？(我使用的是S3，因此我希望最小化由于S3应用程序接口调用的开销而导致的</e

浏览 0提问于2019-03-14得票数 0

2回答

将蜂巢查询推送到数据库级别

、、、

我有1亿条记录的表格数据，每条记录都有15列。我需要查询这些数据的3列，并筛选出用于进一步处理的记录。方法1将数据存储为中的csv或parquet。当我需要查询时，读取整个数据并使用Spark进行查询。在方法2中，是否将查询推送到数据库级别(HDFS)，并且只读取并返回满

浏览 0提问于2018-04-10得票数 3

1回答

源主题有50个分区，目标流也有50个分区，但问题是源分区1将在目标流中随机分区(示例分区10)。模式: CREATE STREAM SCHEMA_BASE ( ID VARCHAR，TIMESTAMP VARCHAR，CITY VARCHAR，Partition INTEGER) WITH ( KAFKA_TOPIC= 'SPARK_EVENTS'，VALUE_FORMAT = 'JSON'，TIMESTAMP_

浏览 20提问于2021-07-15得票数 0

回答已采纳

1回答

在databricks dataframe中读取json文件只有一个分区

、、

我们有大约500行的json格式的源文件，但是如果JSON文件是完全扁平的，则有750百万条记录。无论我做什么，我的数据砖笔记本都是在一个分区中读取源文件。例如，我设置了洗牌分区，禁用了AQE，并设置了分区，但仍然只将文件加载到单个分区中。df =spark.read.load(文件名，格式=‘json’，multiline=True，编码= 'UTF-8'，

浏览 3提问于2022-06-08得票数 0

1回答

Spark JDBC关系数据库取数优化

、

a)与传统的java JDBC调用相比，Spark有没有一种方法可以优化从关系数据库获取数据。b)如何在运行Spark查询时减少数据库的负载，因为我们将为所有查询直接命中生产数据库。假设Spark报告案例的生产中有3000万条订单记录和1.5亿条订单行记录。

浏览 2提问于2015-08-18得票数 2

1回答

如何在Apache Spark中将JSON文件转换为常规表DataFrame

、

我有以下JSON字段 {"constructorId":1,"constructorRef":"mclaren","name":"McLaren","nationality":"British","urlnationality":"German","url":"http://en.wikipedia.org/wiki/BMW_Sa

浏览 45提问于2021-11-13得票数 0

回答已采纳

1回答

Spark和Executor在本地模式下的行为

在StackOverflow中有几个关于Spark的本地模式的问题得到了很好的回答，但我找不到我的问题的答案，那就是；我知道在本地模式下，spark为驱动程序和executor创建了一个JVM，所以这意味着我们有一个executor，它的内核数量与我们的计算机(假设8个)相同(如果我们使用Local*运行它)，这也是默认的Spark</

浏览 38提问于2021-01-18得票数 1

1回答

使用hive -无法正确创建分区并将表保存在dataframe中

、、、

我试图用很少的转换(添加日期)将json文件转换为parquet，但是在将数据保存到parquet之前，我需要对数据进行分区。 df_temp = spark.read.json(data_location) \ cond3如果使用USING而不是LIKE，则会出现以下错误： pyspark.sql.utils.AnalysisException：“当表

浏览 0提问于2019-09-04得票数 0

回答已采纳

2回答

Apache Spark是否从目标数据库加载整个数据？

、、、

我想使用Apache Spark并通过JDBC连接到Vertica。似乎Spark从目标服务器加载了所有数据。这是我的代码： .option("url" , u

浏览 5提问于2017-02-16得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云