Spark scala谓词下推和分区在处理和存储方面的区别是什么

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我正在使用数据帧，并且我遇到了这些术语。如果可能的话，我不能完全理解它们，你能在这两个方面都举一个例子吗？

浏览 8提问于2020-05-07得票数 0

1回答

星火的分区剪枝和谓词下推有什么区别？

分区剪枝谓词下推分区修剪：火花将尝试将数据过滤尽可能靠近源，以避免将不必要的数据加载到内存中。Parquet和ORC文件在不同的数据块(如min和<

浏览 1提问于2020-03-10得票数 3

2回答

不要忽略空分区

、、、、

我试图通过使用下推谓词读取数据集的子集。我的输入数据集包含存储在s3上的1,2TB和43436块文件。使用下推谓词，我应该读取1/4的数据。看到星火UI。我看到作业实际上读取1/4的数据(300 of )，但是在作业的第一阶段仍然有43436个分区，但是只有1/4的分区有数据，其余的3/4是空的(检查附加屏幕截图中的中间输入数据)。我原以为Spark只为非空

浏览 2提问于2020-06-25得票数 6

回答已采纳

1回答

在MemSQL中使用分区下推实现星火中的并行化

、、、

我在MemSQL中有一个列存储表，其模式类似于下面的模式：source_id TEXT,metric1 FLOAT,sparkSession.format(“com.memsql.spark.connector”).filter(col(“date”)).isin(Se

浏览 0提问于2019-02-26得票数 3

2回答

我需要查询这些数据的3列，并筛选出用于进一步处理的记录。方法1将数据存储为中的csv或parquet。当我需要查询时，读取整个数据并使用Spark进行查询。方法2使用HiveContext创建一个Hive表，并持久化该表和Hive元数据。需要时使用HiveContext查询此表。怀疑：在方法2中，是否将查询推送到数据库级别(HDFS)，并且只读取并返回满足条件的记录？或者将整个数据读入内存(与大多数火花作业一样)，然后使用元数据运行查询？

浏览 0提问于2018-04-10得票数 3

1回答

Azure数据湖的火花谓词下推、过滤和分区剪枝

、、、、

为了了解读取的数据量，我一直在阅读关于火花谓词、下推和分区剪枝的文章。我对此有以下疑问假设我有一个包含(年份: Int，SchoolName: String，StudentId: Int，SubjectEnrolled: String)列的数据集，其中存储在磁盘上的数据按年份和SchoolName进行分区，并在例如蔚蓝数据湖存储处以拼花格式存储。1)如果我发出一个read spark</e

浏览 1提问于2019-09-27得票数 3

回答已采纳

1回答

"Exchange散列分区“在spark中是如何工作的

、、、、

我有一个数据集，我想写，排序到拼板文件，以获得利益后，请求这些文件在星火，包括谓词下推。为了解决这个问题，我试图找出原因，并试图找到解决办法。scala>

浏览 0提问于2019-01-16得票数 0

回答已采纳

2回答

Spark 2.2最佳读取分区拼花文件

、、、

我需要处理数据，在那里，用户可以选择哪些国家要处理，哪些日期为每个国家。使用Spark2.x读取这些数据的最佳方法是什么，这将阻止Spark扫描整个数据集？我有几个选择：过滤器(国家= "USA“和asOfDate >= "2016-01-01”和asOfDate <= "2016-03-31")或(.)手动构造目录，并将每个子目录传递给拼花： spark.read.parqu

浏览 0提问于2017-09-30得票数 0

1回答

我如何实现火花放电卡桑德拉“基于键”连接器？

、、、

我使用的是Spark2.4.7，并且我已经实现了普通的吡火花卡桑德拉连接器，但是有一个用例，我需要实现基于键的连接器，我没有得到有用的博客/教程围绕它，有人请帮助我。Cassandra通常加载整个表，但我不想加载整个表，而是在源上运行查询并获取所需的数据。

浏览 3提问于2022-03-25得票数 1

2回答

如何有效地连接一个非常大的表和一个大表

、、、

这两个表都是以拼花数据格式存储的单元格中的外部表。table_1=spark.table("table_1")result_df=table_1.join(table_2table_1.lookup_id=table_2.lookup_id, "inner").drop(tabl

浏览 0提问于2020-07-04得票数 1

回答已采纳

2回答

如何使用星星之火数据访问接口实现服务器端过滤

、、、

第一部分是我在最后1小时内得到所有文章的部分，代码的第二部分获取所有这些文章的注释。第三部分在文章中增加了评论。articles = sqlContext.read.format("org.apache.spark.sql.cassandra").options(table="articles", keyspacex.created_at<=datetime.now()-timedelta(hours=0)).cache() axes = sqlContext.read.format("org.apa

浏览 2提问于2016-05-30得票数 1

回答已采纳

1回答

如何使用Spark/ Scala持久化数据？

、、、

我正在使用Spark和Scala执行一个批处理过程。每天，我都需要将一个销售文件导入Spark并执行一些转换。(一个模式相同的文件，只有日期和销售值可能会改变)在周末，我需要使用所有的每日转换来执行每周聚合。因此，我需要坚持每天的转换，这样我就不会让火花在周末做任何事情。

浏览 1提问于2018-04-02得票数 0

1回答

在synapse中分离的专用sql池之间进行数据移动的最佳方法是什么？

、、

有人能告诉我从synapse专用sql池表中读取数据的最佳方法吗？我的要求是从两个单独的专用池中的表中读取选定的列，应用一些转换，然后写入其中一个专用池中的另一个表。

浏览 17提问于2022-05-18得票数 0

2回答

多级分区表的Spark* (EMR)分区修剪行为*

、、、、

如果我有一个用多级分区创建的表，即包含两列(state，city)，如下所示： state=Texas,city=Houston state=CA,city=SanDiegoselect * from table_name where city=Houston 也就是说，在使用第二个分区列的地方，它会只扫描state=Texas中的city=Houston分区吗？我非常确定Hive是如何

浏览 17提问于2019-11-12得票数 1

1回答

使用Apache提高Teradata卸载性能

、

我有超过1TB的TB数据，我必须用星火代码导入和处理数据，我已经完成了所有有效的方法来实现火花提交执行器内存、核心计数和驱动程序内存，核心即使在集群中花费更多的时间，集群数据节点的大小是4个节点和500

浏览 0提问于2018-04-09得票数 0

5回答

saveAsTable和insertInto在不同的SaveMode(s)中有什么不同？

我试图以DataFrame模式(对于我的应用程序来说是必需的)将Hive表(在S3上)写入一个Overwrite表，并且需要在DataFrameWriter的两种方法(Spark / Scala)之间做出决定从我在中可以看到的情况来看，df.write.saveAsTable在以下方面与df.write.insertInto不同： saveAsTable使用基于列名的解析，而insertInto使用基于位置的分辨率在附加模式下，saveAsTable更多地关注现有表的底层模

浏览 25提问于2017-12-16得票数 35

回答已采纳

1回答

理解BigQuery BigLake的几个特性

、、

在下面的中，给出了以下图片：在实践中，以下三件事究竟意味着什么？快速扫描 SELECT * FROM table WHEREcountry="US" 谓词下推将获取country='US'并在本机源上对其进行评估，而如果我们没有谓词<em

浏览 5提问于2022-07-02得票数 0

1回答

Spark数据帧异常

、、

假设我下面有两个数据帧，这两个数据帧将通过scala代码创建，然后jar将被构建。1,0,1,0)).toDF("col1")} 我的要求是创建jar并提交spark如何处理这个错误在scala对象中退出？

浏览 0提问于2019-11-22得票数 0

1回答

vertica中的pyspark逻辑连接

、、、

spark1.6，从我的Vertica数据库中检索数据来处理它下面的查询在vertica db上运行得很好，但是它不适用于push，星火DataFrames支持用JDBC源下推谓词，但是在严格的SQL意义上使用了术语谓词此外，它似乎仅限于逻辑连接(恐怕没有IN和OR )和简单谓词，它显示了以下错误：java.lang.RuntimeException:选项'dbtable‘未指定 conf

浏览 0提问于2019-02-13得票数 0

回答已采纳

2回答

Spark中的最佳实践来过滤数据，对结果数据执行不同的操作，然后将新的数据返回

、、

由于我刚开始使用Spark，所以我想问一个关于我在Spark中使用的模式的问题，但是不知道这是否是一种糟糕的实践(根据过滤器将数据分割成两部分，对它们执行不同的操作，然后将它们重新加入)。

浏览 6提问于2022-09-29得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云