如何在使用spark读表时确定数据大小？

、

我正在尝试使用spark在postgres db上读取一个表。为此，我编写了以下代码： val yearDF = spark.read.format("jdbc").option("url", connectionUrl)，我试图找到一些在线材料来确定正在读取的数据的大小，以及我的作业应该使用多少分区、执行器和输出文件来处理数据。如果数据类型类似于character varyi

浏览 134提问于2019-07-03得票数 3

2回答

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

、、

我需要从Spark创建一个Hive表，该表将采用拼花格式和快速压缩。下面的代码以拼花格式创建表，但使用GZIP压缩：但在色调"Metastore表“”-

浏览 3提问于2016-04-29得票数 4

回答已采纳

1回答

如何避免“任务大小太大”？

、

我的问题是，在使用Spark将表还原为更大的表时，任务大小太大了。这里是情况：我有10+表/数据帧连

浏览 0提问于2017-03-06得票数 2

1回答

星火Java数据-分区的大小

、、、

如何获得每个分区的大小(以mb为单位)？如何获得数据帧的总大小(以mb为单位)？如果我持久化它并检查SparkUI?的存储选项卡，它是否正确？

浏览 3提问于2022-11-08得票数 1

1回答

如果RDD不能放入Spark的内存中，会发生什么？

、、、

据我所知，Spark试图在内存中完成所有计算，除非你调用persist with disk storage选项。但是，如果我们不使用任何persist，那么当RDD不能放入内存时，Spark会做什么？如果我们有非常庞大的数据。Spark如何在不崩溃的情况下处理它？

浏览 0提问于2015-09-15得票数 6

3回答

在Spark中将多个小表与大表连接的最佳方法

、、

我正在使用spark执行连接倍数表。其中一个表非常大，其他表很小(10-20个记录)。实际上，我想使用包含一对键值的其他表来替换最大表中的值。即大表：-------------------------------------- | A1 | B1 |我的问题是；，这是加入表的最佳方式。(假设有100个或更多的小表) 1)收集小

浏览 1提问于2018-02-13得票数 3

2回答

检查pyspark dataframe是否为空，从而导致内存问题

、、、

我有一个表，其中包含大约10亿条记录。我对它运行了一个查询，实质上是查找重复项。如果查询结果为0行，则没有重复项，否则有重复项。如果有重复，我想把表名写到一个文本文件中。所以我要做的是if len(df.head(1)) != 0: 在我的查询中，我认为(希望)添

浏览 0提问于2020-06-12得票数 0

1回答

后端数据库在速度上重要吗？

、、

目前，我使用星火与卡桑德拉作为数据存储(我有一些NoSQL要求)。Spark有自己的内存处理框架，可以连接到各种数据库，如Cassandra、MongoDB、Redshift。因此，当通过Spark从这些数据库读取时，数据库的读性能(或写性能)重要吗？我想为了更快的读取而改变数据存储。

浏览 4提问于2015-09-16得票数 1

1回答

如何使用scala连接到Apache中的postgreSQL数据库？

、、

我想知道如何在scala中执行以下操作？编写SQL查询，如SELECT、UPDATE等，以修改数据库中的表。我知道如何使用scala来实现它，但是如何在打包时将psql scala的连接器jar导入sbt？

浏览 0提问于2014-07-23得票数 40

回答已采纳

3回答

Spark SQL和MySQL- SaveMode.Overwrite不插入修改的数据

、、、

我在MySQL中有一个test表，其id和名称如下：| id | name || 1 | Name1 |+----+-------++----+-------+DatasetAppProperties.MYSQL_CONNECTION_URL,

浏览 0提问于2017-01-26得票数 8

回答已采纳

2回答

配置单元分区表上的spark行为

、、

我使用Spark 2。我们将hive表划分为2000个分区，并以拼接格式存储。当在spark中使用这个表时，在executors中恰好有2000个任务被执行。但是我们有一个256MB的块大小，我们期望(总大小/ 256 )分区的数量肯定会比2000小得多。spark是否有任何内部逻辑使用</em

浏览 1提问于2018-04-05得票数 2

1回答

我正在尝试从以拼图格式存储的配置单元表中读取数据。我使用的是MapR发行版。读取数据后，当我尝试执行任何操作时，例如df.show(3)，它抛出java.lang.ArrayIndexOutOfBoundsException: 7。如果表存储被更改为ORC，那么它就可以工作。此外，我还尝试从共享集群中的表中读取数据。因此，我不能更改源表中的任何内容。Hive表结构， CREATE TABLE employee_p(

浏览 16提问于2019-02-15得票数 0

1回答

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

、

当我为表同步运行spark应用程序时，错误消息如下所示： at org.apache.spark.rdd.RDD.iteratorjava.util.concurrent.ThreadPoolExecutor$Worker.r

浏览 3提问于2019-10-16得票数 0

回答已采纳

2回答

如何刷新表并并发进行？

、、

我使用的是星火流2.1。我想定期刷新一些缓存的表(由spark提供的DataSource加载，比如parquet、MySQL或用户定义的数据源)。 spark.read.format("").load().createTempView("my_table")spark.sql("cache table my_table下一个加载表时，它

浏览 5提问于2017-08-22得票数 18

3回答

什么是JDBC查询来写入SparkSQL表？

、、、、

对于Spark中的SQL查询。对于读，我们可以通过USING org.apache.spark.sql.jdbc对于写，使用SQL将数据写入远程JDBC表的查询是什么？plz提供了使用HiveContext.sql(.)时可以写入HiveContext.sql的纯"SQL“。SparkSQL的。

浏览 4提问于2016-03-23得票数 6

1回答

在不更改列名的情况下创建PySpark数据框

、、、

我使用下面的CTAS命令使用SparkSQL创建表。FROM TBL1 在那之后，我正在使用下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是，下面的data frame仅使用lowercase中的所有列名创建。df = spark.read.format('ORC') \ .option('header',True) \

浏览 12提问于2019-12-23得票数 1

回答已采纳

2回答

Apache :广播连接行为:筛选连接表和临时表

、

但是，我首先过滤掉了第二个表的一部分，而不是完全连接两个表：在这种情况下，我想使用广播连接。Spark有一个参数，该参数定义广播连接的最大表大小：spark.sql.autoBroadcastJoinThreshold 配置表的最大大小</e

浏览 7提问于2021-07-08得票数 2

回答已采纳

2回答

EOF与读取器/作者同步

、、、、

文件的EOF工作流是什么(关闭文件句柄，如^D或^z)？如果EOF从来没有写过，会发生什么？还有什么是不想要的场景？读取文件时O.S如何计算EOF？P.S:当前的操作系统是windows，但我也不介意在unix上学习同样有趣的特性。区块报价现在我知道EOF不是字符，所以它不能写在文件的数据上。如果O.S.使用File_size确定EOF，就像偶@saurabh指出的那样。

浏览 7提问于2012-05-28得票数 0

1回答

用列列表激发SQL插入选择？

当我阅读Spark/Hive文档时，将插入到带有列列表的表中，在Spark2.4和更早版本中不支持。input_table( cola, colb, colc, cold, cole) 在SQL中(假设关系

浏览 1提问于2019-01-09得票数 4

回答已采纳

1回答

无法使用SparkSQL读取行大小大于2 2GB的表

、

我正在尝试使用SparkSQL将数据库以拼图格式导出到我的S3中。有什么解决方法吗？

浏览 0提问于2021-08-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

如何避免“任务大小太大”？

星火Java数据-分区的大小

如果RDD不能放入Spark的内存中，会发生什么？

在Spark中将多个小表与大表连接的最佳方法

检查pyspark dataframe是否为空，从而导致内存问题

后端数据库在速度上重要吗？

如何使用scala连接到Apache中的postgreSQL数据库？

Spark SQL和MySQL- SaveMode.Overwrite不插入修改的数据

配置单元分区表上的spark行为

无法通过Spark* 1.6从拼接蜂窝表中读取数据*

当Spark通过JDBC读取RDBMS时，是否存在参数分区？

如何刷新表并并发进行？

什么是JDBC查询来写入SparkSQL表？

在不更改列名的情况下创建PySpark数据框

Apache :广播连接行为:筛选连接表和临时表

EOF与读取器/作者同步

用列列表激发SQL插入选择？

无法使用SparkSQL读取行大小大于2 2GB的表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐