没有主键列的Spark jdbc读取性能调优

、、、

我正在运行spark分析应用程序，并使用spark jdbc直接读取MSSQL Server表(整个表)。这些表有超过30M条记录，但没有任何主键列或整数列。因为表没有这样的列，所以我不能使用partitionColumn，因此它在读取表时花费了太多时间。val datasource = spark.read.format("jdbc")

浏览 23提问于2019-09-26得票数 1

1回答

spark jdbc读取优化没有主键的where表

、

我正在从oracle表中读取30M条没有主键列的记录。spark jdbc读取挂起并且不获取任何数据。在那里，我可以在几秒钟内从Oracle SQLDeveloper获得相同查询的结果。oracleDf = hiveContext.read().format("jdbc").option("url", url) .option(&

浏览 1提问于2018-09-21得票数 1

1回答

火花(火花放电)速度试验

、、

我通过jdbc连接到一个拥有50万行和14列的DB。下面是使用的代码： properties= {'jdbcurl': 'jdbc:db:XXXXXXXXX','user': 'XXXXXXXXX', 'password': &

浏览 1提问于2018-03-05得票数 0

回答已采纳

7回答

Apache SQL与Sqoop基准测试同时将数据从RDBMS传输到hdfs

、、、

我们已经使用sqoop对这个案例进行了基准测试，并发现我们能够在6-7分钟内传输大约20 of的数据。当我尝试使用Spark时，性能非常低(从netezza到hdfs需要4分钟的1GB记录)。我正在尝试进行一些调优并提高它的性能，但它不太可能将其调到sqoop级别(1Min中大约有3GB的数据)。我同意spark主要是一个处理引擎这一事实，但我的主要问题是，spark和sqoop

浏览 3提问于2016-05-10得票数 14

回答已采纳

2回答

play scala项目中play框架的数据库优化性能

、、、、

讨论了一些额外的调优性能参数，但没有提到任何关于最佳或中度设置的建议/建议。另外，我有以下SQL错误。不知道这是否与调优设置有关，因为我有所有稳定的构建，如bonecp0.8.0，0.6.0.1，play 2.2.2，play 0.6.0.1等等。 Caught SQLException!com

浏览 6提问于2014-11-21得票数 0

回答已采纳

1回答

我正在处理用例，在这个用例中，我需要一次性卸载JDBC Datasource --在我的例子中，它是SAP数据库。我想将整个SAP数据库卸载到HDFS/MapR。我们最初尝试了sqoop，但是Sqoop的问题取决于主键字段，并且它只支持一个主键字段--按分拆-按争理。然后，我们考虑利用Spark来做数据集的Sqoop。通过各种JDBC选项可用的火花，例如，这个帖子。它还只接受一个列，而对于SAP Hana表

浏览 0提问于2018-09-18得票数 2

1回答

使用JDBC驱动程序将Spark数据集写入Oracle数据库的过程非常耗时

、、、、

我正在使用Apache Spark加载、处理数据集，并使用JDBC驱动程序将数据集输出到Oracle DB中。我使用spark jdbc write方法将数据集写入数据库。但是，同时将数据集写入数据库，将10行和1000万行写入数据库的不同表所需的时间相同。我想知道如何使用spark调优此写入方法的性能，以便我们可以明智地使用apache spark计算engine.Otherw

浏览 0提问于2018-08-21得票数 0

1回答

将大型Spark数据帧写入Cassandra -性能调优

、、

我在Spark 2.1.0 / Cassandra 3.10集群(4台机器* 12个内核* 256个RAM *2个SSD)上工作，并在相当长的一段时间内努力提高使用spark- Cassandra -connector2.0.1向cassandra写入特定大数据帧的性能。list<FROZEN<some_type>>, PRIMARY KEY

浏览 2提问于2017-05-12得票数 1

1回答

聚集索引与主键性能

我试图调优一个存储过程，它有一个用于匹配的临时表(只用于检索、没有更新或插入)。我们正在考虑将群集密钥应用于临时表。我们还在考虑应用主键(集群)。除了主键的唯一/非空约束之外，聚集索引和主键在查找临时表中的值方面是否存在性能上的差异？谢谢。

浏览 0提问于2012-11-28得票数 4

回答已采纳

2回答

JDBC到Spark如何确保均匀分区？

、、、

我对Spark还不熟悉，我正在使用DataFrame从Postgres数据库表中使用spark.read.jdbc创建一个JDBC。文档似乎表明这些字段是可选的。如果我不提供呢？假设我将有20个执行者，所以我将我的numPartitions设置为20。我的partiti

浏览 0提问于2019-06-10得票数 7

5回答

用于数据读取的MyISAM

、、

我有一个大约10亿行的表，其98%的读取量很大。然后运行一些测试来查看性能。在where子句中，我有一个主键ID，而且由于MyISAM键缓存将所有索引存储在其缓冲区中，使用MyISAM似乎非常快，比InnoDB快2倍左右。但对InnoDB来说，它似乎慢了一些！！是InnoDB没有使用任何缓冲区预加载索引吗？

浏览 0提问于2012-08-13得票数 10

3回答

pyspark作业太慢，-tried全部优化

、、、

'org.postgresql:postgresql:42.2.10','org.apache.hadoop:hadoop-aws:2.7.0' ,'com.oracle.database.jdbc:ojdbc6/fairscheduler.xml")\ .config("spark.driver.extraClassPath", "/home/hadoop/cdata.jdbc.netsuite.jar

浏览 92提问于2021-07-30得票数 0

2回答

如何使用varchar数据类型的partitionColumn读取scala上的表？

、、、

有可能给出varchar数据类型的partitionColumn吗？我想要读的表没有主键，所有列都是varchar数据类型。有任何方法从jdbc中读取partitionColumn作为varchar类型吗？var finaldataframe = spark.read.format("jdbc") .option("driver", "com.microsoft.sqlserver.<

浏览 5提问于2020-01-24得票数 0

1回答

Spark和JDBC:遍历大型表并写入hdfs

、、、、

什么是最有效的内存方式来复制大型关系表的内容，然后用parquet格式写入分区的Hive表(没有sqoop)。我有一个基本的spark应用程序，我已经用spark的jdbc做了一些其他的调优，但是关系表中的数据仍然是0.5TB和20亿条记录，所以我虽然可以懒惰地加载完整的表，但我正在努力弄清楚如何根据日期有效地分区由于spark

浏览 5提问于2017-06-22得票数 1

2回答

使用Cassandra的Spark任务

、、、

我是Spark和Cassandra的新手一种观察是，spark作业的任务数量增加了w.r.t数据增长。正因为如此，我们在获取数据时面临着大量的延迟。应该考虑什么来提高Cassandra在Spark中的性能<

浏览 1提问于2015-09-08得票数 2

2回答

mssql-jdbc* MS SQL Server JDBC驱动程序准备了Hikari CP的语句缓存性能问题*

、、、、

不幸的是，由于这次切换，我们看到读查询性能平均下降了20-30% --这是不可接受的。然而，在使用Hibernate 5.3 + Hikari +它们的JDBC驱动程序的Oracle和MySQL的相应结果中，我们实际上看到了大约5%-15%的性能改进--因此我们相当肯定这不是Hibernate我们还尝试调优所有明显可用的缓存调优参数：statem

浏览 1提问于2018-06-02得票数 4

1回答

如何统计SparkSQL中`View`的数据？

、

Spark版本: 3.0.0 以下是一些代码： val df = spark.read.schema(schema).format("com.databricks.spark.csv")df.createOrReplaceTempView("t1") val res = spark.s

浏览 26提问于2020-07-13得票数 0

回答已采纳

2回答

ApacheSpark2.1-- Row对象的Scala长/重属性

、、、

我们已经用Scala2.11编写了一个spark应用程序，它运行在Spark2.1.0独立集群上。根据设计/要求，我们已经构造了具有很多直接列(如100 s)的row对象，并且很少有嵌套列，其中一些嵌套列也很重，比如有20k到30k的序列。也有匹配的案例类来使用星火数据集。.....column_150, column_152 = Seq...column_160 = Se

浏览 0提问于2017-11-09得票数 2

1回答

使用Scala spark读写Redshift的最佳方式是什么，因为Databricks不公开支持spark-redshift lib

、、

我在Scala中有我的Spark项目，我想使用spark-redshift repo作为我的DataWarehouse，我发现Redshift是存在的，但Databricks从几年前就将其设置为私有的现在处理Amazon Redshift和Spark (Scala)的最佳选择是什么？

浏览 48提问于2020-07-17得票数 0

1回答

Elasticsearch hadoop配置批量批处理大小

、、

我通过可能的Stackoverflow阅读到es-hadoop / es-spark项目使用批量索引。如果是，则默认批处理大小为BulkProcessor(5Mb)。有没有什么配置可以改变这一点。我在我的代码中使用了JavaEsSparkSQL.saveToEs(dataset,index)，我想知道哪些配置可以用来调优性能。这是否也与数据集分区有关。

浏览 3提问于2016-11-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

spark jdbc读取优化没有主键的where表

火花(火花放电)速度试验

Apache SQL与Sqoop基准测试同时将数据从RDBMS传输到hdfs

play scala项目中play框架的数据库优化性能

火花JDBC并行

使用JDBC驱动程序将Spark数据集写入Oracle数据库的过程非常耗时

将大型Spark数据帧写入Cassandra -性能调优

聚集索引与主键性能

JDBC到Spark如何确保均匀分区？

用于数据读取的MyISAM

pyspark作业太慢，-tried全部优化

如何使用varchar数据类型的partitionColumn读取scala上的表？

Spark和JDBC:遍历大型表并写入hdfs

使用Cassandra的Spark任务

mssql-jdbc* MS SQL Server JDBC驱动程序准备了Hikari CP的语句缓存性能问题*

如何统计SparkSQL中`View`的数据？

ApacheSpark2.1-- Row对象的Scala长/重属性

使用Scala spark读写Redshift的最佳方式是什么，因为Databricks不公开支持spark-redshift lib

Elasticsearch hadoop配置批量批处理大小

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐