Spark jdbc批处理不插入所有记录

mysql、scala、apache-spark、jdbc

在我的spark工作中，我使用jdbc批处理将记录插入到MySQL中。但我注意到，并不是所有的记录都进入了MySQL。，但当我检查mysql时，我看到195条记录。我尝试了不同的批处理大小，但仍然看到相同的数字。insert语句进行批处理，因为它在单次迭代中添加后立即执行它。阻止批处理查询的问题可能是什么？

浏览 30提问于2021-07-10得票数 0

回答已采纳

1回答

火花和MSSQL插入速度

sql-server、scala、apache-spark、jdbc

我遇到了一个问题，使用JDBC驱动程序将数十万条记录插入MSSQL数据库需要大约一个小时。火花版本: 2.2.0 是否有一种方法来配置Spark应用程序，以便它使用批量插入<

浏览 1提问于2017-10-09得票数 3

回答已采纳

2回答

使用Apache Spark进行快速计算，但写入数据库会消耗大量时间

scala、apache-spark、pyspark

我正在使用Apache spark从Oracle数据库中加载数据集，使用jdbc格式在Spark-Java.I中。所有处理都完成了，我正在将多个数据集写入数据库，这几乎消耗了90%的时间。那么，如何降低这种写入Oracle数据库的速度呢？我尝试了执行器的各种组合--内存、核心、执行器的数量，但没有得到很大的差别。： txndetailDS.write().mode("append").format("jdbc").option("url", co

浏览 0提问于2018-08-23得票数 0

1回答

JDBC - PostgreSQL -批插入+唯一索引

java、sql、database、postgresql、jdbc

我需要在这个表格中插入大量的记录。为了加快速度，我在JDBC中使用批处理更新(驱动程序版本为8.3-603)。是否有办法做到以下几点：每次批处理执行时，我都需要从未插入DB的批处理中接收记录，以便保存“错误”记录。

浏览 5提问于2015-06-20得票数 0

回答已采纳

2回答

从Dataframe到DB的批处理插入忽略Pyspark中失败的行

postgresql、jdbc、pyspark

我正在尝试使用JDBC向Postgres插入spark。postgres表对其中一个列具有唯一的约束，当要插入的df违反约束时，整个批处理将被拒绝，并且火花会话关闭，给出一个错误的重复键值违反唯一约束，这是正确的，因为数据是重复的(在数据库中已经存在)。需要插入不违反约束的数据行，忽略失败的行，而不会导致整个批处理失败。所用的代码是：url = "jdbc:postgre

浏览 1提问于2018-07-31得票数 2

2回答

Spring JdbcTemplate batchUpdate处理异常

spring、jdbc、jdbctemplate、spring-jdbc、batch-updates

目前我们的代码使用JdbcTemplate的batchUpdate方法进行批量插入。我的问题是，如果某个更新中出现任何异常，如何处理它(假设只需添加日志)，并继续执行下一条更新sql语句？

浏览 11提问于2012-03-22得票数 5

1回答

log4j2异步记录器实际上是否将数据插入到MySQL中？

java、mysql、database、jdbc、log4j2

我知道log4j2是用来记录信息的。我真的很困惑于log4jdbc的附录。它实际上是做什么的？我读过教程，但我真的不明白。当您通过jdbc将数据插入数据库时，它会记录这些信息吗？？或者log4j2记录器实际上能够登录到数据库中？String query ="INSERT INTO 'table' ('blah' ...";st.executeUpd

浏览 0提问于2014-07-01得票数 0

回答已采纳

2回答

在hibernate中保存大量记录的最佳方法

hibernate、save

我有5000条记录要保存。从数据库的角度来看，最好的方法是什么，是保存单个记录(保存(Record) 5000次)还是在hibernate中保存saveAll( 5000条记录的列表) ...当这种情况经常出现时，我会想到最好的一种

浏览 0提问于2013-04-09得票数 1

1回答

当表很大时，可以在关系数据库中使用Spark吗？

sql、apache-spark、apache-spark-sql、bigdata

我想知道如何使用spark来处理存储在关系数据库中的结构化大数据？我有包含超过40亿行(GPS坐标)的表格。在使用合并操作时，Spark试图处理内存中的所有表，这是不可能的。我知道Spark是“内存中的”处理，但在我的例子中，内存不能适用于整个表。那么，当表很大时，是否可以在关系数据库中使用spark呢？

浏览 3提问于2017-02-01得票数 1

1回答

是否有一种方法可以使用spark将数据插入到sql表中，而不插入重复的数据并丢失现有的数据？

scala、apache-spark、apache-spark-sql

我正在尝试使用df.write.jdbc将一个spark写入postgresql表中。问题是，我希望确保不丢失表中已经存在的数据(使用SaveMode.Append)，但也要确保避免插入已插入的重复数据。所以，如果我使用SaveMode.Overwrite:如果我使用SaveMode.Append:The表，则不会删除重复的记录。

浏览 1提问于2022-04-06得票数 0

1回答

即使在批处理执行模式下，Netezza批处理插入也非常慢

jdbc、netezza

根据文章，如果我们使用executeBatch方法，那么插入将会更快( Netezza JDBC驱动程序可能会检测到批量插入，并且在幕后将其转换为外部表加载，外部表加载将会更快)。我不得不执行数百万条insert语句，而且每个连接的最大速度仅为每分钟500条记录。有没有更好的方法通过jdbc连接更快地将数据加载到netezza？我使用spark和jdbc连接通过加载插入records.Why外部表，即使在批处理执行时也不会发生。下面给

浏览 19提问于2017-07-21得票数 1

1回答

Oracle大容量插入缺少的审计条目

oracle、insert、audit、bulk

这是我的场景：在所描述的场景中，该值被设置为10。但是，如果我将值更改为0，这将禁用jdbc<em

浏览 7提问于2013-01-10得票数 1

1回答

数据库操作的大小需要批处理模式

java、jdbc

只是好奇-插入/更新/删除的数量将保证使用jdbc批处理。这是w.r.t.Oracle数据库

浏览 3提问于2013-10-10得票数 0

回答已采纳

2回答

如何在JDBC中选择最佳批次大小？

java、sql、jdbc、sqlyog

我有一个CSV文件，其中有50000个条目，我想使用JDBC中的批处理在SQL中导入这些条目。它的最佳批号应该是什么？

浏览 3提问于2021-02-24得票数 7

回答已采纳

1回答

如何在Spring中使用MyB导则/ iBatis注释执行批处理插入/更新操作

java、spring、mybatis、ibatis、spring-mybatis

我第一次尝试执行批量插入/更新操作。我使用(Mappers)来执行与数据库相关的操作。return "success";P.S. :-这也是我第一次在这里发问。

浏览 2提问于2020-03-18得票数 0

回答已采纳

1回答

如何在多个同时读取的情况下更新甚至重置持久表中的行？

apache-spark、spark-structured-streaming

这将被其他批处理和流作业使用，跨不同的集群-因此，我想将它保存为一个持久的共享表，供所有人共享作业。allExchangeRatesDF.write.saveAsTable("exchangeRates") 那么(对于管理此数据的批处理作业)如何更好地优雅地更新表内容(实际上完全覆盖它)--考虑到各种星火作业是它的使用者

浏览 3提问于2017-07-13得票数 1

2回答

kafka jdbc接收器连接器的批量大小

apache-kafka、apache-kafka-connect、confluent-platform、connector

我只想通过JDBC接收器读取批处理中的5000条记录，为此，我在JDBC接收器配置文件中使用了batch.size：connector.class=io.confluent.connect.jdbc.JdbcSinkConnectortasks.max=1topics=postgres_users connection.url=jdbc:postgresql://localhost:

浏览 4提问于2019-10-25得票数 3

1回答

大容量插入和获取的JPA/Hibernate性能改进

java、spring-boot、hibernate、jpa

我正在使用Apache读取excel文件并将其保存到DB中，并从DB中获取记录以显示在UI上。尝试了批处理，但我们使用的是GenerationType.IDENTITY，因此批处理过程将无法工作，更改它的顺序将需要时间，因为它需要更改DB。除了缓存和批处理之外，还有什么可以尝

浏览 0提问于2021-07-26得票数 1

3回答

Hibernate / MySQL大容量插入问题

java、mysql、hibernate、orm

我很难让Hibernate在MySQL上执行大容量插入。persistEntities(Project project) {}为什么这不成批次？(我的理解是，在适当的情况下，hibernate应该默认批插入)。

浏览 5提问于2010-02-20得票数 6

回答已采纳

2回答

使用带有数据库生成ID的Mysql的JPA/Hibernate批量/批插入

java、mysql、hibernate、jpa、spring-data-jpa

好吧，我已经搜索了很久了，我似乎找不到一种很好的方法来完成JPA/Hibernate和MySql的批处理插入。我希望能够一次使用JPA保存/插入许多记录，但是如果使用GenerationType.IDENTITY，默认情况下会禁用批处理行为。因此，最后，我需要一种使用JPA/Hibernate、MySQL和数据库生成ID进行批/批量插入的有效方法。我知道这样做是可能的，因为我可以使用JDBC连接来完成，但是我真的不想为我的每个存储

浏览 17提问于2022-08-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花和MSSQL插入速度

使用Apache Spark进行快速计算，但写入数据库会消耗大量时间

JDBC - PostgreSQL -批插入+唯一索引

从Dataframe到DB的批处理插入忽略Pyspark中失败的行

Spring JdbcTemplate batchUpdate处理异常

log4j2异步记录器实际上是否将数据插入到MySQL中？

在hibernate中保存大量记录的最佳方法

当表很大时，可以在关系数据库中使用Spark吗？

是否有一种方法可以使用spark将数据插入到sql表中，而不插入重复的数据并丢失现有的数据？

即使在批处理执行模式下，Netezza批处理插入也非常慢

Oracle大容量插入缺少的审计条目

数据库操作的大小需要批处理模式

如何在JDBC中选择最佳批次大小？

如何在Spring中使用MyB导则/ iBatis注释执行批处理插入/更新操作

如何在多个同时读取的情况下更新甚至重置持久表中的行？

kafka jdbc接收器连接器的批量大小

大容量插入和获取的JPA/Hibernate性能改进

Hibernate / MySQL大容量插入问题

使用带有数据库生成ID的Mysql的JPA/Hibernate批量/批插入

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐