假设我有一个从数据库加载的对象流(使用Spring Data JPA,如下所示)
public interface MyJpaRepository extends JpaRepository {
Stream findAll();
}
假设有数百万个Foo对象存储在我的数据库中,使用的GB比我的最大堆内存大小大得多。
我期望通过如下方式使用流,当从数据库加载更多的对象时,JVM可以通过垃圾收集处理过的对象来正确地处理它的堆内存:
try (Stream fooStream =
myJpaRepository.findAll()) {
fooStream.forEach(entity -> logger.info("Hello !"));
}
但实际上,这段代码会抛出内存不足异常。
谢谢你
发布于 2021-02-26 05:57:12
@ernest_K在他的评论中是100%的,这个问题与流无关。正如@avishek-bhattacharya解释的那样:
流不存储数据;相反,它们提供来自集合、数组或IO通道等源的数据。通常,这些都是懒惰的评估。
事实上,Postgres (在我的例子中是底层DB )总是返回整个ResultSet,除非另行配置(对Postgres也是如此)。要将其配置为使用数据库游标,您需要执行以下操作:
public interface MyJpaRepository extends JpaRepository {
@QueryHints(
value = {
@QueryHint(name = HINT_FETCH_SIZE, value = "1000"),
@QueryHint(name = HINT_CACHEABLE, value = "false"),
@QueryHint(name = HINT_READONLY, value = "true")
})
Stream findAll();
}
发布于 2021-02-18 12:53:19
Java Stream不会从底层数据库获取所有数据。流不存储数据;相反,它们提供来自集合、数组或IO通道等源的数据。通常,这些都是懒惰的评估。所以,当looger.info
在每个实体上调用时,stream将从基础数据存储区获取数据并应用命令。因为流只提供了一个迭代器,所以它只需要获取迭代中的下一个数据,而不是整个集合。一旦对其应用了lambda函数,GC就会删除所获取的数据。
发布于 2021-02-18 12:54:21
在您的场景中,垃圾收集器将不会获得时间来采取行动并清理您的内存。让我试着解释更多细节。在启动java进程时,您配置了堆内存和垃圾收集算法。如果您没有对它们中的任何一个进行微调,JVM就会认为默认设置是理所当然的,然后继续执行。一旦您的进程开始分配堆,JVM就会在内部收集统计信息并调度垃圾收集过程。但是,如果您的进程没有提供足够的空间来决定何时以及如何收集垃圾,JVM将抛出内存溢出(OOM)错误并崩溃,正如您所观察到的那样。
https://stackoverflow.com/questions/66253791
复制相似问题