在PySpark中自动删除检查点文件

文章/答案/技术大牛

发布

1回答

apache-spark、pyspark

我在我的PySpark代码中创建了spark上下文和会话， conf = SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints/checkpoints") 在下面的代码中，我在一些数据帧上使用了checkpoint()。它的工作方式与预期一致。但我希望在代码运行完成后删除检查点。有没有我可以使用的spark配置？如何在代码完成后删除<

浏览 15提问于2020-04-27得票数 1

1回答

是否有办法在EMR作业完成后自动删除检查点文件夹？

apache-spark、pyspark、amazon-emr

我在我的pyspark代码中创建和使用检查点。由于我使用的是非常大的数据帧，因此随着时间的推移，它们的大小往往会膨胀。有没有办法在作业完成后删除检查点文件夹？例如，如下伪代码所示：spark = SparkSession.builder.getOrCreate() df3.write.

浏览 2提问于2021-05-02得票数 1

1回答

从Hyper-V管理器中删除Hyper-V检查点，但仍有检查点备份文件.能恢复吗？

hyper-v

因为我试图每周自动创建Hyper快照，并将检查点文件备份到外部HDD，然后删除超过7天的检查点。如果我删除Hyper管理器中的Hyper检查点，但仍然需要检查点备份文件(like**.vmcx**、.vmgs和.vmrs文件)，我能使用这些备份文件恢复它吗？谢谢。

浏览 0提问于2019-08-28得票数 0

回答已采纳

1回答

使用检查点从胞表读取和更新同一个表

hive、pyspark、spark-checkpoint

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期newdf.write.mode("o

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

isCheckPointed()为false

apache-spark、pyspark、google-cloud-dataproc

当我迭代地将500多个列添加到我的pyspark中时，我遇到了堆栈溢出错误。所以我包括了检查点。检查站帮不上忙。因此，我创建了下面的玩具应用程序来测试我的检查点是否正常工作。在这个例子中，我所做的就是一次又一次地复制原始列来迭代地创建列。我坚持，检查点和计数每10个迭代。我注意到我的dataframe.rdd.isCheckpointed()总是返回False。我可以验证检查点文件夹确实是在磁盘上创建和填充的。我在用哥库德的datap

浏览 1提问于2017-11-16得票数 1

回答已采纳

1回答

如何清理星火结构流中积累的检查点文件？

apache-spark、apache-kafka、spark-structured-streaming、spark-checkpoint

我为SparkContext添加了检查点，并为长期运行的火花结构化流作业编写了对kafka数据流的查询。但是，我注意到检查点文件是在HDFS和S3中积累的，没有自动清理。我看到这些文件不断地占用存储空间。是否有办法为这些检查点文件配置保留时间以使其自动删除？还是需要运行某个cron作业来手动删除它们？如果我手动删除它们，会不会影响正在进行的火花作业？谢谢!

浏览 2提问于2020-09-27得票数 1

回答已采纳

1回答

火花结构化流处理以前的文件

scala、apache-spark

我正在中实现文件源，如果文件已被修改，我希望再次处理相同的文件名。基本上是对文件的更新。目前，一旦处理完毕，火花将不会再次处理相同的文件名。与的星火流相比，似乎是有限的。有办法这样做吗？星火结构化流不会在任何地方记录这一点，它只处理具有不同名称的新文件。

浏览 0提问于2018-03-13得票数 2

2回答

当规范大型CodeGen数据时，PySpark增长超过64 KB错误

apache-spark、pyspark、apache-spark-sql、pyspark-sql、window-functions

我有一个包含1300万行和800个列的PySpark数据格式。我需要规范化这些数据，因此一直在使用这些代码，它可以使用一个更小的开发数据集。所以，我的问题是-是否有一种替代的技术来规范我所缺少的大型数据文件？我用的是火花-2.0.1。

浏览 2提问于2016-12-12得票数 7

回答已采纳

1回答

为什么在数据库被清空的情况下，HSQLDB会在多次插入之后生成OutOfMemoryError？

java、hsqldb

套件中的每个测试都会插入一个大批量，测试算法，然后删除所有记录。不幸的是，HSQLDB最终会抛出OutOfMemoryError，即使每次都会清除所有记录，并且数据库中的最大记录数在任何给定时间都不会改变。这里有一个最低限度的JUnit测试来重现这一点。正如您所看到的，它只是插入然后删除一堆行。什么是HSQLDB在删除后保留在内存中导致错误的原因？为了能够无限期地运行插入-删除操作(或者至少足够执行所有测试)，我可以进行哪些更改？java.lang.OutOfMemo

浏览 21提问于2018-08-19得票数 0

回答已采纳

2回答

Spark无效的检查点目录

apache-spark、spark-graphx

我在我的程序中有一个长时间的迭代，我想每隔几次迭代就缓存和检查点(这个技术被建议用来减少web上的长历史)，所以我不会有StackOverflowError，通过这样做 //and perform a transformation我像这样设置了检查点目录

浏览 2提问于2015-09-05得票数 2

回答已采纳

1回答

tf.trainable_variables()返回model_fn之外的空白列表

tensorflow

在下载的tensorflow代码中，当调用model_fn_builder以下时，model_fn (向下)加载tf.trainable_variables()。我试图将tvars = tf.trainable_variables()移出model_fn，这样在每次调用预测时都不会加载变量(在每个预测生成器解析中都会调用model_fn)。tf在model_fn和外部是不同的吗？num_warmup_steps=num_warmup_steps, use_one_hot

浏览 0提问于2019-01-31得票数 1

回答已采纳

1回答

Flink增量检查点，Flink会自动删除旧检查点文件吗？

apache-flink

对于Flink增量检查点，如果我正确理解它，它将首先创建一个完整的检查点，然后它将在以前的基础上每次创建一个增量检查点。这条链子会很长吗？在恢复时，我们需要从第一个完整的检查点申请吗？我听说Flink会定期进行压缩/合并，这是否意味着它会周期性地创建一个完整的检查点，这样我们在恢复过程中就不需要进入非常老的完整检查点了吗？如果是的话，压缩/合并将在什么时候发生？还有一个问题，Flink是否保存所有检查点文

浏览 3提问于2019-09-20得票数 1

回答已采纳

1回答

Flink，setDbStoragePath方法在RocksDBStateBackend中做什么？

apache-flink

我在RocksDBStateBackend中使用flink 1.11，代码如下所示：我的问题是： --我的理解是，当DbStoragePath被设置时，Flink将在存储到hadoop hdfs:///flink-checkpoints之前将所有检查点和状态放在本地磁盘中(在我的例子中是&#

浏览 0提问于2021-02-24得票数 0

回答已采纳

1回答

如何使用recover_last_checkpoints of tf.train.Saver()方法？

python、tensorflow

文档写道，应该将检查点路径列表传递给它，但是如何获得该列表呢？通过硬编码？不，这是个愚蠢的做法。通过解析协议缓冲区文件(模型目录中名为checkpoint的文件)？，您有一个很好的实践来获得检查点路径列表吗？我提出这个问题，是因为最近我为一件事而烦恼。如你所知，一天的训练可能会因为某种原因而崩溃，我必须从最近的检查站恢复过来。然而，在我恢复训练后，出现了一个问题。那些在崩溃前创建的旧检查点文件留在了那里。保护程序只管理在</

浏览 2提问于2017-07-13得票数 3

回答已采纳

1回答

检查点页数/秒和内存压力高

performance、sql-server-2016、memory、checkpoint

最近，我在mssqltips.com上阅读了一个关于Server上内存瓶颈的mssqltips.com。在这篇文章中，我读到以下内容：高检查点页数/秒高页码读取/秒低页预期寿命自动(保持恢复间隔)手册如此多的检查点表明系统非常繁

浏览 0提问于2019-02-25得票数 3

回答已采纳

2回答

什么是SQL Server事务中的检查点?检查点的不同类型有哪些

sql、transactions

什么是SQL Server事务中的检查点?检查点的不同类型有哪些

浏览 2提问于2016-08-16得票数 1

2回答

Dataproc(StackOverFlowError)中的Pyspark检查点

apache-spark、pyspark、google-cloud-dataproc

当我使用pyspark持久化数据集时，我遇到了堆叠溢出错误。我将整个dataframe转换为双类型，然后坚持计算统计数据，我读到检查点是堆栈溢出的解决方案。但是，在dataproc中实现它有困难。 <

浏览 0提问于2018-07-31得票数 0

1回答

如何在“稳定状态”中使用sqlite3？

python、sqlite

问题是从来没有设置“检查点”，因为连接没有关闭，所以我的wal文件在增长，而我的性能很差。PRAGMA wal_checkpoint(TRUNCATE);返回的第一个值是1，表示它被阻止完成。让多个进程始终在同一个数据库上运行的标准方法是什么？我应该经常关闭和重新打开连接吗？

浏览 1提问于2021-05-21得票数 3

1回答

垃圾检查点间隔是如何在hadoop中工作的？为什么需要checkpoint_intereval？

hadoop、apache-spark、hadoop2、hadoop-streaming

被删除，file2在第6间隔被删除。在checkpoint_intereval期间还是在任何时候？2)每个检查点间隔的只有在新文件被删除并且rest抽象时才会形成新文件夹?(因此，这是否意味着每2分钟的检查点对我们来说是抽象的，而不是每2分钟更改一次目录名) 3) 我们将垃圾间隔设置为9分钟(例如)，目的是让文件在垃圾中保

浏览 2提问于2017-02-19得票数 1

1回答

OpenLDAP业务数据库日志文件维护和自动删除

ldap、openldap、berkeley-db

我有一个关于OpenLDAP/BDB在data目录中创建的日志文件的问题。这些文件的格式为log.XXXXXXXXXX (X是数字)，并且每个文件都具有相同的大小(可在DB_CONFIG中配置)。我在OpenLDAP和BDB文档中读到了很多关于检查点和日志文件维护的内容。这些文件增长非常快，需要维护，这似乎是很正常的。通常情况下，您应该定期备份它们，然后删除它们。问题是实

浏览 8提问于2015-02-06得票数 0

点击加载更多