pyspark流未按顺序读取增量湖更改数据馈送

文章/答案/技术大牛

发布

1回答

、、

readChangeFeed", "true")\ .load(hubble_account_tablePath) display(df) 这将返回无序更改数据馈送对于以asc顺序作为连续流获取变更数据馈送有什么建议吗？

浏览 17提问于2021-10-20得票数 0

1回答

如何使用现有的流DF将有状态事件插入到Delta表中？

、、、、

我试图把从卡夫卡到三角洲湖表的事件。我做这个。新事件很好，增量表中的值将根据合并条件进行更新。现在，当我停止执行，然后重新运行upsert脚本时，Delta Lake似乎没有以与脚本已经运行时出现的顺序相同的顺序执行流df中每一行的插入。有人能向我解释一下，是否有可能从一开始就将事件作为增量表中的上半部分重放？如果是的话，你会怎么做？当我重新读取流和德尔塔湖合并函数时会发生什么：

浏览 3提问于2021-03-18得票数 1

4回答

我有一个青铜级别的增量湖表(Events_bronze)，位置是"/mnt/events- bronze“，数据从kafka流到这个位置。但是，在初始运行期间，由于events_silver不存在，我一直收到错误消息说增量表不存在，这是很明显的。那么我如何创建与events_silver具有相同结构的events_bronze呢?foreachBatch(upsertToDelta _) .start()

浏览 1提问于2019-10-05得票数 1

1回答

有序队列的多线程消耗

、、、

我有一个来自第三方消息队列的对象增量流(即描述对其他对象的更改的JSON对象)。我需要将这些应用于数据库中的适当对象(将增量转换为状态)。增量在本质上是有序的。实际上，我打算将这些增量通过管道传输到我们自己的Java群集中，一组RabbitMQ服务器将从中提取它们，然后将它们应用于数据库( Java是数据库更新逻辑集中的地方)。增量的应用程序需要是多线程的，但我希望确保给定对象的增量总是按顺

浏览 0提问于2015-06-22得票数 4

4回答

具有实时平衡更新的大容量事务的最佳实践

、、、、

我目前有一个处理大量事务的MySQL数据库。为了保持简单，它是实时出现的动作(点击和其他事件)的数据流。该结构是这样的，用户属于子附属机构，子附属公司属于附属公司. 我需要保持点击的平衡。目前我做的非常简单-一旦我收到事件，我用PHP进行顺序查询-我读取用户的平衡，增量1和存储新的值，然后我读取子附属机构的余额，增量和写入，等等。对于我来说，不要丢失一个事件也很重要，我实际上包装了每个更改周期，以单击sql事务中的balances。2

浏览 8提问于2017-02-25得票数 1

回答已采纳

1回答

多节点请求处理

、

第一个请求在数据库中做了一些更改，第二个请求的数据反映在数据库中。所以，我必须让第二个请求等待，直到第一个请求完成这个过程。

浏览 0提问于2018-03-24得票数 0

1回答

文件结构，用于存储从一幅图像变为另一幅图像的像素。

、、、、

我已经有了获取所有这些数据的方法(它们更改的索引及其新的整数值)。我的问题是这样的信息的存储，它需要尽可能小，当然，当我的程序需要读取这些数据时很容易迭代。是否有更合适/更有效的文件结构来实现这种数据存储？

浏览 0提问于2016-03-27得票数 1

2回答

如何使用Azure Serverless池在Azure数据湖Gen2中创建空白的"Delta“湖表模式？

、、、、

我有一个包含来自两个不同来源的数据的文件，该文件使用Azure映射数据流，并加载到ADLS2数据集容器/文件夹中，例如:- /暂存/EDW/Current/Products.parquet文件。但是，由于SCD类型2需要一个源查找来检查是否存在任何现有记录/行，如果没有插入所有记录或更改的记录是否进行更新等等(例如在第一次加载期间)。为此，我需要首先在Azure数据湖文件夹中创建一个默认/空白的&qu

浏览 4提问于2021-10-05得票数 0

1回答

为什么在事务结束前在RedShift中释放隐式表锁？

、、

我有一个ETL过程，它在RedShift中增量地构建维度表。它按以下顺序执行操作：并发事务彼此不可见；它们无法检测对方的更改

浏览 5提问于2013-12-31得票数 4

回答已采纳

1回答

如何从Foundry中现有的大型增量输入数据集构建大型增量输出数据集？

、、

我在Palantir Foundry中有一个80 of的日期分区数据集，它每3小时在增量附加事务中摄取300-450 of的数据。我想要创建一个增量转换，使用它作为输入。但是，数据集太大，无法一次读取初始快照。附加到数据集的数据将足够小，足以在初始快照后处理每个增量构建。如何解析输入数据集中的待办事项并达到可以在增量模式下运行转换的地步？

浏览 13提问于2022-07-29得票数 2

2回答

单独和同时从子进程捕获stdout/stderr会导致错误的总顺序(libc/unix)

、、、、

有一个矢量用于STDOUT，一个用于STDERR，另一个用于"STDCOMBINED"，即所有输出按程序打印的顺序排列。子进程通过两个管道连接到父进程。一管为STDOUT，另一为STDERR。在父进程中，我从管道的读取端读取，在子进程中，我将dup2()'ed STDOUT/STDERR从管道的写入端读取。我的问题是:我想捕获STDOUT、STDERR、和"STDCOMBINED“(按它们出现的顺序)。但是，组合向量中的顺序与原来的<em

浏览 0提问于2020-11-28得票数 1

6回答

写入文件的中部(不覆盖数据)

、、

在windows中，是否可以通过API将文件写到中间而不覆盖任何数据，而不必重写之后的所有内容？如果可能的话，我相信它会很明显地将文件碎片化；在它成为一个严重的问题之前，我能做多少次呢？

浏览 14提问于2010-03-07得票数 10

回答已采纳

2回答

为什么多个EOF进入结束程序？

、

试图理解我的代码的行为。我期望Ctrl引导程序打印数组并退出，但是它需要3次按压，并在第二次按下之后进入while循环。#include <stdlib.h> int connected(int p, int q); int c, p, q, i, size, *ptr; ptr = malloc(size * si

浏览 3提问于2015-09-01得票数 0

回答已采纳

2回答

在C#中，“原子”是什么意思？

我在C# 6.0和.NET 4.6框架一书中读到了这一点：

浏览 6提问于2016-08-02得票数 7

回答已采纳

4回答

存储数值范围的最有效方法是什么？

、、

这个问题是关于存储一个范围需要多少位。或者换句话说，对于给定的位数，可以存储的最大范围是什么，以及如何存储？例如，45-74我怀疑任何压缩技术都会产生边际结果，所以最好问一问：“可以存储在一个字节中的最大范围是什么？”这应该比单独存储这两个数字所能达到的要大。有什么标准的算法来做这种事吗？

浏览 0提问于2019-04-11得票数 30

回答已采纳

3回答

Django + Postgres +大时间序列

、、、、

我正在研究一个具有大量不可压缩时间序列数据的项目，并想知道Django + Postgres和原始SQL是否是正确的调用。我有时间序列数据，是~2K对象/小时，每小时。这大约是我每年存储的200万行，我希望1)能够通过连接将数据分割出来进行分析，2)能够在由Django服务的web上完成基本的概述工作。我认为最好的方法是将Django用于对象本身，但使用原始SQL来处理相关的大型时间序列数据。我认为这是一种混合的方法；这可能是一个危险的标志，但是使用完整的ORM来进行一系列的数据样本会让人觉得

浏览 8提问于2014-08-08得票数 22

回答已采纳

3回答

Unix管的确切创意是什么？

、、、

据我所知，管道是一个系统调用，它在两个进程之间共享一块内存，其中一个进程写入，另一个进程从中读取。作为一个不熟悉操作系统内部或概念的人，我想知道故事中的“天才”到底是什么？

浏览 0提问于2015-12-12得票数 54

回答已采纳

1回答

跟踪附加到PostgreSQL中的表

、、

default nextval('entries_sequence_number_seq') time timestamp default now()此表用作仅附加更改的流现在，我们需要一个或多个可以跟踪更改的使用者，因为它们被附加到这个表中：每个使用者需要定期循环，以大致按时间顺序获取下一批更改，换句话说，自上次用户投票以来，附加到条目的新行的增量。每个消费者获取所有的数据。没有必要有选择性的分配

浏览 2提问于2016-10-06得票数 2

3回答

如何在DynamoDB中有条件地执行集合操作

、

我总是想要更新sum和count，但是只有当我的值大于/小于数据库中已有的值时，我才想要更新min和max。此外，我只希望当存储的hash与我发送的不同时，此操作能够成功，以防止重新处理相同的数据。附注:已经有人建议我对dynamodb执行多个请求，并将最大/最小值设置为UpdateConditions，但出于数据一致性的原因，我希望避免这种多请求方法。 JavaScript。

浏览 0提问于2018-08-06得票数 0

5回答

有没有任何情况比字符串生成器更有效地使用Rope数据结构？

、、、

有比字符串生成器更有效的数据结构的场景吗？有些人认为，在典型情况下，在速度方面，绳子数据结构几乎从来没有比本机字符串或字符串生成器操作更好，所以我很好奇地看到一些实际的场景，那里的绳子确实更好。

浏览 4提问于2009-12-07得票数 26

回答已采纳

点击加载更多