腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(43)
视频
沙龙
1
回答
pyspark
流
未按
顺序
读取
增量
湖
更改
数据
馈送
、
、
readChangeFeed", "true")\ .load(hubble_account_tablePath) display(df) 这将返回无序
更改
数据
馈送
对于以asc
顺序
作为连续
流
获取变更
数据
馈送
有什么建议吗?
浏览 17
提问于2021-10-20
得票数 0
1
回答
如何使用现有的
流
DF将有状态事件插入到Delta表中?
、
、
、
、
我试图把从卡夫卡到三角洲
湖
表的事件。我做这个。新事件很好,
增量
表中的值将根据合并条件进行更新。现在,当我停止执行,然后重新运行upsert脚本时,Delta Lake似乎没有以与脚本已经运行时出现的
顺序
相同的
顺序
执行
流
df中每一行的插入。有人能向我解释一下,是否有可能从一开始就将事件作为
增量
表中的上半部分重放?如果是的话,你会怎么做?当我重新
读取
流
和德尔塔
湖
合并函数时会发生什么:
浏览 3
提问于2021-03-18
得票数 1
4
回答
Delta Lake创建结构类似于其他表的表
、
、
、
我有一个青铜级别的
增量
湖
表(Events_bronze),位置是"/mnt/events- bronze“,
数据
从kafka流到这个位置。但是,在初始运行期间,由于events_silver不存在,我一直收到错误消息说
增量
表不存在,这是很明显的。那么我如何创建与events_silver具有相同结构的events_bronze呢?foreachBatch(upsertToDelta _) .start()
浏览 1
提问于2019-10-05
得票数 1
1
回答
有序队列的多线程消耗
、
、
、
我有一个来自第三方消息队列的对象
增量
流
(即描述对其他对象的
更改
的JSON对象)。我需要将这些应用于
数据
库中的适当对象(将
增量
转换为状态)。
增量
在本质上是有序的。实际上,我打算将这些
增量
通过管道传输到我们自己的Java群集中,一组RabbitMQ服务器将从中提取它们,然后将它们应用于
数据
库( Java是
数据
库更新逻辑集中的地方)。
增量
的应用程序需要是多线程的,但我希望确保给定对象的
增量
总是按
顺
浏览 0
提问于2015-06-22
得票数 4
4
回答
具有实时平衡更新的大容量事务的最佳实践
、
、
、
、
我目前有一个处理大量事务的MySQL
数据
库。为了保持简单,它是实时出现的动作(点击和其他事件)的
数据
流
。该结构是这样的,用户属于子附属机构,子附属公司属于附属公司. 我需要保持点击的平衡。目前我做的非常简单-一旦我收到事件,我用PHP进行
顺序
查询-我
读取
用户的平衡,
增量
1和存储新的值,然后我
读取
子附属机构的余额,
增量
和写入,等等。对于我来说,不要丢失一个事件也很重要,我实际上包装了每个
更改
周期,以单击sql事务中的balances。2
浏览 8
提问于2017-02-25
得票数 1
回答已采纳
1
回答
多节点请求处理
、
第一个请求在
数据
库中做了一些
更改
,第二个请求的
数据
反映在
数据
库中。所以,我必须让第二个请求等待,直到第一个请求完成这个过程。
浏览 0
提问于2018-03-24
得票数 0
1
回答
文件结构,用于存储从一幅图像变为另一幅图像的像素。
、
、
、
、
我已经有了获取所有这些
数据
的方法(它们
更改
的索引及其新的整数值)。我的问题是这样的信息的存储,它需要尽可能小,当然,当我的程序需要
读取
这些
数据
时很容易迭代。是否有更合适/更有效的文件结构来实现这种
数据
存储?
浏览 0
提问于2016-03-27
得票数 1
2
回答
如何使用Azure Serverless池在Azure
数据
湖
Gen2中创建空白的"Delta“
湖
表模式?
、
、
、
、
我有一个包含来自两个不同来源的
数据
的文件,该文件使用Azure映射
数据
流
,并加载到ADLS2
数据
集容器/文件夹中,例如:- /暂存/EDW/Current/Products.parquet文件。但是,由于SCD类型2需要一个源查找来检查是否存在任何现有记录/行,如果没有插入所有记录或
更改
的记录是否进行更新等等(例如在第一次加载期间)。为此,我需要首先在Azure
数据
湖
文件夹中创建一个默认/空白的&qu
浏览 4
提问于2021-10-05
得票数 0
1
回答
为什么在事务结束前在RedShift中释放隐式表锁?
、
、
我有一个ETL过程,它在RedShift中
增量
地构建维度表。它按以下
顺序
执行操作: 并发事务彼此不可见;它们无法检测对方的
更改
浏览 5
提问于2013-12-31
得票数 4
回答已采纳
1
回答
如何从Foundry中现有的大型
增量
输入
数据
集构建大型
增量
输出
数据
集?
、
、
我在Palantir Foundry中有一个80 of的日期分区
数据
集,它每3小时在
增量
附加事务中摄取300-450 of的
数据
。我想要创建一个
增量
转换,使用它作为输入。但是,
数据
集太大,无法一次
读取
初始快照。附加到
数据
集的
数据
将足够小,足以在初始快照后处理每个
增量
构建。如何解析输入
数据
集中的待办事项并达到可以在
增量
模式下运行转换的地步?
浏览 13
提问于2022-07-29
得票数 2
2
回答
单独和同时从子进程捕获stdout/stderr会导致错误的总
顺序
(libc/unix)
、
、
、
、
有一个矢量用于STDOUT,一个用于STDERR,另一个用于"STDCOMBINED",即所有输出按程序打印的
顺序
排列。子进程通过两个管道连接到父进程。一管为STDOUT,另一为STDERR。在父进程中,我从管道的
读取
端
读取
,在子进程中,我将dup2()'ed STDOUT/STDERR从管道的写入端
读取
。我的问题是:我想捕获STDOUT、STDERR、和"STDCOMBINED“(按它们出现的
顺序
)。但是,组合向量中的
顺序
与原来的<em
浏览 0
提问于2020-11-28
得票数 1
6
回答
写入文件的中部(不覆盖
数据
)
、
、
在windows中,是否可以通过API将文件写到中间而不覆盖任何
数据
,而不必重写之后的所有内容? 如果可能的话,我相信它会很明显地将文件碎片化;在它成为一个严重的问题之前,我能做多少次呢?
浏览 14
提问于2010-03-07
得票数 10
回答已采纳
2
回答
为什么多个EOF进入结束程序?
、
试图理解我的代码的行为。我期望Ctrl引导程序打印数组并退出,但是它需要3次按压,并在第二次按下之后进入while循环。#include <stdlib.h> int connected(int p, int q); int c, p, q, i, size, *ptr; ptr = malloc(size * si
浏览 3
提问于2015-09-01
得票数 0
回答已采纳
2
回答
在C#中,“原子”是什么意思?
我在C# 6.0和.NET 4.6框架一书中读到了这一点:
浏览 6
提问于2016-08-02
得票数 7
回答已采纳
4
回答
存储数值范围的最有效方法是什么?
、
、
这个问题是关于存储一个范围需要多少位。或者换句话说,对于给定的位数,可以存储的最大范围是什么,以及如何存储?例如,45-74我怀疑任何压缩技术都会产生边际结果,所以最好问一问:“可以存储在一个字节中的最大范围是什么?”这应该比单独存储这两个数字所能达到的要大。 有什么标准的算法来做这种事吗?
浏览 0
提问于2019-04-11
得票数 30
回答已采纳
3
回答
Django + Postgres +大时间序列
、
、
、
、
我正在研究一个具有大量不可压缩时间序列
数据
的项目,并想知道Django + Postgres和原始SQL是否是正确的调用。 我有时间序列
数据
,是~2K对象/小时,每小时。这大约是我每年存储的200万行,我希望1)能够通过连接将
数据
分割出来进行分析,2)能够在由Django服务的web上完成基本的概述工作。我认为最好的方法是将Django用于对象本身,但使用原始SQL来处理相关的大型时间序列
数据
。我认为这是一种混合的方法;这可能是一个危险的标志,但是使用完整的ORM来进行一系列的
数据
样本会让人觉得
浏览 8
提问于2014-08-08
得票数 22
回答已采纳
3
回答
Unix管的确切创意是什么?
、
、
、
据我所知,管道是一个系统调用,它在两个进程之间共享一块内存,其中一个进程写入,另一个进程从中
读取
。 作为一个不熟悉操作系统内部或概念的人,我想知道故事中的“天才”到底是什么?
浏览 0
提问于2015-12-12
得票数 54
回答已采纳
1
回答
跟踪附加到PostgreSQL中的表
、
、
default nextval('entries_sequence_number_seq') time timestamp default now()此表用作仅附加
更改
的
流
现在,我们需要一个或多个可以跟踪
更改
的使用者,因为它们被附加到这个表中: 每个使用者需要定期循环,以大致按时间
顺序
获取下一批
更改
,换句话说,自上次用户投票以来,附加到条目的新行的
增量
。每个消费者获取所有的
数据
。没有必要有选择性的分配
浏览 2
提问于2016-10-06
得票数 2
3
回答
如何在DynamoDB中有条件地执行集合操作
、
我总是想要更新sum和count,但是只有当我的值大于/小于
数据
库中已有的值时,我才想要更新min和max。此外,我只希望当存储的hash与我发送的不同时,此操作能够成功,以防止重新处理相同的
数据
。附注:已经有人建议我对dynamodb执行多个请求,并将最大/最小值设置为UpdateConditions,但出于
数据
一致性的原因,我希望避免这种多请求方法。 JavaScript。
浏览 0
提问于2018-08-06
得票数 0
5
回答
有没有任何情况比字符串生成器更有效地使用Rope
数据
结构?
、
、
、
有比字符串生成器更有效的
数据
结构的场景吗?有些人认为,在典型情况下,在速度方面,绳子
数据
结构几乎从来没有比本机字符串或字符串生成器操作更好,所以我很好奇地看到一些实际的场景,那里的绳子确实更好。
浏览 4
提问于2009-12-07
得票数 26
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券