腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
使用
分区
在
SQL
中
创建
唯一
行
in
、
、
我想对数据应用一个
唯一
的'Cohort ID‘,我可以
使用
它来对数据进行分组。我认为Row_Number() Over (Partition)类型的结构可以工作,但由于某种原因显然不行。我的代码如下: 为了进一步指定我尝试执行的操作,如果下面所选字段
中
的所有项目对于两个不同的数据行都相等,我希望
使用
相同的Cohort ID来标记该数据。如果下一
行
与前两行相同,例如,除了不同的“Issuer”,我希望它获得不同的Cohort ID。
浏览 13
提问于2020-01-07
得票数 0
回答已采纳
1
回答
按日期列的子集对增量表进行
分区
、
、
、
我
在
Databricks
中
创建
了一个增量表,其中包含1天的代理日志(100
行
,数百万行)。我希望能够按小时对表进行
分区
,因此简单地按“_time”列对表进行
分区
是不够的。此外,我正在
使用
%
sql
运行时
在
我的笔记本
中
创建
表,但如果这是更好的选择,我愿意在scala
中
创建
它。 如何
创建
分区
逻辑,以便为每小时的日志
创建</em
浏览 10
提问于2019-11-26
得票数 1
1
回答
星火
分区
-
使用
按选项分配
、
、
我们有一个火花环境,应该处理50毫米
行
。这些行包含一个键列。键的
唯一
数量接近2000年。我想并行处理所有这2000把钥匙。因此,我们
使用
的Spark如下所示随后,我们有一个mapPartitions,它可以在所有
分区
上并行工作但问题是,默认情况下,它只
创建
200个
分区
。
使用
如下命令,我能够增加
分区
浏览 3
提问于2017-04-07
得票数 4
回答已采纳
1
回答
如何在C#
中
对数据库
中
的多个排序数据集进行排序?
、
、
我
在
SQL
SERVER中有一个
分区
表,ID上有一个聚集索引,该表是按period_key
分区
的。ID
在
分区
内是
唯一
的,但在
分区
间不是
唯一
的。我需要的是找到所有
唯一
的ID。select unique ID from tab 但这需要对数据库
中
的数据库进行排序,这需要退出大量的临时磁盘,因此需要大量的磁盘IO。由于系统已经是IO受限的,我正在考虑减少磁盘IO。因为我们可以
使用
集群索引
浏览 0
提问于2011-09-25
得票数 1
回答已采纳
1
回答
火花再分配行为
、
、
我正在尝试理解
SQL
上下文中的repartition()行为。我有一张178
行
的数据。第一,列是与数据相关的
唯一
id。
在
我的dataframe
中
,我知道对于每个
唯一
的Id我有2
行
。我希望能够控制我所得到的每个
分区
中
的记录数。
在
我的例子
中
,我希望有89个
分区
,其中包含2个记录。.withColumn('result_col', some_udf("dat
浏览 0
提问于2019-04-11
得票数 1
回答已采纳
1
回答
spark.
sql
.shuffle.partitions和df.repartition之间的差异(如果有)
、
、
Spark文档表明,set spark.
sql
.shuffle.partitions=n配置
在
调整数据时
使用
的
分区
数,而df.repartition似乎返回按指定键数
分区
的新DataFrame。sqlContext.
sql
("set spark.
sql
.shuffle.partitions=3"),然后执行了df.repartition($"ID"),我希望我的数据被重新划分成3个
分区
,其中一个
分区</e
浏览 0
提问于2018-06-20
得票数 0
回答已采纳
1
回答
SQL
大型多租户表/锁升级问题/
分区
/全文索引
、
、
、
我们的应用程序将其数据组织
在
“项目”
中
,这些项目保存在
SQL
数据库
中
。一个项目可以包含100或100‘0
行
(分布
在
35个表上)。因为我们有1000个项目,所以每个项目
使用
一个数据库或模式并不是一种选择(我们最终会得到10‘0 0个表)。现在,我们将每个实体保存在一个具有ProjectKey的表
中
,并
使用
行
级安全性。偶尔,一些用户会在一个批/事务(100‘000
行
)中导入大量数据。
在
浏览 0
提问于2017-11-20
得票数 0
回答已采纳
1
回答
动态
分区
值
SQL
Server Azure Synapse
、
、
、
、
如何设置动态
分区
的表?
在
Azure Synapse上可以做到这一点吗?20200101,20200102,20200103,20200104,20200105,20200106) AS ( FROM table_x因为当我尝试通过这个示例脚本
创建
分区
时
浏览 1
提问于2021-07-09
得票数 1
3
回答
使用
两列作为主键。我可以保留一列为空吗?
、
我有一个需求,需要根据两列
唯一
地标识一
行
。nType | dType | severity down | 6500 | CRITICALCREATE TABLE IF NOT EXISTS severitymapping(nType text, dType text, severity text, PRIMARY但数据库不允许数据库
中
的dType为空&
浏览 3
提问于2021-09-21
得票数 0
1
回答
Spark Partition数据集(按列值)
、
、
、
对于这些
行
,我们有
唯一
的ID (DB ),并且我们希望通过uniqueID % numShards对数据集进行分片,以
创建
大小相等的可寻址
分区
。由于PKs (
唯一
it )同时存在于数据和更新文件
中
,因此很容易确定将更新哪个
分区
。我们应该
使用
哪个Spark类/方法来对数据进行
分区
?我们看到的是RangePartitioner,但构造函数询问的是
分区
的数量。我们希望指定“
使用
column_K进
浏览 19
提问于2019-05-03
得票数 2
回答已采纳
2
回答
Server
分区
-
唯一
索引错误
、
、
、
我有一个由TRANSACTION_DATE_TIME
分区
的表。CREATE UNIQUE NONCLUSTERED INDEX [IX_ID_ON_PS_DATETIME] ON [CRD].[TRANSACTION] [ID] ASC但是
SQL
说“
唯一
索引的
分区
列必须是索引键的
浏览 6
提问于2012-01-03
得票数 10
回答已采纳
1
回答
如何将特定
分区
的global_stats更改为YES
我有
sql
表,它有
分区
。请在这方面指导我。
浏览 4
提问于2011-12-15
得票数 0
回答已采纳
1
回答
cosmosdb
中
是否建议有大量的逻辑
分区
如果我们
在
cosmosDb
sql
api
中
对容器进行
分区
,那么是否可以
在
每个文档中
使用
唯一
的
分区
键。我的意思是,容器
中
的每个文档都有自己的逻辑
分区
,每个逻辑
分区
只有一个文档,我们只需要查询
唯一
的键,所以只有一个
分区
/文档会命中。
浏览 8
提问于2020-06-24
得票数 0
1
回答
如何划分具有多个类别的大型Hive表
、
、
我想在hive
中
对表进行
分区
,以便为
行
中
的每个
唯一
项
创建
一个
分区
。大约有250个
分区
对应于大约40亿个
行
表,所以我想
使用
for循环或distinct之类的东西。以下是我
在
代码
中
的想法(显然没有起作用)myColumn (myColumn= distinct
分区
); 或者是Hive中有某种
浏览 3
提问于2013-07-18
得票数 1
1
回答
使用
绑定变量进行Oracle
分区
修剪
、
、
、
我有一个很大的(150m+
行
)表,它
使用
日期
分区
键划分为季度。但是,当我将此查询移动到PL/
SQL
并传递与变量相同的日期时,计划显示为"PARTITION RANGE (ITERATOR)"...op
浏览 0
提问于2010-07-20
得票数 4
回答已采纳
1
回答
在
Cosmos DB
中
创建
跨
分区
唯一
约束
、
我正在
使用
由帐户ID
分区
的Cosmos DB集合,我需要防止重复序列号的添加。但是,它们可能不在同一个
分区
中
。 是否有一种方法可以确保
分区
之间的
唯一
性,而不首先对每个
分区
执行昂贵的搜索?
浏览 2
提问于2018-04-02
得票数 2
回答已采纳
2
回答
如何查询数据
中
的跨年表结构
、
目前我的表结构是基于像(Table_2016,Table_2017,Table_2018)这样的年份格式,如果我需要从(2016到2018)获取数据,
唯一
的方法是联合所有的年表?
浏览 0
提问于2018-04-05
得票数 0
1
回答
为什么每一
行
都必须是
唯一
的?
、
、
我正在阅读spark.
sql
.execution.datasources.jdbc.JDBCRelation的源代码。为什么每一
行
都必须是
唯一
的?有什么例子吗?动机是什么?
浏览 28
提问于2018-06-26
得票数 -2
回答已采纳
1
回答
如何在表的SSMS
中
查看
创建
的
分区
,并在SSAS中
使用
它们来处理模型
、
、
我有一个巨大的表格,300M
行
。我已经
使用
分区
向导
在
SSMS(
sql
server)
中
基于日期
创建
了表上的
分区
,然后在此表的顶部构建了SSAS
中
的模型。我想
使用
这些
创建
的
分区
来处理SSAS
中
内置的Model。NOte:我尝试过
在
SSAS
中
创建
分区
,但这不是
浏览 3
提问于2021-03-05
得票数 1
1
回答
Synapse Analytics
sql
与火花池的按需同步查询速度非常慢
、
、
我已经将文件加载到azure存储帐户gen2
中
,并且正在
使用
Azure Synapse Analytics来查询它们。遵循这里的文档:,我应该能够
创建
一个spark
sql
表来查询
分区
数据,从而随后
在
我的
sql
on demand查询中
使用
来自spark
sql
的元数据来给定文档
中
的
行
:When a table is我的数据
在
ADLS gen2
中
分区</e
浏览 20
提问于2021-06-08
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券