使用分区在SQL中创建唯一行in

文章/答案/技术大牛

发布

2回答

、、

我想对数据应用一个唯一的'Cohort ID‘，我可以使用它来对数据进行分组。我认为Row_Number() Over (Partition)类型的结构可以工作，但由于某种原因显然不行。我的代码如下：为了进一步指定我尝试执行的操作，如果下面所选字段中的所有项目对于两个不同的数据行都相等，我希望使用相同的Cohort ID来标记该数据。如果下一行与前两行相同，例如，除了不同的“Issuer”，我希望它获得不同的Cohort ID。

浏览 13提问于2020-01-07得票数 0

回答已采纳

1回答

按日期列的子集对增量表进行分区

、、、

我在Databricks中创建了一个增量表，其中包含1天的代理日志(100行，数百万行)。我希望能够按小时对表进行分区，因此简单地按“_time”列对表进行分区是不够的。此外，我正在使用%sql运行时在我的笔记本中创建表，但如果这是更好的选择，我愿意在scala中创建它。如何创建分区逻辑，以便为每小时的日志创建</em

浏览 10提问于2019-11-26得票数 1

1回答

星火分区-使用按选项分配

、、

我们有一个火花环境，应该处理50毫米行。这些行包含一个键列。键的唯一数量接近2000年。我想并行处理所有这2000把钥匙。因此，我们使用的Spark如下所示随后，我们有一个mapPartitions，它可以在所有分区上并行工作但问题是，默认情况下，它只创建200个分区。使用如下命令，我能够增加分区

浏览 3提问于2017-04-07得票数 4

回答已采纳

1回答

如何在C#中对数据库中的多个排序数据集进行排序？

、、

我在SQL SERVER中有一个分区表，ID上有一个聚集索引，该表是按period_key分区的。ID在分区内是唯一的，但在分区间不是唯一的。我需要的是找到所有唯一的ID。select unique ID from tab 但这需要对数据库中的数据库进行排序，这需要退出大量的临时磁盘，因此需要大量的磁盘IO。由于系统已经是IO受限的，我正在考虑减少磁盘IO。因为我们可以使用集群索引

浏览 0提问于2011-09-25得票数 1

回答已采纳

1回答

火花再分配行为

、、

我正在尝试理解SQL上下文中的repartition()行为。我有一张178行的数据。第一，列是与数据相关的唯一id。在我的dataframe中，我知道对于每个唯一的Id我有2行。我希望能够控制我所得到的每个分区中的记录数。在我的例子中，我希望有89个分区，其中包含2个记录。.withColumn('result_col', some_udf("dat

浏览 0提问于2019-04-11得票数 1

回答已采纳

1回答

spark.sql.shuffle.partitions和df.repartition之间的差异(如果有)

、、

Spark文档表明，set spark.sql.shuffle.partitions=n配置在调整数据时使用的分区数，而df.repartition似乎返回按指定键数分区的新DataFrame。sqlContext.sql("set spark.sql.shuffle.partitions=3")，然后执行了df.repartition($"ID")，我希望我的数据被重新划分成3个分区，其中一个分区</e

浏览 0提问于2018-06-20得票数 0

回答已采纳

1回答

SQL大型多租户表/锁升级问题/分区/全文索引

、、、

我们的应用程序将其数据组织在“项目”中，这些项目保存在SQL数据库中。一个项目可以包含100或100‘0行(分布在35个表上)。因为我们有1000个项目，所以每个项目使用一个数据库或模式并不是一种选择(我们最终会得到10‘0 0个表)。现在，我们将每个实体保存在一个具有ProjectKey的表中，并使用行级安全性。偶尔，一些用户会在一个批/事务(100‘000行)中导入大量数据。在

浏览 0提问于2017-11-20得票数 0

回答已采纳

1回答

动态分区值SQL* Server Azure Synapse*

、、、、

如何设置动态分区的表？在Azure Synapse上可以做到这一点吗？20200101,20200102,20200103,20200104,20200105,20200106) AS ( FROM table_x因为当我尝试通过这个示例脚本创建分区时

浏览 1提问于2021-07-09得票数 1

3回答

使用两列作为主键。我可以保留一列为空吗？

、

我有一个需求，需要根据两列唯一地标识一行。nType | dType | severity down | 6500 | CRITICALCREATE TABLE IF NOT EXISTS severitymapping(nType text, dType text, severity text, PRIMARY但数据库不允许数据库中的dType为空&

浏览 3提问于2021-09-21得票数 0

1回答

Spark Partition数据集(按列值)

、、、

对于这些行，我们有唯一的ID (DB )，并且我们希望通过uniqueID % numShards对数据集进行分片，以创建大小相等的可寻址分区。由于PKs (唯一it )同时存在于数据和更新文件中，因此很容易确定将更新哪个分区。我们应该使用哪个Spark类/方法来对数据进行分区？我们看到的是RangePartitioner，但构造函数询问的是分区的数量。我们希望指定“使用column_K进

浏览 19提问于2019-05-03得票数 2

回答已采纳

2回答

Server分区-唯一索引错误

、、、

我有一个由TRANSACTION_DATE_TIME分区的表。CREATE UNIQUE NONCLUSTERED INDEX [IX_ID_ON_PS_DATETIME] ON [CRD].[TRANSACTION] [ID] ASC但是SQL说“唯一索引的分区列必须是索引键的

浏览 6提问于2012-01-03得票数 10

回答已采纳

1回答

如何将特定分区的global_stats更改为YES

我有sql表，它有分区。请在这方面指导我。

浏览 4提问于2011-12-15得票数 0

回答已采纳

1回答

cosmosdb中是否建议有大量的逻辑分区

如果我们在cosmosDb sql api中对容器进行分区，那么是否可以在每个文档中使用唯一的分区键。我的意思是，容器中的每个文档都有自己的逻辑分区，每个逻辑分区只有一个文档，我们只需要查询唯一的键，所以只有一个分区/文档会命中。

浏览 8提问于2020-06-24得票数 0

1回答

如何划分具有多个类别的大型Hive表

、、

我想在hive中对表进行分区，以便为行中的每个唯一项创建一个分区。大约有250个分区对应于大约40亿个行表，所以我想使用for循环或distinct之类的东西。以下是我在代码中的想法(显然没有起作用)myColumn (myColumn= distinct分区)；或者是Hive中有某种

浏览 3提问于2013-07-18得票数 1

1回答

使用绑定变量进行Oracle分区修剪

、、、

我有一个很大的(150m+行)表，它使用日期分区键划分为季度。但是，当我将此查询移动到PL/SQL并传递与变量相同的日期时，计划显示为"PARTITION RANGE (ITERATOR)"...op

浏览 0提问于2010-07-20得票数 4

回答已采纳

1回答

在Cosmos DB中创建跨分区唯一约束

、

我正在使用由帐户ID分区的Cosmos DB集合，我需要防止重复序列号的添加。但是，它们可能不在同一个分区中。是否有一种方法可以确保分区之间的唯一性，而不首先对每个分区执行昂贵的搜索？

浏览 2提问于2018-04-02得票数 2

回答已采纳

2回答

如何查询数据中的跨年表结构

、

目前我的表结构是基于像(Table_2016，Table_2017，Table_2018)这样的年份格式，如果我需要从(2016到2018)获取数据，唯一的方法是联合所有的年表？

浏览 0提问于2018-04-05得票数 0

1回答

为什么每一行都必须是唯一的？

、、

我正在阅读spark.sql.execution.datasources.jdbc.JDBCRelation的源代码。为什么每一行都必须是唯一的？有什么例子吗？动机是什么？

浏览 28提问于2018-06-26得票数 -2

回答已采纳

1回答

如何在表的SSMS中查看创建的分区，并在SSAS中使用它们来处理模型

、、

我有一个巨大的表格，300M行。我已经使用分区向导在SSMS(sql server)中基于日期创建了表上的分区，然后在此表的顶部构建了SSAS中的模型。我想使用这些创建的分区来处理SSAS中内置的Model。NOte:我尝试过在SSAS中创建分区，但这不是

浏览 3提问于2021-03-05得票数 1

1回答

Synapse Analytics sql与火花池的按需同步查询速度非常慢

、、

我已经将文件加载到azure存储帐户gen2中，并且正在使用Azure Synapse Analytics来查询它们。遵循这里的文档：，我应该能够创建一个spark sql表来查询分区数据，从而随后在我的sql on demand查询中使用来自spark sql的元数据来给定文档中的行：When a table is我的数据在ADLS gen2中分区</e

浏览 20提问于2021-06-08得票数 1

点击加载更多