PostgreSQL:仅使用子查询扫描相关分区_PostgreSQL 12.4查询规划器忽略子分区约束，导致表扫描_使用postgreSQL进行子查询计算 - 腾讯云开发者社区

postgresql、indexing、partitioning

我遇到过这样的情况:运行一个按分区表中的索引列过滤的查询时，会执行全表扫描。显然，这是postgresql中的一个已知问题，对此进行了详细的解释。除了在每个分区上执行查询，然后对所有结果执行UNION之外，还有更好的解决方法吗？

浏览 4提问于2009-06-17得票数 5

回答已采纳

2回答

PostgreSQL10是否并行查询分区？

parallel-processing、postgresql-10

我很好奇Postgresql的新特性是否允许利用服务器上的多个cpus。一般来说，应该有一些工作者来查询分区和合并结果，我希望它是并行完成的。我想，当使用外表时，这就变得很关键了。

浏览 4提问于2017-12-01得票数 1

2回答

在PostgreSQL中处理碎片的最佳实践是什么？示例：我有一个多租户数据库，其工作负载包括报告的实时聚合。 CREATE TABLE account ( id serial PRIMARY KEY, name text NOT NULL ); CREATE TABLE widget ( id bigserial PRIMARY KEY, account_id int NOT NULL REFERENCES account (id), length numeric NOT NULL, weight numeric NOT NULL,

浏览 0提问于2020-12-10得票数 1

2回答

Postgresql分区查询的好处

postgresql、partitioning

我试图将分区过程应用到Postgresql数据库中的一些大型表中，我已经阅读了有关这方面的文档和许多文章，但没有找到这个问题的答案。如果我使用范围分区(例如日期字段)，是否有必要使用该字段进行查询以获得分区过程的好处?或者，即使我使用分区字段条件中未包含的其他字段进行查询，也可以使用该字段吗？谢谢

浏览 0提问于2022-04-12得票数 0

1回答

哪个更快？在timeseries postgresql上进行零星选择的多个表或多行？

postgresql

我需要帮助作出一个高级别的决定如何继续进行postgresql应用程序。数据结构：这些数据是在过去10年中实时生成的时间序列数据，用历次/HH/MM/SS时间戳(约一亿行)以来的天数来描述。期望的行动： -- selects将从所有数据中调用一个特定的行，或者在特定的日期内，行(列表)位于两个时间戳之间。-Data是每天生成的，并且是已知的:更新的数据将被称为比旧的数据更多的数据。多个客户机/选择将同时运行(顺序为10000次查询/分钟)，假设硬件具备能力。每个查询都是唯一的。对于给定(固定)能力的硬件设置，哪个更快？O()时间是几点？给N行？有一个大表(自EIRCH3000(Day

浏览 1提问于2019-11-11得票数 0

1回答

我们应该如何处理那些一旦在PostgreSQL中老了就不会被查询的行？

postgresql、performance、query-performance

我们在PostgreSQL数据库中有一个表，它正在以每天数百万行的速度增长。每一行包括： ID Foreign user ID Date and time Other data 在ID中，日期和时间并不是严格单调的，但是它们是接近的。在查询此表时，我们只对获取给定的外部用户ID的行感兴趣，其中包含最后两周的日期和时间。超过两个星期的行将永远不会被查询，但是我们希望将它们保存在存档的目的。鉴于这一特殊用例：我们应该在日期和时间列上索引吗？有没有任何提示，我们可以给出日期和时间是(几乎)单调增长的ID。我们是否应该试着从表中删除两个星期以上的行，这样会提高性能吗？

浏览 0提问于2012-09-28得票数 7

回答已采纳

3回答

使用预定查询和目标表声明大查询变量

google-bigquery

我在Big query中使用计划查询，它将前一天的数据附加到Big Query表中。当我的查询运行时，前一天的数据并不总是可用的，因此，为了确保我拥有所有的数据，我需要计算我的Big query表中的最后一个可用日期。我的第一个尝试是编写以下查询： SELECT * FROM sourceTable WHERE date >= (SELECT Max(date) from destinationTable) 当我运行这个查询时，只有date >= max(date)被正确导出。但是，查询将处理整个sourceTable，而不仅仅是J-max(日期)。因此，成本比预期的要高。我还

浏览 0提问于2019-10-28得票数 3

1回答

火花在并行读取数据时不会将筛选器向下推到PostgreSQL数据源，从而为下限和上限提供值。

postgresql、apache-spark、jdbc、spark-jdbc

我正在尝试并行读取PostgreSQL表中的数据。我使用时间戳列作为分区列，并为下限、上限和numPartitions提供值。它正在创建多个查询来并行读取数据，但它并没有将筛选器向下推到PostgreSQL数据库。当我在数据帧上使用explain命令时，它在物理计划中的推送过滤器中没有任何内容。我也尝试过在load方法之后应用filter子句，但是它仍然没有向下推过滤器。选项1:这里我不使用筛选条件 val df = spark.read .format("jdbc") .option("url", jdbcurl)

浏览 6提问于2021-02-01得票数 1

2回答

PostgreSQL分区查询的数据优化

sql、postgresql、query-optimization、partitioning、database-partitioning

我们有一张每月大约有10亿条记录的桌子。考虑到18个月的历史，我们谈论的是180亿个记录。此表按日期每周进行分区(因此我们有大约74个分区)。对于我们的一个查询，我们需要获得一个给定单元的最后1000条记录。就像这样 SELECT code, obs_time FROM unit_position WHERE unit_id = 1 ORDER BY obs_time DESC LIMIT 1000; 问题是，我们在解释这方面的结果如下：极限(cost=96181.06..96181.09 rows=10 width=12) ->排序(cost=96181.0

浏览 7提问于2013-04-17得票数 3

回答已采纳

1回答

格林梅的分区消去

sql、postgresql、partition、greenplum

我有这样一个场景： SELECT * FROM PACKAGE WHERE PACKAGE_TYPE IN ('BOX','CARD') 表由PACKAGE_TYPE字段进行分区。假设PACKAGE_TYPE字段有20个可能的值。因此有20个分区，包括BOX、CARD和DEFAULT分区。当运行上述查询时，分区消除将正确进行，并且只扫描BOX和CARD分区。结果很快。但是，当这样编写相同的查询时： SELECT * FROM PACKAGE WHERE PACKAGE_TYPE IN (SELECT PACKAGE_TYPE FROM PACKAGE_LIST

浏览 0提问于2015-04-22得票数 1

回答已采纳

2回答

分区雅典娜表中的子查询

sql、hive、presto、amazon-athena、trino

我在雅典娜使用分区。我有一个名为快照的分区，当我这样调用查询时： select * from mytable where snapshot = '2020-06-25' 然后，就像预期的那样，只扫描指定的分区，并且我的查询很快。但是，如果我使用返回单个日期的子查询，则它是slooow： select * from mytable where snapshot = (select '2020-06-25') 上面实际扫描的是所有分区，而不仅仅是指定的日期，因此性能非常低。我的问题是，我是否可以使用子查询来指定分区并提高性能。我需要使用一个密语来添加一些自定义逻辑

浏览 1提问于2020-06-25得票数 2

回答已采纳

1回答

如何在Postgres中搜索分区表？

sql、database、postgresql、postgresql-12

CREATE TABLE IF NOT EXISTS tasks ( id bigint not null, created_date timestamp not null, status_code integer, target_identity varchar(255), updated_date timestamp, UNIQUE (created_date, target_identity) ) PARTITION BY RANGE (created_date); CREATE TABLE IF NOT EXISTS tasks2020

浏览 31提问于2020-04-05得票数 2

回答已采纳

1回答

HIVE查询如何有效地找到以avro格式存储的数据？

sql、hadoop、hive、avro

我们有大量相对较小的传入文件用于分析，所有这些文件在可用列上都有细微的变化。我们正在将它们转换为avro格式，并跨所有数据文件维护一个主联合模式文件。然后，我们创建一个HIVE表，并将其公开以供查询。我不禁觉得这张照片有些地方不对劲。查询如何能够识别要访问哪些单个文件或哪些文件来获取任何小数据子集？它不是要求每个查询都读取每个文件并搜索查询的数据吗？这似乎非常低效。一种选择是开始合并这些文件，但即使文件大小与Hadoop块大小完全相同，我们也会有大量文件。现在，我有了关于每个文件内容的完整信息。它们是通过日期标记的，所以如果我手动查找数据，我将确切地知道要访问哪些文件。如何将这些知识构建到

浏览 0提问于2016-04-09得票数 0

1回答

当SQL查询包含子查询时，分区在Google BigQuery中不能正常工作。

sql、google-bigquery、partitioning

大查询中有下面的表结构 **query_all_partition** property_unique_date DATE REQUIRED page_url STRING REQUIRED click INTEGER REQUIRED impression INTEGER REQUIRED position FLOAT REQUIRED 在这里，我已经指定了property_unique_date上的分区 **property_data** fetch_date DATE REQUIRED prop

浏览 0提问于2018-09-03得票数 1

1回答

未优化时间函数范围查询的分区表

postgresql、partitioning

我有一张表，用于PostgreSQL13上的许多东西的状态。由于我要监视的对象的数量，我决定将我的表划分为几年。根据pgconf-eu-2019来自Postgres 12的会议：通过重写各种代码片段，只处理查询所需的分区，性能得到了显著提高。因此，在以前的情况下，单记录查询将以与分区数量成正比的时间运行，现在不再是这样了。然而，当我分析我的查询时，我发现通过PostgreSQL扫描每个子分区表会显著降低表的性能： 📷 有人能解释一下为什么会这样吗？一个应该只需几秒钟的查询就是将我的应用程序超时。我是不是弄错了什么东西？请参见： 📷 作为罪魁祸首查询的一个例子。 EXPLAIN (ANAL

浏览 0提问于2021-06-04得票数 0

1回答

PostgreSQL中的渐进子表扫描？

postgresql、performance、postgresql-9.6、inheritance、postgresql-performance

我们有仅附加的events表，其中收集来自不同设备的事件。我们使用PostgreSQL 9.6和pg_帕特曼将表拆分为每月分区。数据使用event_time列进行分区。每个月的桌子大约有1亿行。有一个来自应用程序端的查询，用于显示设备上的最新事件。它看起来像这样(简化)： SELECT event_time, event_data FROM events WHERE device_id = 'zzz' ORDER BY event_time DESC LIMIT 10 索引涵盖了每个搜索条件，因此PostgreSQL只进行索引扫描。问题是，它扫描所有子表，然后才

浏览 0提问于2019-05-08得票数 0

回答已采纳

1回答

PostgreSQL 11:如何划分1000个租户

postgresql、partitioning

设置我们有一个多租户应用程序，大约有1000个客户。当客户流失时，我们会在一段时间后删除他们的所有数据。我们有几个表非常大，我们正在考虑使用分区来分割每个客户。问题 1000个租户(客户)是很多分区-在PostgreSQL上这样做合理吗？ More详细信息目前，我们的租户之间的分隔是通过DB中所有表上的account_id列进行的。有几张桌子很大。例如，有一个event表(我对分区感兴趣)，它包含应用程序中发生的所有事情的审计日志和其他事件。下面是有关事件表的一些事实：它包含约300米行+一些组合/部分索引。 account_id对事件的统计非常不均衡，5%的帐户拥有50%的数据。

浏览 0提问于2019-04-18得票数 3

回答已采纳

1回答

PostgreSQL能管理15亿行的表吗？

postgresql、performance、postgresql-12、query-performance

该表有三列： id string (最多400个字符) length，它记录string的长度问题是，当我做一个查询时。 select * from table where length = <whatever number>; PostgreSQL从不返回，它一直在计算。我想知道这是否是由于庞大的数据集造成的？我应该把桌子分成几个吗？环境: 12 on内存，PostgreSQL 12在Win10上。

浏览 0提问于2019-11-22得票数 0

回答已采纳

2回答

在bigquery中对_PARTITIONTIME使用子查询不限制成本

google-bigquery、subquery

当我使用标准SQL在BQ上运行下面的查询时，它表示在运行时它将处理76.6TB SELECT event_time, user_id, activity_id,dbm_insertion_order_id, dbm_total_media_cost_usd FROM `raw.5295.activity_*` WHERE _PARTITIONTIME >(SELECT * FROM `analytics-dwh.autobidding.activity_list` ) AND timestamp_micros(event_time) > (SELECT timestamp_m

浏览 0提问于2019-01-10得票数 2

回答已采纳

2回答

Postgresql:按分区键排序的查询

postgresql、sql-order-by、limit、database-partitioning

我在PostgreSQL中创建了一个按received列分区的表(参见)。让我们以一个玩具为例： CREATE TABLE measurement ( received timestamp without timezone PRIMARY KEY, city_id int not null, peaktemp int, unitsales int ); 几年来，我已经为每个月创建了一个分区(measurement_y2012m01 . measurement_y2016m03)。我注意到postgresq

浏览 5提问于2016-03-14得票数 1

回答已采纳

1回答

Oracle 12c -应将哪个索引用于具有分区和子分区的表

sql、oracle、indexing、partition

我在Oracle12c中有一个包含5亿条记录的表。表按1个varchar列进行分区，并按其他varchar列进行子分区。在Where子句中使用这两列的查询应该使用哪些索引？我假设本地分区索引是最好的选择，但我想更深入地了解什么时候是这种情况，以及如何创建它们的最佳方式？

浏览 2提问于2017-11-14得票数 0

2回答

已分区表上的触发器和性能

sql-server、performance、sql-server-2016、trigger、partitioning

我不确定我发现的是不是一个bug，但看起来确实是这样。我找不到很多关于它的信息，所以我决定把它放在这里。因此，简单地说，在访问在分区表上定义的触发器中的内部表(inserted和deleted)时，我面临着糟糕的性能。为了测试这个问题，我创建了一些简单的表，完全相同，但是一个是分区的，另一个不是： create table [dbo].[Test1]( [part_id] [int] not null, [id] [int] not null, [cost] [float] null, constraint [pk__Test1] primary key c

浏览 0提问于2022-07-05得票数 7

回答已采纳

1回答

如果我的索引是部分的，那么性能/索引大小会有明显的不同吗？

postgresql、indexing、partial-index

假设我有一个包含2000万行的表，我想这样索引如下： CREATE INDEX fruit_color ON fruits USING btree (color); 现在让我们说，只有2%的水果有颜色，休息将是NULL。我的查询将不会希望找到带有颜色NULL (无颜色)的水果，所以问题是，如果我将索引更改为： CREATE INDEX fruit_color ON fruits USING btree (color) WHERE color IS NOT NULL; 我不太了解postgresql处理索引的内部方式，所以我就问这个问题。 PS postgresql

浏览 0提问于2016-11-30得票数 0

回答已采纳

1回答

实现数据库分片，PostgreSQL的外来数据包装器，哪种方法更有效？或者多个不相关的Postgres实例？

postgresql、performance

在PostgreSQL11中实现数据库分片的一种方法是对表进行分区，然后使用外部数据包装器对其进行设置，以便分片在它们自己的容器上运行。使用这种方法得到的结果是，您只需要处理一个数据库。在PostgreSQL11中实现数据库分片的另一种方法基本上是运行postgres的多个实例，并使用代码处理所有的分片逻辑。例如，在数据表中有一个标题为sharding_id的额外字段，我们可以使用它来确定我们需要查询哪个实例来检索数据。如果分片id为1，则查询实例1。就性能而言，这些方法中哪一种更好？

浏览 0提问于2020-10-13得票数 0

2回答

基于时间序列的地理空间数据索引

database、postgresql、data-structures、database-indexes

我有以下用例:5个billion+地理空间数据点，需要根据三个谓词范围(纬度、经度和日期)进行查询。边框地理空间查询通常返回500K-100万行，其中只有0.4%的行是有效的，只要按日期范围过滤即可。理想的结构是三维索引:and树/八叉树等，但PostGreSQL(和大多数其他数据库)的地理空间索引是2D结构。有人有在3D索引中表示这种类型查询的经验吗?也许是点云，使用时间顺序值作为'Z‘组件？(注意:即使当前的环境是PostgreSQL，基于其他引擎的建议也是非常受欢迎的) 编辑:我正在考虑的另一个可能性是将日期分辨率降低到一个离散的值，而不是一个范围。然后(理论上)我可以使用DB

浏览 12提问于2022-04-14得票数 1

2回答

PostgreSQL分区范围-奇怪的行为

postgresql、partitioning

我正在使用整数范围对一个表(t1)进行分区，使用的检查如下： CONSTRAINT t1_201611_check CHECK (date_id >= 20161101 AND date_id <= 20161130) CONSTRAINT t1_201612_check CHECK (date_id >= 20161201 AND date_id <= 20161231) 所以.. 当我执行以下查询时，它工作正常，并在正确的分区表中进行搜索： select * from t1 where date_id >= 20161201 and date_id <=

浏览 1提问于2017-01-17得票数 2

1回答

Azure SQL Server与表存储性能的比较

azure-sql-database、azure-table-storage

我读过很多关于Azure表存储性能的文章。我的拿走是，如果只使用部分键Azure表存储是闪电般的速度。为了测试它，我创建了两个场景。一个包含1300万行的基本价格层上的SQL服务器。所有列都被编入索引。有120000行的表存储器。具有相同实体的： public class Item { [Key] public int Id { get; set; } public string Path { get; set; } public bool Deleted { get; set; } public int JobId { get; set; }

浏览 1提问于2019-10-01得票数 2

回答已采纳

1回答

Postgres -内置的自动和动态分区

postgresql

我已经(因为我使用postgresql 9.6)按范围继承分区表日期为2019-11-01的分区如下所示： client_id,product_id,date,orders 1,1,2019-11-01, 100 1,2,2019-11-01, 200 2,3,2019-11-01,150 2,4,2019-11-01,160 据我所知，从postgresql 10开始，分区表可以以不同的方式进行处理和定义，并且是内置的因为我当前继承的分区只在日期上不同，所以对于每个客户端，我有一个查询将从保存所有客户端数据的X分区中提取数据。我想知道我是否可以创建一个新的主表，它将具有基于范围(日期

浏览 1提问于2019-11-25得票数 1

1回答

Bigquery将子查询应用于分区时间

sql、google-bigquery

我有两个分别正确的查询，但是一起出现了一个错误： WITH minimum_time AS ( SELECT DATE (min(_PARTITIONTIME)) AS minimums FROM `Day` WHERE DATE (_PARTITIONTIME) = "2020-11-20" ) SELECT * FROM `Day` WHERE DATE (_PARTITIONTIME) > (SELECT minimums FROM minimum_time) 我得到了一个错误：

浏览 2提问于2020-11-27得票数 1

回答已采纳

1回答

DolphinDB查询中的链式比较

performance、dolphindb

我注意到DolphinDB查询中的链式比较比预期的要慢得多。例如，对于超过20亿行的分布式表"quotes“，查询 timer select avg(bid) as bid, avg(ofr) as ofr from quotes where 2020.12.07<=date<=2020.12.11 group by date, minute(time) as minute 远远慢于 timer select avg(bid) as bid, avg(ofr) as ofr from quotes where date>=2020.12.07, date<=

浏览 9提问于2021-01-16得票数 0

2回答

是否值得为day_of_week列建立索引？

database、performance、postgresql、indexing

我有一个users表，它有一个day_of_week列，它是一个整数(0...6)。每天我都要运行一个脚本，遍历当天的用户。那么，为了更快的性能，我应该用索引标记这一列吗？查询总是返回总数的1/7，如果我添加一个索引，恐怕会出现相反的效果。想象一下users表中有10k-100k行。顺便说一句，如果重要的话，我正在使用PostgreSQL。

浏览 0提问于2013-03-06得票数 4

回答已采纳

1回答

BigQuery中的分区是如何工作的？

google-bigquery、partitioning

大家好:我正在尝试了解分区表是如何工作的。我有一个12.9MB的销售表。我有一个按天分区的日期列。我的假设是，当我使用这个date列过滤数据表时，BigQuery处理的数据量将会得到优化。然而，它似乎不是这样工作的，我想了解其中的原因。在下面的查询中，我使用子查询过滤sales.date。当我尝试这样执行查询时，它正在处理整个12.9MB的表。但是，如果我将下面的子查询替换为实际日期(与子查询得到的结果相同)，则处理的数据量为4.9MB。仅子查询就处理630KB的数据。如果我的理解是正确的，那么下面的查询过程不应该是4.9MB+630KB=~5.6MB吗？但是，它仍然处理12.9MB的内存

浏览 0提问于2020-10-12得票数 1

1回答

如果特定分区键不存在行，则Cassandra查询将执行完整的表扫描。

cassandra、cassandra-3.0

我有一张很大的桌子 CREATE TABLE IF NOT EXISTS profile ( account_id text, user_id uuid, user_data text, creation_date timestamp, update_date timestamp,, PRIMARY KEY ((account_id, user_id)) ) WITH bloom_filter_fp_chance = 0.01 AND caching = {'keys': 'ALL', 'rows_

浏览 4提问于2021-12-21得票数 1

1回答

分区表的查询性能慢吗？

sql、sql-server、sql-server-2008、tsql、sql-server-2012

我在阅读有关分区表的文章时，搞不清这是好事还是坏事。我确实理解分区是为大量数据集而设计的。但这是我的困惑:让我们假设有一个表： Orders(Orderid,Custid,Orderdate,Shipperid) 而且它有大量的数据；足以证明分区是合理的。在这个表的每一列上都执行了select查询；许多查询都与其他表连接。如果我基于OrderId对表进行分区，基于其他列的其他查询会变慢吗？涉及OrderId列以外的列的join查询会变慢吗？感谢您的指导！！谢谢

浏览 0提问于2014-05-28得票数 2

1回答

Spark如何读取Parquet分区文件

apache-spark、apache-spark-sql、partitioning、parquet

我有一个大约1GB的拼花文件。每个数据记录是从IOT设备中读取的，IOT设备在最后一分钟内捕获设备消耗的能量。模式: houseId，deviceId，能量--在houseId和deviceId上分割拼花文件。一个文件只包含过去24小时的数据。我想使用Spark对驻留在这个拼花文件中的数据执行一些查询，一个示例查询可以找出在过去24小时内每个设备在给定的房子中平均消耗的能量。 Dataset<Row> df4 = ss.read().parquet("/readings.parquet"); df4.as(encoder).registerTempTable(&#

浏览 0提问于2018-04-24得票数 4

回答已采纳

1回答

postgres中表继承所需的索引？

postgresql、inheritance、indexing、unique

这是一个相当简单的问题，但我找不到确切的答案。我在PostgreSQL中有一个父表，然后定义了几个子表。触发器已经建立，子表只有在字段(例如字段x )满足特定条件时才插入数据。当我使用基于x的字段查询父表时，PostgreSQL知道立即转到与x的特定值相关的子表。总之，我不需要在列x上指定特定的索引，对吗？PostgreSQL已经知道如何在其上排序，因此，通过向父x添加索引，PostgreSQL将在x上为每个新的子表生成唯一的索引。创建这个索引有点多余，对吗？

浏览 3提问于2010-07-29得票数 2

回答已采纳

1回答

在redshift中查询外部表时获取0行

amazon-athena、amazon-redshift-spectrum

我们创建的模式如下所示： create external schema spectrum from data catalog database 'test' iam_role 'arn:aws:iam::20XXXXXXXXXXX:role/athenaaccess' create external database if not exists; 表如下： create external table spectrum.Customer( Subr_Id integer, SUB_CURRENTSTATUS varchar(100), AIN integer

浏览 3提问于2017-10-31得票数 1

1回答

为postgres查询设计索引

database、performance、postgresql、indexing、profiling

我们有一个查询，它从主细节简单模式中检索一些数据。WHERE子句如下： -- These are just random numbers Where ticket.type_id in ( 2, 3, 4, 5, 7 ) and ( ticket.color_id is null or ticket.color_id in ( 1, 2 , 8 ) ) 我们已经在列中有索引: ticket.type_id和ticket.color_id，无论如何，查询解释分析仍然显示Postgresql正在进行顺序扫描以满足查询。这个查询在系统中非

浏览 2提问于2012-06-05得票数 1

回答已采纳

1回答

PostgreSQL索引仅扫描不能返回ctid

postgresql、index、performance、postgresql-11、physical-design、postgresql-performance

我在PostgreSQL 11有一张桌子： CREATE TABLE A (id bigint PRIMARY KEY, text text) 现在，我想获取符合某些条件(如ctid )的行的id = 123。然而，即使使用pg_hint_plan提示PostgreSQL只使用索引扫描，它也总是会给我索引扫描： /*+ IndexOnlyScan(a) */ explain analyze select ctid from a where id = 823977776533426178; QUER

浏览 0提问于2019-04-14得票数 4

回答已采纳

1回答

如何“限制”在SQL中获取的数据量

mysql、sql

我在查询多个连接在一起的表 SELECT a.column, b.column, c.column FROM t1 AS a, t2 AS b, t3 AS c WHERE a.column = b.column AND a.column = b.column AND a.column = b.column 是否有任何方法限制扫描的数据量，使其不查询整个数据集？注不存在按日期/时间或其他条件进行筛选的可能性。我知道，如果你把极限100，它仍然可以查询整个结果集。有没有一种方法可以简单地查询100行随机集并返回它们(减少查询时间和工作负载)？

浏览 4提问于2020-12-01得票数 0

回答已采纳

1回答

在USql中按& Clustered & Distributed分区-需要知道它们的含义以及何时使用它们

u-sql

我可以看到，在USQL中创建表时，我们可以使用Partition By & Clustered & Distributed By子句。根据我的理解，分区将存储相同键(我们在其上有分区)的数据在一起或更接近(可能在后台的相同结构化流中)，因此当我们在连接、过滤中使用该键时，我们的查询将会更快。集群是-我猜它将这些列的数据存储在一起或更接近于每个分区。而分发是某种方法，如Hash或循环-在每个分区中存储数据的方式。如果您有整型列，且经常在某个范围内查询，请使用range，否则使用散列。如果您的数据不是均匀分布的，那么您可能会面临数据倾斜问题，因此在这种情况下使用循环调度。问

浏览 0提问于2017-11-23得票数 2

2回答

如果所有分区都被同等使用，分区会提高性能吗？

postgresql、partitioning

考虑以下情况： I有一个大的PostgreSQL表，其主键为UUID。UUID是随机生成的，并且均匀地分布在UUID空间上。I将UUID列上的表划分为256个范围(例如基于UUID的前8位)。所有分区都存储在同一个物理磁盘上。基本上，这意味着所有256个分区都将被同等使用(与基于时间的解析不同，在这种情况下，最近的解析通常比其他分区更热)。通过这样的分区，我会看到性能有任何改善吗？基于UUID的查询返回一个单行(WHERE uuid_key = :id)?For (必须搜索所有分区？)的查询。

浏览 6提问于2022-07-05得票数 0

回答已采纳

2回答

如何在Kafka主题中找到消息的偏移量

apache-kafka、kafka-consumer-api

如何在Kafka主题中找到消息的偏移量？偏移量是包含多条消息还是包含一条消息？

浏览 13提问于2019-02-05得票数 0

回答已采纳

1回答

清除最旧的最大行数

postgresql

我有一个postgresql表，我在其中存储"session“记录。这些会话有时创建得非常快(有时高达每秒几百个)。我显然不能让表无限期地增长。因此，我有一个守护进程，它定期清扫表，对大小施加外部可配置的限制。当记录数量超过限制时，我想取出最旧的记录(使用限制值)，以文本形式将它们写入单独的(非关系)日志文件，然后从表中删除它们。我目前所做的工作是有效的，但是对于高限制，它是非常慢的。我现在的查询是这样的： SELECT * FROM sessions ORDER BY modified DESC OFFSET 1000000 LIMIT 10000; 然后，我的程序将这些最近最少修

浏览 1提问于2017-08-17得票数 1

1回答

Mariadb扫描时间戳列中的所有分区

sql、hash、mariadb、partitioning

我有一个按以下方式分区的表： HASH(timestamp DIV 43200 ) 当我执行此查询时 SELECT max(id) FROM messages WHERE timestamp BETWEEN 1581708508 AND 1581708807 它扫描所有分区，而它们之间的两个编号1581708508 & 1581708807& numbers在同一个分区中，我如何才能使其仅扫描该分区？

浏览 2提问于2020-02-15得票数 0

1回答

如何处理很少使用的大型数据库和postgresql？

postgresql、performance、azure-vm、postgresql-performance

我加载了整个欧洲(400 in )的PostgreSQL (9.3) OpenStreetMap数据。然后，我安装了一个地理编码api (nominatim)，它使用gis查询查询数据库。我的问题是：该数据库每天被查询几次，但由于postgres按需将数据加载到其缓冲区中，我对特定gps点的第一次查询总是很慢，而且每个GPS点只执行一次查询，所以它总是很慢(数据缓冲时是60秒，而不是100 my )。。我在这里能做什么？我使用的是一个A6 Azure实例(4核，28 GB内存，硬盘)。服务器为Ubuntu14.04.4 LTS 已启用交换。查询的几何列上有索引。共享缓冲区为10

浏览 0提问于2016-10-04得票数 3

2回答

为什么count(*)在该子查询(postgresql)中返回多个结果？

sql、postgresql、postgresql-9.1

我想将count(*)查询的结果分组到值存储桶中。我在dellstore2 postgresql示例数据库上对此进行了测试。下面的查询返回正确的答案，但对表中的每一行都返回一次(几千个相同的结果)。我可以通过在查询的末尾添加LIMIT 1来解决这个问题，但我想理解为什么我要获得重复项，以防它指出我的方法存在更广泛的问题。查询为： SELECT (SELECT count(*) FROM orders WHERE totalamount > 0 AND totalamount <= 100) AS

浏览 18提问于2012-03-20得票数 1

回答已采纳

1回答

Azure表查询“或”谓词会导致扫描吗？

azure-table-storage、azure-tablequery

假设以下查询： PartitionKey==1和(RowKey==A或RowKey==B) 甚至这个： (PartitionKey==1和RowKey==A) OR (PartitionKey==2和RowKey==B) 这些结果中的任何一种都会导致扫描吗？我之所以这样问，是因为PDC的这次谈话表明它是这样做的：特别是在27:30，演讲者和幻灯片声明：关键字=>上的"OR“谓词在扫描中没有查询优化=>结果 29:30再次重申这一点，建议使用并行查询。在网上搜索之后，我还发现了以下内容：查询中的"OR“目前还没有优化，但正如我前面提到的，我们已经

浏览 2提问于2017-05-14得票数 0

回答已采纳

2回答

按行键作为条件查询Azure表

azure-storage、azure-table-storage

使用查询来按行键获取记录有多好？让查询只检查行键是否有意义？我知道你可以组合primarykey + rowkey来获取特定的记录，或者通过特定的分区键获取所有的记录(这样所有相关的数据都会被快速返回)。我猜想，如果你进行一个查找rowkey的查询，那么当你查询一个包含大量条目的表时，性能将会下降，因为它必须遍历所有条目。你们能说出一个根据rowkey (单独) make's sens查询的案例吗？我不是指进入检索到的结果中，而是在发送到azure存储的查询中返回项目。

浏览 1提问于2013-11-01得票数 5

回答已采纳

1回答

在postgresql数据库中选择要从170个分区读取的查询时间

database、postgresql

我计划有一个每小时分区来存储1周数据。每个分区将有2500万条记录(100万组每个生成25条记录)。我能够在30毫秒内对一个组运行一个大约3到4个分区的SELECT查询。，我的问题是：--用数据创建这么多分区需要很长时间。所以，我正在寻找专家的知识来预测，查询170个分区需要多长时间？并行处理会有好处吗？的另一个问题是：，它预计将有大约42亿条记录在表格中。到目前为止，我尝试了1.5亿张唱片。进展得很好。POSTGRESQL数据库能保存近420万条记录吗？

浏览 6提问于2017-12-01得票数 0