在PostgreSQL 12中，如果查询包含在子表中，通过继承创建分区是否会提高查询性能？ - 腾讯云开发者社区

postgresql、postgresql-12

使用PostgreSQL 12，我想利用分区的优势1:有助于查询性能，2:允许更容易地删除历史数据，以保持缓解数据库增长。不幸的是，声明性分区要求密钥是PKs的一部分。作为主键的时态字段在我的模型中不能很好地工作--所以我尝试使用继承(根据docs)。我的问题是，如果WHERE语句中的一项将结果限制在单个子表中，使用这种方法是否会同样地隔离SELECT语句将公开的行数。例如： Books => BooksJan2020，BooksFeb2020，BooksMar2020。 SELECT * FROM Books WHERE created < '01 20 2020

浏览 34提问于2020-10-09得票数 1

回答已采纳

1回答

Postgres表继承的使用

postgresql、inheritance、database-partitioning

由于Postgres还支持分区表，那么子表的用途是什么。假设有一个用户表，其中有一个列created_date。我们可以用两种方式存储数据：我们为这个用户表创建了许多子表，并在user_jan01_21).We的基础上分发用户的数据(比方说，每个日期都有一个表，比如created_date可以用分区键created_date创建一个分区表) 那么，这些解决方案之间有什么区别呢？基本上，我想知道哪些问题表继承可以解决分区不能解决的问题。另一个疑问是:如果我遵循解决方案1，并且在没有ONLY关键字的情况下查询用户表，它会扫描所有子表吗？例如： SELECT * FROM WHERE whe

浏览 2提问于2021-02-09得票数 1

回答已采纳

1回答

PostgreSQL中的渐进子表扫描？

postgresql、performance、postgresql-9.6、inheritance、postgresql-performance

我们有仅附加的events表，其中收集来自不同设备的事件。我们使用PostgreSQL 9.6和pg_帕特曼将表拆分为每月分区。数据使用event_time列进行分区。每个月的桌子大约有1亿行。有一个来自应用程序端的查询，用于显示设备上的最新事件。它看起来像这样(简化)： SELECT event_time, event_data FROM events WHERE device_id = 'zzz' ORDER BY event_time DESC LIMIT 10 索引涵盖了每个搜索条件，因此PostgreSQL只进行索引扫描。问题是，它扫描所有子表，然后才

浏览 0提问于2019-05-08得票数 0

回答已采纳

1回答

不超过几十个分区是合理的吗？

postgresql、partitioning

我将时间序列模拟结果存储在PostgreSQL中.db模式如下所示。 table SimulationInfo ( simulation_id integer primary key, simulation_property1, simulation_property2, .... ) table SimulationResult ( // The size of one row would be around 100 bytes simulation_id integer, res_date Date, res_value1,

浏览 2提问于2010-08-18得票数 2

回答已采纳

1回答

PostgreSQL:表的自动分区

algorithm、postgresql、database-partitioning

我有一个巨大的数据库，其中包含一对数字(A，B)，每个数字从0到10,000不等，并作为浮动存储。例如， (1, 9984.4), (2143.44, 124.243), (0.55, 0), ... 由于存储这些对的PostgreSQL表变得相当大，我决定使用。我打算创建100个这样的表，每个表存储范围为1000x1000。问题是，这些数字往往来自附近的大量数字。这意味着在将来，一些表将几乎是空的，而有些表将保存数据库的很大一部分。不幸的是，未来对的分布还不清楚。我正在寻找一种自动重新划分我的表的方法。这意味着，如果某个子表包含超过特定数量的对，则将自动将其划分为四个子表，以此类推。

浏览 3提问于2010-03-14得票数 3

回答已采纳

2回答

在Postgresql中使用表重命名交换表内容时，会发生什么错误？

postgresql

我需要原子地更改Postgresql表中的大量行。我使用的技术如下:将数据添加到临时表中，然后通过将原始表重命名为not_matter_name并将temp重命名为原始名称来交换表。该技术被描述为。但是这种方法已经被打破了。例如，我发现视图不更新指向新表的指针，而且即使在名称交换之后仍然指向旧表。我找到的唯一解决方案是重新创建视图，这有点糟糕。除了视图的问题之外，还有什么能使这种技术出错呢？我是不是做错了什么？是否有更好的快速交换表的解决方案，这不会对其他Postgresql实体造成类似的副作用？代码如下所示： CREATE TABLE _temp_with_updated_data

浏览 3提问于2020-05-08得票数 1

回答已采纳

1回答

删除子分区表时的死锁

postgresql、database-partitioning、database-deadlocks

我们有一个包含统计数据的数据库。根据时间使用继承对表进行分区。根据需要根据传入的数据创建新的子表，并且应用程序运行一个夜间作业，该作业将丢弃旧的子表。为了保持一致性，与单个时间段相关联的所有子表都会在单个事务中删除。我们现在发现在DROP序列和普通SELECT查询之间存在死锁。下面的(大大简化的)示例说明了这个问题： DDL &插入虚拟行创建表a(id序列主键，t时间戳和时区，i int)；创建表a1 ()继承(a)；创建表a2 ()继承(a)；创建表b(id序列主键，id_a int，x int，y int)；创建表b1 ()继承(b)；创建表b2 ()继承(b)；插入到a

浏览 4提问于2018-01-15得票数 3

2回答

Postgresql分区查询的好处

postgresql、partitioning

我试图将分区过程应用到Postgresql数据库中的一些大型表中，我已经阅读了有关这方面的文档和许多文章，但没有找到这个问题的答案。如果我使用范围分区(例如日期字段)，是否有必要使用该字段进行查询以获得分区过程的好处?或者，即使我使用分区字段条件中未包含的其他字段进行查询，也可以使用该字段吗？谢谢

浏览 0提问于2022-04-12得票数 0

2回答

如何将PostgreSQL数据添加或路由到新硬盘驱动器

sql、database、postgresql

我在使用Windows 2008 R2标准我正在运行PostgreSQL 9.0.1，由Visual C++ build 1500编译，32位我有C:/和D:/开车 C:/ -> 6.7GB可用空间(几乎已满，而我的服务器性能很低) D：->141空间目前，我的PostgreSQL数据存储在C:/现在，我想路由或添加路径到D:/，而不将数据从C:/迁移到D:/，因为现在我的PostgreSQL数据存储在148GB左右。它又重又大。如果成功的话，我应该仍然能够执行像SELECT * From table_bla_bla这样的查询，并且它将返回两个驱动器的结果？请不要建议我改

浏览 4提问于2017-02-10得票数 1

2回答

SQL Server分区是否会在不更改文件组的情况下提高性能

sql-server、performance、partitioning

假设我有一个1000万行的表。我将它划分为10个分区，这导致每个分区有100万行，但我不做其他任何事情(例如将分区移动到不同的文件组或磁盘轴)。我会看到性能提升吗？这是否等同于创建10个较小的表？如果我有执行键查找或扫描的查询，性能是否会提高，就像它们对一个小得多的表进行操作一样？我正在尝试理解分区与拥有一个索引良好的表有何不同，以及在哪些地方可以使用分区来提高性能。更好的方案是将旧数据(使用分区切换)从主表移到只读存档表中吗？拥有一个具有100万行分区和900万行分区的表是否与将900万行移动到另一个表并在原始表中只留下100万行类似(在性能方面)？

浏览 0提问于2010-04-24得票数 3

回答已采纳

1回答

带复合分区的PostgreSQL时间序列表

postgresql、postgresql-performance、partitioning、timestamp、logs

我正在研究如何构造一个PostgreSQL表来存储大量时间戳数据，这些数据也需要被另一个字段分割。我期望的数据结构如下： CREATE TABLE event ( event_time timestamp not null, object_sha char(64) not null, ; sha256 as hex digits username text not null, ; actual name not a foreign key payload jsonb not

浏览 0提问于2023-01-13得票数 2

2回答

如果所有分区都被同等使用，分区会提高性能吗？

postgresql、partitioning

考虑以下情况： I有一个大的PostgreSQL表，其主键为UUID。UUID是随机生成的，并且均匀地分布在UUID空间上。I将UUID列上的表划分为256个范围(例如基于UUID的前8位)。所有分区都存储在同一个物理磁盘上。基本上，这意味着所有256个分区都将被同等使用(与基于时间的解析不同，在这种情况下，最近的解析通常比其他分区更热)。通过这样的分区，我会看到性能有任何改善吗？基于UUID的查询返回一个单行(WHERE uuid_key = :id)?For (必须搜索所有分区？)的查询。

浏览 6提问于2022-07-05得票数 0

回答已采纳

2回答

对dataframe的200万次查询

apache-spark、apache-spark-sql

我需要对大小为100亿行的三列表t (s，p，o)运行200万次查询。每一列的数据类型为字符串。只有两种类型的查询： select s p o from t where s = param select s p o from t where o = param 如果我将表存储在Postgresql数据库中，则使用Java ThreadPoolExecutor需要6个小时。你认为Spark能更快地处理查询吗？最好的策略是什么？以下是我的想法：将表加载到一个dataframe中，并启动对dataframe的查询。将表加载到parquet数据库中，并对该数据库启动查询

浏览 4提问于2020-07-13得票数 1

5回答

PostgreSQL:每年创建新的/复制现有表的最佳方法

php、postgresql、database

提到，我决定每年重复这些表，创建具有年度数据的表，例如： orders_2008 orders_2009 orders_2010 etc... 嗯，我知道速度问题可能可以用两个表来解决，比如orders_history和order_actual，但是我认为一旦编写了处理程序代码，就不会有什么区别了。只有几张桌子。这些表甚至会有一些带有外键的子表；例如，orders_2008将有子表items_2008： CREATE TABLE orders_2008 ( id serial NOT NULL, code character(5), customer text );

浏览 11提问于2009-05-18得票数 2

回答已采纳

1回答

在MySql 8中，我可以/应该拥有的每个表的最大分区数是多少？

partitioning、mysql-8.0

我有大约1吨(1,000,000,000)的产品记录，分属于500,000个帐户。每个产品记录都有account_id，而且由于我总是在单个帐户上下文中进行查询(没有跨帐户查询)，所以我考虑为每个帐户创建一个分区以提高性能。甚至可以在mysql8中创建50万个列表分区吗？是否需要更改所需的打开文件数量？如果可能的话，我是否有理由不走这条路？

浏览 0提问于2019-05-26得票数 1

回答已采纳

1回答

无法在postgresql中将声明性分区与继承结合使用

postgresql、inheritance、table-partitioning

我们有几个表，它们必须继承另一个表。我们的计划是能够使用公共属性在不同的表之间执行查询，但也可以出于分析目的在父表上执行查询。除此之外，可能还需要编辑父表和子表中的数据。子表已经具有所有必需的列，并且我们已经成功地继承了其中的几个列。现在，我们遇到了一个按年份和季度划分的大型表的问题(声明性分区)： [42809]: ERROR: cannot change inheritance of a partition. 另一种选择是使用联合，但如果没有继承，我们将需要创建可编辑的视图或类似的东西，并在每次需要另一个分区表时更改它们……或者，出于兼容性的原因，我们可能只会切换到继承。我已经尝试过

浏览 78提问于2021-10-07得票数 0

1回答

postgres中表继承所需的索引？

postgresql、inheritance、indexing、unique

这是一个相当简单的问题，但我找不到确切的答案。我在PostgreSQL中有一个父表，然后定义了几个子表。触发器已经建立，子表只有在字段(例如字段x )满足特定条件时才插入数据。当我使用基于x的字段查询父表时，PostgreSQL知道立即转到与x的特定值相关的子表。总之，我不需要在列x上指定特定的索引，对吗？PostgreSQL已经知道如何在其上排序，因此，通过向父x添加索引，PostgreSQL将在x上为每个新的子表生成唯一的索引。创建这个索引有点多余，对吗？

浏览 3提问于2010-07-29得票数 2

回答已采纳

1回答

单元视图查询性能:具有不同模式的联合表

hadoop、hive、hiveql、hive-query

我有一个场景，其中我有两个Hive表，而第二个基本上是第一个改进的模式(在这个例子中它还有1列)。 Table_A { business_date String Name String Age Number } partitioned by business_date Table_B { business_date String Name String Age Number Address String } partitioned by business_date 为了使下游用户不受模式更改的影响，我使用以下语法创建了一个Hive视图： Create VIEW customer_info A

浏览 1提问于2018-11-20得票数 3

1回答

SQL Server 2000中的大表分区

sql-server、sql-server-2000、database-partitioning、large-data

Server 2000数据库中有两个表，它们的记录超过5000万条，大部分是“读”，而不是“写”或“删除”。我想重新设计桌子。在一台服务器上创建分区视图是否有助于提高速度？(在one服务器中创建分区是否有意义？) 创建一个新的文件组并将这个表放在其中(在一个服务器中)是有益的吗？除了:重新索引有哪些其他可能的方法来提高在这样的表中获取数据的速度？我经常盯着它，但没有找到2000年的任何其他东西。谢谢你的建议

浏览 4提问于2014-10-23得票数 0

1回答

模式在PostgreSQL物理对象中吗？

postgresql、namespaces、schema、database-schema

我在PostgreSQL中使用模式来组织我庞大的会计数据库。在每年年底，我通过为下一年创建一个新的模式来实现一个协调过程。新模式的文件是否与旧模式物理分离？还是所有存储在硬盘上的架构一起存储？这对我来说非常重要，因为每年年底，我都会有数百万条记录的巨大表，这意味着我很快就会调用大量的查询(当我决定选择PostgreSQL时，我并没有为此做任何计划)。

浏览 3提问于2020-11-25得票数 0

回答已采纳

2回答

通常只插入到Server 2012中的分区表

sql-server、database、partitioning

我有一张桌子，每月大约有45万张记录。它是一个类型的审计表，用于跟踪数据库中其他表的更改。也就是说，插入、更新和删除记录。通常不会查询此表(可能每月只查询2-3次，以检查其他表中的数据在非常特定的情况下是如何变化的)。有人告诉我，我们应该考虑对这个表进行分区，以帮助提高数据库性能。如果表只被插入到99.9%的时间，并且很少被查询，那么这个分区这个表会有什么实际的好处吗？谢谢。

浏览 7提问于2017-04-13得票数 0

回答已采纳

1回答

最佳实践是什么:使用queryBuilders或创建表视图？

php、postgresql、phalcon

我使用Phalcon，它有自己的查询生成器：和PostgreSQL，其中我创建了表视图，它将复杂的查询连接到一个表，该表下一个表在中表示为一个我的问题是:在TableModelClass中创建视图，然后再使用汇辑，或者使用查询生成器来连接表，是什么最佳实践？使用这两种方法的利弊是什么？例如，当我使用视图时，我还可以在上添加，并生成更多指定的结果。所以对我来说这是更好的方法，但我不确定这是否是最好的。我在互联网()上读到，views并不比普通查询慢，这意味着查询生成器发送的查询在获取结果方面具有相同的速度？

浏览 4提问于2017-10-19得票数 0

1回答

在作业中读取bigtable上的大型查询表花费的时间太长

google-cloud-platform、google-bigquery、google-cloud-dataflow、google-bigquery-java

我有一个数据流作业，它从bigquery表(在大表之上创建)读取。数据流作业是使用java中的自定义模板创建的。我需要处理bigquery的大约5亿条记录。我面临的问题甚至是读取100万条记录，大查询读取需要26分钟，数据流工作需要36分钟。在大查询中读取太慢。任何关于如何提高阅读性能的建议。

浏览 10提问于2022-12-02得票数 1

1回答

按分区列分组的Impala

hadoop2、impala

理论问题，假设我有一个包含四列的表: A、B、C、D。A和D的值相等，表由列A分区。在性能方面，如果我发出这个查询SELECT SUM(B) GROUP BY A，或者这个查询SELECT SUM(B) GROUP BY D，会有什么不同；换句话说，在分区列上使用GROUP by是否会带来性能上的提升？谢谢

浏览 0提问于2016-11-09得票数 0

1回答

Sybase ASE数据清除批处理-设计与性能

batch-processing、sap-ase

我正在开发一个Sybase ASE (迁移到15.7)数据清除实用程序，多个表/数据库将使用它来删除大量不需要的旧数据。收到输入表名称后，自动计算子表并删除数据。但是，我找不到一个层次查询子句，比如Oracle的"Connect by . Prior“子句。还有其他方法来实现这一点吗？我是通过循环多个事务/提交来删除数据的。删除后，在什么时间间隔，我应该做“重新组织重建”吗？我需要更新统计数据吗？如果有必要，在进行更新统计之前，我应该考虑哪些标准？有些表可能是分区的。从分区的角度来看，有什么需要考虑的吗？我们的一些数据库(我猜索引.？)聚集在一起。我对聚类

浏览 0提问于2013-03-28得票数 1

回答已采纳

1回答

Server分区性能问题

sql-server-2008、indexing、partitioning

我有以下情况： TableA (ID GUID, Type INT) : +60M rows TableB (ID GUID) : +5M rows TableA有一个ID索引和TableB类型，主键是ID 我需要改进以下查询： SELECT * FROM TableA A INNER JOIN TableB B ON A.ID = B.ID AND A.Type = 5 查询大约需要30秒才能完成。我们尝试过在Type列上分区TableA，但是查询执行时间保持不变。甚至执行计划也是一样的。据我所知，对表进行分区应该大大提高性能？是否必须调整查询以使用分区，从而提高性能？我的索引错了

浏览 3提问于2013-02-21得票数 0

回答已采纳

1回答

MS SQL -对表进行分区以归档数据

sql-server、sql-server-2016

我现在已经做了一些研究，但我还没有完全弄清楚。我有一个表，里面有大约2-3年的数据。目前是1.3TB。此备份当前需要大约14个小时(备份到NAS)。我的想法是按日期对数据库或表进行分区，以尽可能减少备份时间并提高查询性能。该服务器目前在SLQ 2016上运行，今年将升级到2019。我对此的问题(即使我部分知道答案，但我需要确认这一点)：我是否可以进行分区，以便我有一个“活动”部分，然后定期创建备份？旧数据被排除了吗？(这有意义吗？) 我是否可以进行分区，以便始终将最后6个月作为分区1，其余的在分区2中？这一点每天都必须改变。是否可以相应地创建分区方案？或者只将较旧的数据推送到存档表中会

浏览 24提问于2021-06-23得票数 0

1回答

PostgreSQL分区修剪？

postgresql、partitioning

在postgres中，分区由子表完成。我的问题是，当我们向主表发出查询时，查询优化器是否进行分区修剪？即选择适当的子表，而不是遍历所有子表。查询优化器如何对分区进行剪枝？我担心的是，与其他数据库不同，我们在postgres分区过程中不提供分区列。那么，查询优化器如何知道分区列是什么？

浏览 0提问于2014-07-01得票数 1

回答已采纳

1回答

在大表上使用偏移量优化查询

sql、postgresql、pagination、sql-order-by、postgresql-9.5

我有桌子 create table big_table ( id serial primary key, -- other columns here vote int ); 这个表非常大，大约有7000万行，我需要查询： SELECT * FROM big_table ORDER BY vote [ASC|DESC], id [ASC|DESC] OFFSET x LIMIT n -- I need this for pagination 正如您可能知道的，当x是一个大数字时，这样的查询非常慢。为了优化性能，我添加了索引： create index vote_order_asc on b

浏览 2提问于2015-12-06得票数 13

回答已采纳

3回答

Server 2008分区表与并行性

sql、sql-server、performance、sql-server-2008

我的公司将转向Server 2008 R2。我们有一张有大量档案数据的桌子。使用此表的大多数查询在where语句中使用DateTime值。例如：查询1 SELECT COUNT(*) FROM TableA WHERE CreatedDate > '1/5/2010' and CreatedDate < '6/20/2010' 我假设分区是在CreatedDate上创建的，每个分区都分布在多个驱动器上，我们有8个CPU，数据库中有5亿条记录，平均分布在1/1/2008至2/24/2011 (38个分区)之间。这些数据

浏览 2提问于2011-02-24得票数 4

回答已采纳

2回答

优化mysql/postgresql的创建和更新

mysql、postgresql、select、rdbms

据我所知，大多数RDBMS包都是构建的，记住99%的查询都是select查询。然而，我所处的情况是，我们至少有50%的查询是创建/更新查询。因为我们也需要持久性，所以我们不能使用NoSQL解决方案。从本质上讲，只要有更新，就应该立即永久存储。因此，我想知道MySQL的性能是否会因此而受到影响。我们当前的MySQL引擎是InnoDb。有没有其他更好的MySQL引擎？我计划使用Amazon RDS，所以我的重点是MySQL；但出于好奇，我想知道postgresql是否能在这方面提供帮助。注意:只是为了给出一个规模的概念，我们谈论的是在投入生产的几个月内对至少有一百万个条目的表进行创建/更新查询。

浏览 2提问于2012-07-04得票数 0

回答已采纳

3回答

向索引列添加外键会提高性能吗？

postgresql、indexing、foreign-keys、query-optimization

一位同事声称，他过去使用外键优化查询。我认为外键只在表中插入或更新数据时使用。我看不出他们怎么能被用来加速搜索。在创建执行计划时，外键如何帮助？我是不是遗漏了什么？如果是的话，在甚麽情况下有帮助呢？ (我们使用PostgreSQL，我没有多少经验。它的行为是否可能与甲骨文或MySQL不同？)

浏览 5提问于2016-09-08得票数 7

回答已采纳

1回答

Azure Synapse，外部表或内部表的设计问题

database、parquet、data-warehouse、azure-synapse

我正在使用SQL在Azure Synapse中设计一个数据仓库，但我面临一些设计问题。上下文:我的计划是使用(ADLS)加载分区的Parquet文件，然后使用SQL池创建外部表来查询这些文件。我的问题是：仅仅通过外部表提供解决方案在性能上会更好吗？也就是说，没有创建内部表，也没有CTAS、BCP或将方法从ADLS复制到数据库中存储。是否可以在外部表中执行分区？按日期指定的文件夹来组织拼花是否足够？如何影响用户并发到外部表和内部表？一些有经验的建议？耽误您时间，实在对不起。乔希

浏览 6提问于2022-04-22得票数 0

回答已采纳

1回答

如果表已经在mysql中被分片，还需要分区吗？

mysql、innodb、mysql-5.7

背景: MySQL 5.7，InnoDB引擎我们有一个巨大的事务日志表(每天新增600万行)，我们希望将这个巨大的表分割成多个mysql实例和表(所以我们有table_001、table_002等)。用户经常查询最近的行，这意味着最近的行是热的，而旧的行是冷的。我想知道在这种情况下，是否仍然需要在每个分割表(table_001、table_002等)中使用mysql分区。我的意见是没有。如果我们已经将数据分成了许多子表，为什么我们还需要使用分区的另一种子表呢？(分区实际上在内部是单独的表，对吗？)

浏览 1提问于2018-06-17得票数 0

1回答

SQL数据库设计:额外表与额外主键列

postgresql

我想优化我的PostgreSQL数据库设计。目前，我有一个表，列如下： name - char(4) color - char(6) key - text value - real[] 主键由多个字段(名称、颜色、键)组成。我有大约300到400个名字。每个名字有2000种不同的颜色。每种颜色都有40000对不同的键值对。所以每个名字都有2000 x 40000 = 80000000行我不更新行。我只在填充数据库时插入新行。查询速度对我来说很重要： SELECT value FROM table WHERE name = x AND c

浏览 1提问于2018-10-25得票数 0

2回答

大查询是否适应数据？

google-bigquery

我们使用BigQuery作为系统的分析引擎，为报表准备数据。根据我们的处理过程，数据的任何部分都可能被更改，也就是2013-2015年的历史值，因此我们每天早上都会删除和重新加载BigQuery中的所有表。我们希望了解我们的方法是否会损害性能或增加数据处理成本。可以说，随着时间的推移，BQ“适应”了表的内容，随后的查询变得更有表现力。我说的不是缓存，而是一些数据重组，比如分区，BQ在处理查询时可能会发现。例如，大多数查询都与特定的年份或值类型相关，因此当识别出常见的查询模式时，BQ可能希望在这些字段中对数据进行分区。

浏览 4提问于2016-03-08得票数 2

回答已采纳

4回答

最佳数据库表优化方法

postgresql、optimization、partitioning

我有一个越来越大的数据库表(几亿行)，需要进行优化，但是在开始对它进行分区之前，我想我应该询问一些建议。以下是用法： 0。表包含大约10列，长度约为20字节。插入以每秒数百次的速度执行。 SELECT语句是基于'a‘(其中a='xxxx’)每小时几次执行的。 DELETE语句是基于日期列执行的。(删除超过1年的日期)通常每天一次。关键的要求是加快插入和选择语句，并且能够保存1年前的历史数据，而不需要在删除时锁定整个表。我想我必须有两个索引，一个用于'a'，另一个用于日期字段。还是有可能对两者进行优化？在选择上的速度和删除的速度之间会

浏览 0提问于2010-03-04得票数 3

1回答

分区是否应该提高索引访问和更新的性能？

performance、index

我经常听说，对大型表进行分区应该会显着地提高查询速度和插入/更新速度，因为索引相对较小。我很难理解为什么会这样。在我的理解中，对索引的操作应该具有log(N)复杂性，所以即使我们将一个巨大的表划分为100个较小的项，我们也只是将一个索引划分为100个较小的项。如果查询经常访问整个数据集中的项，那么这100个索引无论如何都会争夺处理器缓存，所以我不明白为什么数据库会更少地访问磁盘。如果我们通常只请求部分数据--例如，如果我们有一个带有时间戳数据的表，并且更经常对最新数据感兴趣--那么我们必须遍历的B树节点计数将减少1或2。但是在非分区表场景中，B树的大多数节点无论如何都将被缓存，所以B树

浏览 0提问于2021-02-09得票数 2

回答已采纳

1回答

从PostgreSQL数据库高效地检索大型数据对象

database、postgresql、jdbc、gis、postgis

我目前正在尝试找到一种更有效地从我的PostgreSQL/PostGIS数据库中读取大型几何对象的方法。我已经分析了我的查询的计划和运行时，如果我只拉回主键是非常可以接受的，但是当我检索-有时非常大-几何对象时，单个查询的返回时间可能会达到几分钟。我想知道除了典型的查询之外，是否还有更有效的方法从数据库中读取大型对象(可能是某种流，我可以在检索输入时对其进行处理，以减少有效的处理时间？)。我研究过游标，但我不确定这是否真的是我要找的，因为这些游标似乎主要与PL/pgsql脚本相关，而不是Java应用程序。我运行的是JDBC9.5，应用程序是用PostgreSQL /Scala编写的，使用的

浏览 0提问于2016-07-15得票数 1

4回答

基于postgresql查询的大型ResultSet

java、spring、postgresql、jdbc、spring-jdbc

我正在对postgresql数据库中的一个表运行一个查询。数据库位于远程计算机上。使用postgresql ，该表有大约30个子表。查询将返回一个大的结果集，大约180万行。在我的代码中，我使用spring支持，方法，但是没有调用我的。我最好的猜测是postgresql驱动程序(我使用8.3-603.jdbc 4版本)在调用代码之前正在内存中积累结果。我认为可以控制这一点，但我尝试过了，没有任何改变。我这样做是作为postgresql手册进行的。当我使用Oracle XE时，这个查询工作得很好。但是我试图迁移到postgresql，因为分区特性在Oracle XE中是不可用的。我的环

浏览 6提问于2009-05-05得票数 6

回答已采纳

1回答

利用索引获取宇宙数据库中记录的总数

nosql、azure-cosmosdb

我需要检索由某个列过滤的集合的总计数。收集量为500 K记录。下面是用于检索集合中可用记录总数的查询。SELECT COUNT(1) FROM c where c.Column1 IN ('Data2')。在这里，此查询使用连续令牌从多个集合中检索数据。这会延迟总数的计算结果。请有人告诉我，我们是否可以在不增加RU的情况下使用索引来提高查询性能？

浏览 0提问于2018-08-20得票数 1

回答已采纳

2回答

是否值得为day_of_week列建立索引？

database、performance、postgresql、indexing

我有一个users表，它有一个day_of_week列，它是一个整数(0...6)。每天我都要运行一个脚本，遍历当天的用户。那么，为了更快的性能，我应该用索引标记这一列吗？查询总是返回总数的1/7，如果我添加一个索引，恐怕会出现相反的效果。想象一下users表中有10k-100k行。顺便说一句，如果重要的话，我正在使用PostgreSQL。

浏览 0提问于2013-03-06得票数 4

回答已采纳

1回答

Azure CosmosDB如何查询物理分区

azure-cosmosdb

我正在尝试执行一个需要返回数百万条记录的非常大的查询，所以我希望对该查询进行分区，并使用多台机器来处理结果。我的逻辑分区键将是文档的UUID，所以这对我为每个工作节点分配不同的部分没有多大帮助。是否可以获取物理分区ID并仅在特定物理分区内执行查询？以下是我尝试过的方法： FeedOptions feedOptions = new FeedOptions(); feedOptions.setEnableCrossPartitionQuery(false); feedOptions.setPartitionKeyRangeIdInternal("0"); client.que

浏览 1提问于2018-08-09得票数 2

1回答

在sybase选择查询中划分表

c++、performance、sybase、sap-ase、query-performance

我的主要关注点：我有一个现有的具有大型data.It的表，它有一个聚集索引。我的c++进程有一个包含多个键的列表，它用它检查表中是否存在键，如果有，它将检查表中的行和新行是否类似。如果有更改，将在表中更新新行。总的来说，变化会更少。但它的巨大数据在表中。这意味着会有大量的选择查询，但不会有很多更新查询。我想要达到的目标：我刚读到关于在sybase 中对表进行分区的文章。我只想知道这对我是否有帮助，因为我在文章中只提到了insert查询。但是如何提高select查询性能。有人能建议我在这种情况下应该找什么吗？

浏览 1提问于2014-07-04得票数 0

2回答

用于基于哈希表分区的MySQL和PostgreSQL

mysql、postgresql、innodb、partitioning

我正在计划一个开源的后端服务，它的主要工作是在用户设备之间传递同步消息。我希望服务的自托管和托管版本共享相同的体系结构，所以我的DB选择是MySQL和InnoDB和PostgreSQL。数据库上的主要负载将位于存储用户设备之间的同步消息的messages表上。它将支持下列行动：为用户插入消息按日期排序的用户的查询消息删除发送给用户的邮件 messages表上不会有涉及多个用户的在线查询。我认为扩展性能的最简单方法是在messages表中的用户id上创建一个散列分区。我想知道MySQL和InnoDB或PostgreSQL是否更适合这个用例？ P.S.：有一个类似标题的问题，但是在Pos

浏览 0提问于2023-02-07得票数 1

回答已采纳

3回答

反规范化会改善SQL中的性能吗？

sql、database、performance、data-warehouse

我想加快SQL查询的速度。我已经开始阅读一本关于数据仓库的书，在这里，您有一个包含不同表中的数据的单独数据库。问题是，出于以下几个原因，我不想为每个客户创建单独的报告数据库：我们有200多个数据库，这些数据库的维护就足够了。必须立即提供报告数据。我想知道，我是否可以简单地去修饰我报告的表，因为目前有很多连接，并且认为这些连接很昂贵(表中大约有2000万行)。如果我将数据复制到多个表中，这会大大提高性能吗？我知道到处都有复制数据的问题，但这对历史观点也有好处。

浏览 7提问于2014-04-22得票数 0

1回答

如果我在CustomerNumber以外的列上搜索，分区可以提高性能吗？

sql、sql-server、sql-server-2008、tsql

我正在阅读SQL Server的分区教程：在这里，作者将表拆分，并根据CustomerNumber列将它们存储为4个文件组。我想知道的是，如果我搜索名字或姓： Select * From tableName where FirstName Like '%Jack%' 如果我进行分区，这个查询会运行得更快吗？Server会对不同的文件组发出4次查询，然后合并最终结果吗？编辑：虽然这不是我最初的问题，但Raj和TimTom说这将导致表扫描，但是查询执行计划显示了我所说的其他内容。我是不是遗漏了什么？

浏览 3提问于2013-01-02得票数 0

回答已采纳

2回答

非常宽的表(400列)的Server性能问题。是否需要清晰的垂直分区？

sql-server

我有一个包含大约400列(平均为400万至500万行)的表，即使对于count(*)或从y查询中选择x，它的性能也很糟糕。在类似的30列表上花费几秒钟时间的复杂查询甚至在被访问的列相同的情况下也要花上几个小时。我看到的明显的解决方案是规范化、添加索引和垂直分区。在这种情况下，规范化是不可能的，因为这些额外的列或多或少是与每个记录相关的随机数和叙述。我将在最常用的列上添加索引。现在我的问题是垂直分区。我可以将400列划分为较小的表，假设10个表，每个表40列。但是. 首先，考虑到所有这些表都会被连接起来进行查询，这种垂直分区是否有真正的性能好处？如果有性能上的好处，那么分区的标准应

浏览 7提问于2016-07-07得票数 1

1回答

关于Server中的大表管理(>100亿行)的一些基本问题(希望如此)

sql、performance、optimization、database-design、query-performance

我正在对表的设计做一些实验，我们希望有很多行(超过100亿行)。一些立即浮现在脑海中的事情：在我所说的“高”表方法中，每一行将有大约25种类型中的一种，以及与这种类型相对应的值。我是否应该将其转换为一种“宽方法”，其中一行包含每个类型的值的NULLable列？从可维护性的角度来看，这并不是一种很好的方法(如果我必须添加更多的“类型”怎么办)，但我更关心性能，而大小是次要的考虑因素。行将有日期时间戳(可能是很小的时间，因为我只需要一分钟)。我听说，最好在表中使用日期时间的整数表示，而不是日期时间本身。我预计这个日期时间将被大量地用于查询(甚至可能在一定程度上它是聚集索引的一部分)。

浏览 1提问于2011-12-08得票数 0

回答已采纳

2回答

PostgreSQL中BRIN索引与表分区的区别

postgresql

在PostgreSQL中，BRIN索引和表分区之间有什么区别？什么时候我应该用一个而不是另一个？它们似乎提供了非常相似的好处，也有相似的用例。示例假设我们有下面的表结构 CREATE TABLE orders ( id SERIAL PRIMARY KEY, store_id INT, client_id INT, created_at timestamp, information jsonb ) 它具有以下特点：订单只能插入，删除是不允许的，更新是非常罕见的，并且它们不涉及created_at列，created_at列包含插入数据库中行的时间戳，因此列中的值严格为created_at，

浏览 14提问于2022-01-11得票数 1

回答已采纳