hana中包含4列的散列分区_SAP HANA中的数据分区_sap hana图形计算视图中的散列/加密 - 腾讯云开发者社区

sap、partitioning、hana

有没有办法截断SAP HANA中的分区？因为官方文件只说要删除分区？

浏览 1提问于2018-08-30得票数 0

1回答

与非分区表计算VIEWE相比，SAP分区表计算视图运行缓慢。

sap、hana

我有一个大的表，接近1GB，这个表的大小每周都在增长，它有1.9亿行，我开始从HANA那里得到警报来划分这个表，所以我计划用一个列来划分这个表，这个列在Where子句中经常使用。我的HANA系统是有8个节点的扩展系统。为了比较分区查询性能与这个未分区表的差异，我在这个未分区表的顶部创建了计算视图，并记录了查询性能。我使用哈希方法并按服务器数量对此表进行了分区，并以这种方式记录了查询performance.By，这样，.I创建的计算视图和记录的查询性能将具有良好的跨服务器数据分布。令我惊讶的是，与分区表计算视图相比，我的非分区表计算视图查询的性能更好。这确实是shock.Not确定了为什

浏览 0提问于2018-10-15得票数 0

2回答

检查列是否存在于SAP HANA的BIMC表中

sql、hana

我执行了一个HANA SQL查询，以确定哪些多维数据集/视图属于特定的HANA目录。我希望确保在结果集中包含基于HDI的视图，并且为此，我希望使用BIMC_ALL_AUTHORIZED_CUBES/BIMC_CUBES等系统表中的QUALIFIED_NAME列。但是，我希望确保我支持HANA的pre-HDI版本，因此我可能会遇到QUALIFIED_NAME列不存在于其中一个表中的情况。如何检查HANA SQL脚本中是否存在QUALIFIED_NAME列？优选地，不检查HANA版本。

浏览 116提问于2019-05-04得票数 0

回答已采纳

2回答

两个DynamoDB扫描数据段是否可以包含相同的哈希键？

amazon-dynamodb

我正在扫描一个很大的表(> 1B个文档)，所以我使用并行扫描(每个worker使用一个段)。表有一个散列键和一个排序键。从直觉上讲，一个段应该包含一组散列键(包括它们的所有排序键)，因此一个散列键不应该出现在多个段中，但我还没有找到任何说明这一点的文档。有人知道DynamoDB在这种情况下是如何表现的吗？谢谢

浏览 0提问于2020-06-23得票数 2

1回答

我能改变现有的基塔斯表上的分配方法吗？

postgresql、citus

在从MySQL迁移到Citus集群期间，我使用了range分布方法。迁移已经完成，但是现在我想将分发方法更改为hash。是否有一种方法可以将现有表的分发方法从range 更改为 hash ，其中包含已有的数据？我想出了以下步骤，但不确定它是否有效：更新正在更改的所有碎片的minvalue和maxvalue表中的pg_dist_shard列将pg_dist_partition表的碎片存储类型列从r更新为h COMMIT;

浏览 0提问于2016-04-28得票数 5

回答已采纳

1回答

hana表分区中的高内存消耗

out-of-memory、partitioning、hana

我有一个包含大约40亿条记录的大表，表已分区，但我需要再次执行分区。在进行分区时，hana系统的内存消耗达到了4TB的极限，并开始影响其他系统。我们如何优化分区，以便在不消耗太多内存的情况下完成分区

浏览 3提问于2019-11-07得票数 1

1回答

全局分区索引比非分区索引更好(更快)吗？

oracle、indexing、oracle10g、performance、partitioning

我很想知道对经常作为查询目标的数值列进行分区是否对性能有好处。目前，我有一个包含约5000万条记录的实例化视图。当使用常规的b-tree索引并按这个数值列进行搜索时，我得到的代价是7，查询结果大约需要0.8秒(使用非初始缓存)。在为该列添加一个全局散列分区(包含64个分区)之后，我得到的开销为6，查询结果大约需要0.2秒(同样使用非初始缓存)。我的第一反应是分区索引提高了查询的性能。然而，我意识到这可能只是一个巧合，可能完全取决于正在搜索的值，或者其他我不知道的值。因此，我的问题是:将全局散列分区添加到大型表的数值列中是否具有性能优势，或者确定要扫描哪些索引分区的成本与仅对非索引分区执行全范

浏览 0提问于2009-08-31得票数 8

回答已采纳

2回答

Postgresql 12自定义散列函数

postgresql、partitioning、hashing

我有一张大桌子，我想把它隔开。要对其进行分区的字段是包含编码值的字符串，但显示为作为字符串存储的整数。“数字”由四个数字组成。前两个是我想要分割的。例如，字段值"1298“需要使用值12进行分区，我认为这对于具有自定义散列函数的散列分区来说是一个很好的使用。对于某些参考:经常以... WHERE TheField = '0123'或... WHERE TheField IN ('0123', '0145', '0232')的形式对此列进行查询。手动将每个值放入每个分区是不切实际的，因此我认为使用自定义散列函数是一种实用

浏览 0提问于2021-09-14得票数 0

1回答

如何提高Vora的性能

vora

我一直在Vora和Hive中运行一些来自以及的测试。Controller和SparkTh深层服务器都有相同的配置。 12栏 10米排桌 680兆b Server和SAP控制器都是以-主纱线和相同数量的执行器、执行器内存和核心启动的.在Hadoop集群中的同一服务器上可以找到Controller和Thriftserver，我运行一个测试关机-- Controller/Thriftserver，然后启动另一个进行测试。下面的所有数字都来自服务器的作业完成时间或SAP控制器的作业完成时间，我不等待结果显示在HANA或直线或火花-壳牌。结果：火炉-壳牌->火花放电服务器-> Hive

浏览 3提问于2016-05-02得票数 0

回答已采纳

2回答

如何使用HANA SDA虚拟表访问蜂窝酸表？

apache-spark、hive、hana、apache-drill、virtual-table

我们目前正在使用HANA 1、sps 12、和火花控制器来创建虚拟表并访问HANA中的单元数据。问题是，我们有一些SC2表，我们想要存档在HANA，我们需要完整的CRUD操作。我们已经将一些Hive表转换为ACID (事务性=真)。现在我们无法获取记录，它返回0条记录。我们尝试使用DSN，它具有对Hive acid表的本机支持，但是当我们使用钻孔ODBC驱动程序和DSN查询Hive表时，它失败了。在检查了我们发现的按下钻取的查询之后，HANA正在用双引号包装模式名称。例如：Select * from "hive.schemaname".tablename。我们试图将默认引号

浏览 5提问于2020-05-16得票数 0

回答已采纳

1回答

SAP HANA中的分区

sap、partitioning、hana

我们是SAP HANA DB的新手。我们有25-30表新形成的申请。表中的最大记录数约为一百万条。数据是按日期维护的。我们应该进行白日分区吗？我们知道这个量要小一些。我们只维护特定时间段的数据，因此在一段时间后，将很容易删除分区。这些表的日增长约为5K(最大)。是否可以在列数据库中进行分区，或者目前不需要分区。删除记录会产生与删除分区相同的性能吗？诚挚的问候

浏览 4提问于2017-01-19得票数 0

2回答

oracle如何管理散列分区

oracle、hash、partitioning

我理解范围划分的概念。如果我有一个日期列，并根据月份对该列进行分区，那么如果我的查询有一个where子句只过滤了一个月，那么我可以命中特定的分区并获取数据，而不会命中整个表。在Oracle文档中，我读到如果像'month‘这样的逻辑分区不可用(例如，您在名为customer id的列上分区)，那么使用散列分区。那么这将如何工作呢？Oracle将随机划分数据并将其分配到不同的分区，并为每个分区分配一个哈希码？但是在这种情况下，当新数据进入时，oracle如何知道将新数据放在哪个分区中呢？当我查询数据时，似乎没有办法避免命中多个分区？

浏览 1提问于2013-08-26得票数 2

回答已采纳

1回答

如何在SAP HANA中分割分区？

sap、hana

我的桌子上有一年一次的隔断。我需要把同样的东西分成半年一次的聚会。如何在SAP HANA中实现这一点？

浏览 1提问于2018-03-30得票数 0

1回答

dynamodb中的有序哈希键

amazon-dynamodb、dynamodb-queries

我的发电机数据库表有散列键和范围键，以及其他我们可以插入的数据列。在ordered db中，我所理解的是，当项目插入到GSI/Base表中时，项目会根据范围键按升序排序，而散列键则不会排序。示例： hashId - rangeKey 1-1 1-2 1-3 3-1 3-2 3-3 2 -1 2 -2 2 -3 有没有办法让我们在发电机数据库中也有一个有序的哈希键？当我们以任意随机顺序保存数据时，就像这样： hashId -rangeId 1 -1 1- 2 1- 3 2 -1 2 -2 2 -3 3 -1 3- 2 3 -3

浏览 15提问于2019-07-31得票数 0

2回答

如果表是水平分区的，是否可以按主键查询？

sql、sql-server、sql-server-2014

我有一张像这样的桌子 CREATE TABLE mytable ( id int IDENTITY(1,1) NOT NULL, customer_id [int] NOT NULL, blessdate date NOT NULL, value1 varchar(max) NULL, value2 varchar(max) NULL CONSTRAINT [PK_History] PRIMARY KEY CLUSTERED ([id] ASC) WITH (PAD_INDEX = OFF, STATIS

浏览 1提问于2016-07-31得票数 1

2回答

关系数据库能够利用一致散列的方式来完成分区表吗？

algorithm、relational-database、database-partitioning、consistent-hashing

假设我们有一个用户表被用户id划分为整数1，2，3.n。我可以使用用于划分表的一致散列方式吗？这样做的好处是，如果分区的数量增加或减少，则旧索引可以相同。问题A。使用一致的散列算法来做分区表是个好主意吗？问题B，. 任何关系数据库都支持吗？我想一些nosql数据库已经在使用它了。但是这里的数据库指的是关系数据库。我在一次面试中遇到了这个问题。在第一个反应中，我只是用长度来回答mod，但是如果将表划分成更多的部分，则会引起问题。

浏览 3提问于2011-08-17得票数 3

回答已采纳

1回答

MySQL 5.5 (InnoDB)的分区策略

mysql、innodb、partitioning

尝试为MySQL 5.5 (InnoDB)表实现分区策略，但我不确定我的理解是否正确，或者在创建分区时是否需要更改语法。表"Apple“具有10个磨机rows...Columns "A”到"H“PK是列"A”、"B“和"C”。列"A“是一个字符列，可以标识200万行的组。我认为列"A“将是尝试实现分区的一个很好的候选者，因为我按该列进行选择和删除，并且在不再需要数据时实际上可以截断该分区。我发出了这个命令: ALTER TABLE Apple PARTITION BY KEY (A)；使用以下命令查看分区信息后:从INFO

浏览 2提问于2011-11-25得票数 1

回答已采纳

1回答

如何用KCL确定特定分区键的碎片id？

amazon-web-services、amazon-kinesis

API使用分区键来确定记录的碎片id。即使PutRequest的响应包含碎片id，它也不可靠，因为碎片是可拆分的，以便可以将记录移动到新的碎片中。我找不到一种方法来确定使用者端特定分区键的碎片id。看起来，AWS将分区键映射到128位整数键，但是在文档中没有解释散列算法。我想要做的是在具有特定分区键的Kinesis流中处理记录，这意味着它们将位于特定的碎片中，这样我就可以在特定的碎片中获取数据，但是我无法在文档中找到合适的API。

浏览 3提问于2015-08-08得票数 4

回答已采纳

1回答

如何通过python匹配DynamoDB表中的文本(寻找类似regex的内容)？

python、amazon-dynamodb、dynamodb-queries

response = ddb.get_item( TableName = table, Key={ 'col_name': {'S': 'a'} } ) 据我所知，上述代码将从列中包含'a‘的表中返回项。但是，我希望以这样的方式进行查询，即如果列包含"I‘m good“，而我的搜索字符串是" am "，则应该能够匹配表中包含的文本中的" am”，并检索包含此类匹配的行。本质上，我希望匹配子字符串，而不是实际字符串。我该怎么做？

浏览 11提问于2022-10-07得票数 -1

2回答

使用hana导出命令导出有2.2亿条记录的hana表

sql、export、hana、informatica

我有一张有2.2亿张唱片的Hana表。(尺寸12)。我们目前使用Informatica，它在my_table上执行select *，并将管道分隔的数据导出到文件中。这个文件大小接近100 to，执行作业需要大约1.5小时。这能通过hana的出口指令来实现吗？导出命令可以用于将分隔的表文件导出到另一个服务器吗？

浏览 1提问于2019-04-05得票数 2

1回答

如何避免对cassandra中的聚类键列进行排序

cassandra、nosql

我对卡桑德拉有点陌生。我创建了一个类似于创建表事件的表(日期文本、小时文本、sip文本、dip文本、计数、计数器、主键(日期、时间)、sip、dip)；我们的用例是，应用程序每秒接收许多事件。我们希望每天每小时有一个独立的分区，如果再次收到相同的事件，我们需要更新计数器。此外，我们希望有独特的条目组合的dip和sip列，因此，我已经包括了这些作为主键的一部分。在这里，由于dip列正在形成一个集群键，在将记录插入到表中时正在进行排序。在我们的示例中，这些列不需要排序，排序是一种开销，而我们在表中包含数百万行。如何避免这种排序开销，有谁能帮我吗？

浏览 1提问于2015-06-17得票数 2

2回答

SAP HANA与Memcached、Redis和使用内存而不是磁盘的现有数据库有什么不同？

redis、memcached、hana、sap-basis

SAP的内存数据库HANA引起了商业分析界的热议。与当前的开源数据库相比，我很难看到它真正的创新。好的，它有索引，图形支持，列存储等等……但在我看来，这并不是什么新鲜事。它在内存中的事实也不是什么新鲜事，参见Memcached和Redis。 HANA有什么大不了的？

浏览 1提问于2012-11-08得票数 15

回答已采纳

1回答

大容量加载到SAP数据库

oracle11g、sap、hana

我们以前在数据仓库的设置中使用了Oracle DB。我们使用SQL加载器实用程序进行批量加载，这是通过Informatica调用的。我们正在将我们的数据库转移到SAP，HANA.We是非常新的HANA。我们在SAP中寻找类似的命令行实用工具，以实现高效的大容量数据加载。我在SAP HANA中偶然发现了CTL文件的实用程序。但是我们面临的问题是，我们只需要在命令行上指定CTL文件、路径数据文件、路径坏文件、路径。有办法做到这一点吗？还是我们有一个更好的机制在SAP HANA计划散装装载。

浏览 1提问于2017-01-06得票数 2

回答已采纳

1回答

Spark 2.4.6 + JDBC Reader:当谓词下推设置为false时，spark是否从引擎并行读取数据？

apache-spark、jdbc、hana

我正在尝试从SAP HANA中的一个大表中提取数据，该表的大小约为1.5tb，最好的方法是跨节点和线程并行运行。Spark JDBC是该任务的完美候选者，但为了实际并行提取，它需要设置分区列、下限/上限和分区数选项。为了使提取操作更容易，我考虑添加一个分区列，它将是row_number()函数，并分别使用MIN()和MAX()作为下界/上界。然后，运营团队只需要提供要拥有的分区数量。问题是HANA耗尽了内存，并且很可能row_number()在引擎上的开销太大。我只能想象有100多个线程在每次fetch期间运行相同的查询，以应用where过滤器并检索相应的块。所以我的问题是，如果我禁用谓

浏览 25提问于2020-09-15得票数 0

1回答

在R中使用RJDBC导入数据时定义列类

r、import、hana、rjdbc、dbml

我正在尝试从R中的HANA数据库导入一个非常大的数据集。RJDBC包的一个问题是，所有包含字符的列都被加载为字符列类型。在我们的例子中，将列作为一个因子加载会更有效，因为只有几个唯一的值。是否可以在RJDBC调用中的某个地方定义col类，以及col类转换是在哪里执行的？如果在HANA中执行到因子的转换，那就太好了，因为这将减少必须传输到R的GB的数量。示例代码： dbFetch(dbSendQuery(conn = hana_connection, statement = 'select CHAR_COL FROM TABLE_NAME')) 在文档中，他们讨论的是所需的DBM

浏览 7提问于2017-07-31得票数 0

1回答

创建散列键只能有两个可能值的全局辅助索引

amazon-dynamodb

最近，我一直在尝试为我在哈希键方面遇到的某个问题创建一个变通方法。在我的场景中，我有一个表，其中包含用户的基本配置文件信息。包括“性别”。'gender‘属性指定它是男性还是女性(m，f)..有时我只需要询问男性。考虑到当dynamodb执行其散列函数时，相似的散列键解析到相同的物理分区，并且我可能最终重载单个分区，因为只有两个可能的不同值，我是否应该创建一个全局辅助索引(使用'gender‘作为散列键)来执行这些查询

浏览 0提问于2016-05-26得票数 0

1回答

几个Postgres分区问题(层次划分、散列、PK顺序)

postgresql、index、partitioning、hashing

我对Postgres和RDBMS分区非常陌生。关于分区的性能好处，我有几个相关的问题。背景:我正在尝试修复一个4列表中超过3亿行的慢速批处理查询。PK位于所有列上，未位于PK开头的3列也有单列索引。这些索引正在失去控制，它们比所有RAM都大，是底层数据大小的3倍。成批有规律地读写数亿行，而且速度很慢。我已经做了/理解的事情:我分析了代码，并确定在SELECT WHERE子句中只使用第一列和最后一列。除了INSERTs之外，没有其他查询访问此表(除了一个将被分区删除取代的DELETE )。因此，我已经知道我可以删除这三个索引中的两个，因为它们是未使用的，这将导致索引大小减少，索引减少，并有

浏览 0提问于2021-07-11得票数 1

回答已采纳

1回答

为什么必须在Grace hash Join的分区和探测阶段使用不同的哈希函数？

algorithm、join、hash

既然无论如何都会有模运算，为什么我们需要不同的散列函数呢？

浏览 0提问于2019-04-05得票数 0

1回答

如何在linux中合并或扩展卷？

linux

我有一卷vol1类型的ext4(256 G)，它几乎已经满了。我有另一个vol2类型的ext4，它是完全免费的。 sdb LVM2_member └─hana2-hanalv ext4 sdc LVM2_member └─hana2--extend-hanalv--extend ext4 和 LV VG LSize hanalv h

浏览 0提问于2017-08-27得票数 1

回答已采纳

1回答

Apache Cassandra多个分区密钥还是单个计算密钥？

cassandra、primary-key、cql

我是Apache Cassandra的新手，有一件事我很难理解，那就是我是应该有一个包含多个分区键的表，还是应该有一个计算键(在应用层计算)。在我的特定情况下，我有16个分区键k1...k16，这使得单个数据元素是惟一的。有了几个分区键，我需要在我的select语句中提供它们，我同意这一点，但是这样做在存储和/或性能方面有什么优缺点吗？我对此的理解是，存储空间可能更大，但分区键是“人类可读的”，并且可能会被此数据的其他客户端查询。我假设cassandra在我的分区键上计算一些散列，不管它是单个值还是多个值。我的问题是，对于拥有多个分区键或单个应用程序计算的分区键，是否存在存储/性能问题或

浏览 0提问于2016-05-12得票数 2

3回答

Scala -星火重新分区没有给出预期的结果

scala、apache-spark

我想根据一个列X重新划分我的星火数据。假设X列有3个不同的值(X1、X2、X3)。不同值的数量可能有所不同。我希望一个分区只包含一个值为X的记录。即。我想要3个分区，其中1个有记录，其中有X=X1，其他用X=X2，最后用X=X3。我有来自数据查询的唯一的X的钱包 val uniqueList = DF.select("X").distinct().map(x => x(0).toString).collect() 它正确地给出了唯一值的列表。为了重新划分我正在做的事情 DF = DF.repartition(uniqueList.length, col('

浏览 2提问于2020-07-12得票数 0

回答已采纳

1回答

write()参数必须是字符串，而不是pyhdbcli.ResultRow

python、hana

我在Notebook中使用HANA HDBCLI驱动程序连接到HANA表；该表包含VARCHAR大型列，我正尝试使用sql游标连接访问该列。这是代码，VARCHAR大型列是xml字符串，我想将这个VARCHAR XML字符串的内容存储到XML文件中，这是我写的代码。 HANA连接工作正常，下面的代码编辑了代码。我在将结果集加载到xml文件时遇到以下错误。 write()参数必须是字符串，而不是pyhdbcli.ResultRow 你能告诉我我做错了什么吗?对不起，我是Python的新手。 cursor = conn.cursor() sql="SELECT CDATA FROM _s

浏览 14提问于2021-06-14得票数 1

回答已采纳

1回答

如何将巨大的表数据写入文件\ Informatica 10.x

oracle、oracle-sqldeveloper、informatica、sql-execution-plan、informatica-powercenter

我创建了Informatica流其中，我需要将数据从表中读取到只包含empids的一个列。但是，列可能包含重复的需要从下面的查询中写入不同的值来进行文件。查询: select distinct emp_id from employee where empid not in ( select distinct custid from customer ); 我在Source Qualifier中添加了上面的查询 employee表包含：5 百万条记录和customer表包含：20 968681

浏览 9提问于2022-09-08得票数 0

2回答

Oracle 11g复合分区-范围|哈希

sql、oracle、partitioning

我正在尝试创建一个表，并按范围对其进行分区，然后按散列进行子分区。但是我得到了一个错误。我怀疑脚本中有什么地方错了。当我们做范围分区时，我们可以为散列指定不同数量的子分区，就像我的例子中的(分区OTHER_1有三个子分区，而所有其他分区都有两个)。 CREATE TABLE ACCOUNTHOLDER_P (id INT, purchased DATE, OBJECT_TYPE VARCHAR2(50), PHONE_NUMBER VARCHAR2(50)) PARTITION BY RANGE (OBJECT_TYPE) SUBPARTITION BY HASH(PHONE_NUMB

浏览 5提问于2013-06-18得票数 1

2回答

用每列的动态分区数按列触发重新分区

apache-spark

如何根据列中的项目数对DataFrame进行分区。假设我们有一个有100个人的DataFrame (列是first_name和country)，我们希望为一个国家的每10个人创建一个分区。如果我们的数据集包含来自中国的80个人，来自法国的15人，来自古巴的5人，那么，我们将需要中国的8个分区，法国的两个分区，古巴的一个分区。以下是无法工作的代码： df.repartition($"country")：这将为中国创建一个分区，为法国创建一个分区，为古巴创建一个分区。 df.repartition(8, $"country", rand)：这将为每个国家

浏览 2提问于2019-10-08得票数 12

3回答

同一分区键在DynamoDB中的数据分布

amazon-web-services、amazon-dynamodb、distributed-system、database、nosql

据我所知，DynamoDB试图将具有相同分区键的项放入相同的分区。我的问题是，当分区已满并被分成两个不同的分区时，散列是如何工作的？例如，一个表有一个分区键A，DynamoDB将分区键为A的所有项都放到同一个分区P中，然后P已满，dynamo会将P拆分为P1和P2，现在客户端插入了一个带有分区键I的新项A，发电机如何决定插入哪个分区(即D9和D10)来插入D11

浏览 0提问于2017-07-08得票数 5

2回答

mysql 7列主键与1列md5唯一约束

mysql、indexing、unique、varchar

我有一个非常大的表，它目前大约有7000万行，并且每天都在以数千行的速度增长，这个模式现在每天都会翻转，所以我正在转移到一个分区表并重新设计ddl。这个表基本上是一个非空整数的集合(有些是中的，有些是INT，有些是极小的)，它需要对一组7列(表中的列更多)有一个唯一的约束，这是非常昂贵的，并且进一步增加了索引文件的大小，因为我从来没有通过它检索，我宁愿丢弃它，并以某种方式MD5/也许简单地连接这些值。还不知道。问题是，唯一可以容纳如此大的唯一数字的列类型是varchar，我在质疑这个PK是否真的会更好？总之，由于我将有一个主键'part_key‘(site_id，id)，所以我将不

浏览 0提问于2009-10-14得票数 1

1回答

散列总救助

sql-server、execution-plan、aggregate、database-internals、hashing

在聊天讨论中出现的一个问题：我知道哈希加入紧急救援在内部切换到一种嵌套循环的东西。对于散列聚合紧急救助(如果可以的话)，Server会做些什么？

浏览 0提问于2019-07-17得票数 10

回答已采纳

1回答

在USql中按& Clustered & Distributed分区-需要知道它们的含义以及何时使用它们

u-sql

我可以看到，在USQL中创建表时，我们可以使用Partition By & Clustered & Distributed By子句。根据我的理解，分区将存储相同键(我们在其上有分区)的数据在一起或更接近(可能在后台的相同结构化流中)，因此当我们在连接、过滤中使用该键时，我们的查询将会更快。集群是-我猜它将这些列的数据存储在一起或更接近于每个分区。而分发是某种方法，如Hash或循环-在每个分区中存储数据的方式。如果您有整型列，且经常在某个范围内查询，请使用range，否则使用散列。如果您的数据不是均匀分布的，那么您可能会面临数据倾斜问题，因此在这种情况下使用循环调度。问

浏览 0提问于2017-11-23得票数 2

1回答

如何使用SQL外部连接高效地连接大型表

sql、performance、oracle、join、oracle10g

Oracle 10g 64位Red Hat Enterprise Linux 5 64位我目前可以访问一个标准化的第三方数据库。这些表有大量的数据，我的需求是通过连接许多表来公开一个物化视图。表1: Example_Master列: MasterID (VARCHAR2(250)) MasterName (VARCHAR2(250))行:9000万个主键: MasterID 表2: Example_ChildA1列: ChildA1ID (VARCHAR2(250)) MasterID(VARCHAR2(250))行:2500万行表3: Example_ChildA1ID列: Child

浏览 0提问于2013-03-19得票数 1

5回答

什么是Hash和Range主键？

hash、amazon-dynamodb、primary-key、database、nosql

我无法理解文档中的范围/主键它怎麽工作? 它们所说的“散列属性上的无序散列索引和范围属性上的排序范围索引”是什么意思？

浏览 0提问于2014-12-06得票数 296

回答已采纳

1回答

为什么在重新分区一个Spark时，我会得到这么多空分区？

apache-spark、pyspark、apache-spark-sql、partitioning

我想在3列上划分一个数据格式"df1“。对于这3列，这个dataframe正好有990个唯一的组合： In [17]: df1.createOrReplaceTempView("df1_view") In [18]: spark.sql("select count(*) from (select distinct(col1,col2,col3) from df1_view) as t").show() +--------+

浏览 1提问于2018-06-05得票数 6

回答已采纳

1回答

表分区的限制(在PostgreSQL中)

postgresql、partitioning、sharding

我有以下用例(PostgreSQL，目前是v9，但我计划升级到最新版本)。我有一个数据仓库应用程序，它有一个具有大量列的中央表，其中两个列是JSONB列。对于数据仓库应用程序，我在中央表上有许多索引，大约每个正在运行的查询类型都有一个索引。中央表有一个case列，该列包含一个整数值，并标识一个数据子集。导入之后，特定情况的记录是不可变的(但我可能需要清除一个案例的所有记录，并偶尔重新导入它)。对于每个病例，我有~100 ~3M记录(几乎是双峰分布，70%构成~100 K，30%构成~ 3M记录)。我目前有一千宗个案，预计每年会增加一千宗。 95%的查询都是一个单一的案例。在所有查询

浏览 0提问于2019-06-05得票数 0

2回答

在存储数据时，如何在蔚蓝表中加密PartitionKey和RowKey？

azure-table-storage

我有一个包含多个列的蔚蓝表，并且能够成功地加密这些列中的数据。我唯一的问题是我不能加密PartitionKey和RowKey。我使用了这个文档来设置加密。除了PartitionKey和RowKey之外，它工作得很好。 [EncryptProperty] public new string PartitionKey { get; set; } [EncryptProperty] public new string RowKey { get; set; } 尝试了上面的方法，但它不是加密分区和行密钥。任何帮助都是非常感谢的。

浏览 0提问于2019-02-16得票数 0

回答已采纳

1回答

DB2表分区

db2、partitioning、db2-luw

DB2 LUW V11.1 Unix 12操作系统 1)创建分区时，分区列是否需要为not null？ 2)假设您对定义为日期的列进行分区，该列可以为空。每行可以分配四个分区。如果插入的行为null，那么该行将插入哪个分区？任何见解都将不胜感激。谢谢

浏览 6提问于2018-08-01得票数 0

1回答

根据表达式在Boost.Hana中是否有效，如何筛选类型的元组？

c++、boost、metaprogramming、boost-hana

在一个简化的示例中，我在元组中有两个类型，我希望创建另一个元组，它只包含表达式有效的类型(在本例中，我使用的是+运算符)。我的尝试是这样： #include <boost/hana.hpp> #include <boost/hana/experimental/printable.hpp> #include <iostream> namespace hana = boost::hana; struct foo {}; const auto result{hana::filter(hana::tuple_t<int, foo>, [](au

浏览 4提问于2016-10-29得票数 2

回答已采纳

1回答

ORA_HASH能否提高连接/处理性能

oracle、oracle11g、ora-hash

我拥有(相对) 11G数据仓库的基本访问权限。我做的一些处理包括通过一些计算将大表连接到大表，或者向基本数据集添加额外的列。我通常将数据放入我自己的模式中进行计算，但是仓库处理能力有限，一些查询需要很长时间，因为大多数工作涉及影响或将数据连接到表的所有行( explain计划上的大量全表扫描！)。我的问题是，如果我有一个引用编号作为两个表的主键，如果我也使用这个引用编号的散列版本，我会看到任何性能提高吗？如果没有，有没有其他方法可以在这些情况下提高性能？

浏览 3提问于2013-06-11得票数 0

1回答

何时在Oracle中使用哈希分区

oracle11g

在我的项目中，表数据不容易用于范围分区，但出于性能和可管理性的原因，我想进行分区。表中包含有关用户在零售领域的信息，如用户id、用户名、电子邮件、地址等，所以我可以继续在用户id列上创建哈希分区吗？请指教谢谢你，斯雷尼瓦斯

浏览 1提问于2014-12-17得票数 0

回答已采纳

1回答

如何在cassandra中添加多个列作为主键？

cassandra

我有一个包含数百万条记录的现有表，最初我们有两列作为分区键和聚集键，现在我想在表中添加另外两列作为分区键。多么?

浏览 0提问于2015-09-18得票数 2

1回答

是否可以将值添加到postgresql 11分区列表

postgresql、partitioning

我想使用列表分区来根据客户id列的值对一个表示服务订单的大型表进行分区。当向系统中添加新客户时，我希望能够将该客户添加到与现有分区相关的值列表中。我认为有一种相对简单/快捷的方法可以做到这一点，因为不需要移动现有的行。从本质上讲，它看起来就像是更改(可能是通过删除和添加)子表上的约束。但我在文档中找不到实现这一点的参考资料。我目前使用的是aws rds和postgresql版本11.5，但可能会更新。

浏览 14提问于2020-06-06得票数 1