Spark-Cassandra在使用IN作为复合分区键时非常慢

文章/答案/技术大牛

发布

2回答

、、、

我有一个带有复合分区键的cassandra Table (time_bucket时间戳，节点整型)。如果我的spark作业在每次运行时都选择所有记录，则作业在2分钟内完成。但是如果我使用以下命令进行查询： sc.cassandraTable(keyspace_name,table_name).where("time_bucket = ?我的集群有6个节点，我使用的是DSE 4.8.9。每个executor使用8个内核和20 of内存。增加这些

浏览 0提问于2017-01-26得票数 2

1回答

Cassandra客户端分区键计算以节省磁盘空间

、、

我有一个表，它有一个由五个大字段组成的复合分区键。我注意到，由于这五个字段的大小，这个表的SSTable索引文件非常大。实际上，我不需要从我的表中检索这些字段的值，因此为了节省空间，我想将它们在客户机中散列为单个值，然后使用该单个值作为分区键，就像Cassandra将复合分区键映射到单个令牌值时所做的那样。我想我想要使用的类型是uuid，所以我

浏览 5提问于2015-08-17得票数 1

回答已采纳

1回答

Cassandra是否将来自复合键的列存储在不同的节点上

、、、

我正在阅读上Datastax站点上的文档，我看到：“当您使用复合分区键时，Cassandra将嵌套括号中的列作为分区键，并在多个节点上存储一行的列。”，颜色和short_hair)是如何工作的，它们实际上是如何作为给定行的连续“列”存储在磁盘上的。对于给定的block_id和breed，这个复合键不只是创建一个类似于"block_id +位相“的分区<e

浏览 0提问于2013-07-15得票数 0

1回答

DynamoDB排序和分页

、、、

这是我的查询参数，control_id是GSI，时间戳作为sortkey，id是主键。我想我需要的是在同一个查询中使用两个索引，因为现在这就是我得到的ValidationException: The provided starting key is invalid，如果我删除了ExclusiveStartKey

浏览 2提问于2020-06-04得票数 2

1回答

未能使用dynamoDB (JS)从GetItemCommand获得项目

、、

我已经成功地使用AWS创建了一个表(所以没有发出凭据)，如下所示：const newTable = async () => { console.log(data); console.log(err);};我使用AWS控制台将一个新项插入到表中，现在我尝试使用SDK访问它，如下所示：const getItem = async ()

浏览 11提问于2022-08-10得票数 0

1回答

已分区表上的复合主键和外键

、、、、

我们有一个数据库，其中有几个表是分区的。这些表的主键(PK表示简洁)具有以下形式其中transaction_date是分区键，id是唯一的整数列。如果我们不对表进行分区，那么我们将只使用id作为PK。我们有几个其他表需要外键(FKs)来引用这些分区表。我无法决定是使用复合FKs，引用PK的两列，还是使用单列FKs，引用唯一索引支持的id列。复合</

浏览 0提问于2018-03-16得票数 7

回答已采纳

1回答

为什么Cassandra在使用复合分区键时这么慢？

、、、

GB的tsv文件，有两列，第一列是a_id，第二列是一组逗号分隔的b_id，问题是，我需要能够检索b_id的所有a_id，所以我将文件加载到Spark中，解析它，我将其平面映射，并将其插入到由b_id分区的该过程大约需要4个小时，每个分区10到15分钟，加载所有200个M_id，每个平均加载20个b_id，因此总共大约4B行。问题是，由于一些b_id非常常见，其中一些分区非常大，最大的分区有170万个单元。因此，我尝试在a_id上计算散列，并将新列添加到我正在使

浏览 1提问于2016-11-15得票数 0

1回答

Cassandra中的分区键列

、、、、

如果我决定采用下面的分区策略，我想确切地了解什么将提高我的性能。假设我有一个歌曲表，我想将艺术家定义为分区键。这张桌子将逐渐增长。我想把艺术家id作为分区键，因为在CQL中，有必要在where子句和我的ui中提到分区键，这是我可以显示这5首歌曲的唯一值。是否可以在增长时继续使用相同的分区键？

浏览 2提问于2015-05-07得票数 2

回答已采纳

2回答

使用宽列存储构建复合主键是正确的模式吗？

、、、、

HBase和Cassandra是作为宽列存储构建的，使用行和列的概念。这可以按以下方式重新表示。

浏览 4提问于2015-09-11得票数 1

回答已采纳

1回答

复合列PartitionKey在Cassandra中如何工作

我试图找出复合分区键可以提供哪些优势。看下面著名的气象站例子。

浏览 1提问于2016-06-01得票数 1

回答已采纳

1回答

现场定位cassandra分区密钥策略

、、

我用卡桑德拉观看了一个关于优步实时位置存储的，并对分区密钥感到好奇。我最初的想法是有以下几个领域：在查询时，我希望查询给定行程的位置数据，以及给定驱动程序的潜在位置数据。创建一个复合键有意义吗？我希望每个节

浏览 12提问于2022-02-02得票数 1

回答已采纳

1回答

如何在java的Cassandra中注释/使用复合分区键？

、、

我知道，当分区键很简单(由一列组成)时，我可以通过注释@PartitionKey来使用分区键。如果分区键是复合的，我如何进行相同的操作。我在datastax文档中找不到这方面的任何东西，google也帮不上忙。

浏览 0提问于2015-06-30得票数 4

回答已采纳

3回答

卡桑德拉:当桌子有紧凑的存储空间时，我如何在卡桑德拉的第三个主键前选择一行？

、

418e-b21b-f5599c7819fc' allow filtering; 然后我使用这样的第二个索引

浏览 5提问于2018-01-10得票数 0

1回答

关于AWS DynamoDB 'Keys‘的一些基本疑问

、、、

我在任何地方都见过这些术语-是分区键和主键是一回事吗？它们是什么？和排序键和二级索引一样吗？如果我添加辅助键，它将扮演什么角色？另外，在创建DynamoDB表时，我添加了'Order ID'作为主键--现在，我需要用'User ID'替换它，并将'Order ID‘作为辅助键。因此，Or

浏览 4提问于2020-05-30得票数 1

1回答

Azure表:当实体只有一个键时，如何使用分区键和行键？

、、

我的理解是，在Azure表中，每个实体都有一个由分区键和行键组成的复合键，而分区键应该用作一个实体被分组的类别，行键是类别中特定实体的唯一id。但是，我想存储一个非常简单的实体组成的表，其中只有一个简单的键，而且我不确定分区键和行键对于这样一个实体应该扮演什么样的角色。(即它们都属于相同的默认类别)使用相同的(可能是空白的)<e

浏览 0提问于2014-01-08得票数 6

7回答

在Cassandra中分区密钥、复合密钥和聚类密钥的区别是什么？

、、

我一直在网上阅读文章，以了解以下key类型之间的差异。但这对我来说似乎很难理解。举例肯定有助于更好地理解。partition key, clustering key

浏览 1提问于2014-07-25得票数 638

回答已采纳

2回答

大事实表与划分关键困境

、、、

此表没有分区，查询响应非常慢。我计划对表和索引进行分区。该表有一个标识列，该列是主键，并在其上有一个聚集索引。上面还有其他的非聚集索引，但我不会在这里详细介绍。列中，我试图分区不是主键的一部分，但不是null，这给我造成了一个小小的困境。我有两个选择。秒选项是删除identity列上的聚集索引，并使其成为唯一的非聚集索引。这个索引不能被分区对齐

浏览 0提问于2012-11-09得票数 6

1回答

合并查询运行速度非常慢

、、

我正在使用Oracle DB，并尝试使用spring jdbc temple发出合并查询。NOT MATCHED THEN VALUES ('id','fid', 'some_val')表中详细信息如下：已在记录creationDate上分区</e

浏览 1提问于2013-11-14得票数 2

1回答

使用复合键忽略insert上的重复

、、

是否有一种使用某些列的复合键插入忽略的方法？INSERT IGNORE INTO `table1` WHERE `col_a` = 1 AND `col_b` = 2; 其中有一个col_a_col_b的复合键。现在，我已经创建了一个PHP函数，用于在插入之前在副本之间切换，但是它非常慢。我想知道SQL是否能独自完成它？

浏览 2提问于2014-07-13得票数 0

回答已采纳

1回答

如何在cassandra中使用rowUpdateBuilder来写入包含复合分区键的审计表？

、、、

我在跟踪这个：但是，在我的用例中，我有一个具有复合分区键(主键(col1，col2，col3，col4) )和多个集群列的审计表。我已经能够通过添加audit.clustering(值)来添加集群列，但是我无法弄清楚如何实现复合分区键。如果将rowUpdateBuilder ()作为update.partitionKey.partition ()作为RowUpdateBuilder的第三个参数传递，则rowUpdateBuilder

浏览 1提问于2017-06-21得票数 0

回答已采纳

点击加载更多