腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
优化
数
十亿
个
不同
键
的
分区
、
、
、
、
我每天都在用PySpark处理一
个
文件,用来保存有关网络设备导航
的
信息。在每个月
的
月底,我想要使用窗口函数,以便对每个设备进行导航。这是一
个
非常慢
的
处理,即使有很多节点,所以我正在寻找方法来加速它。 我
的
想法是对数据进行
分区
,但我有20亿
个
不同
的
键
,所以partitionBy似乎并不合适。即使是bucketBy也可能不是一
个
好
的
选择,因为我每天都创建n存储桶,所以
浏览 16
提问于2019-05-10
得票数 0
3
回答
雪片中
的
搜索
优化
与聚类
键
有人能解释我们什么时候对表使用搜索
优化
和集群
键
,还是两者都使用?我看到如果我们让他们两
个
都能的话,我们就会失去学分吗? 谢了,西恩
浏览 0
提问于2021-03-17
得票数 1
回答已采纳
2
回答
数据中kafka主题分词
的
数量和
不同
键
的
数目
、
、
我想使用
键
/值模式写作卡夫卡,以保持相同
的
顺序,数据写入,同时阅读。我
的
问题是,主题中
的
分区
数
是否等于传入数据中
的
不同
键
数
。我已经知道,使用
键
/值模式,具有相同
键
的
数据将转到同一
个
分区
。因此,如果
分区
的
数量不等于数据中
的
不同
键</
浏览 3
提问于2020-02-18
得票数 0
回答已采纳
2
回答
删除具有外
键
约束
的
大表
的
最佳方法
、
、
如何清除具有另一
个
表
的
外
键
的
十亿
条记录
的
表?一
个
分区
表和子表是否应该使用
分区
交换?
浏览 0
提问于2018-02-02
得票数 5
1
回答
如何使用GUID从Server表引用Azure表数据
、
、
、
我想使用SQL Server和Azure表在我
的
站点上实现聊天功能。那么,这是怎么回事?在读了关于Azure桌子
的
文章之后,我是不是应该 在Server中存储GUID,它表示我
的
Azure表中
的
分区
键
?为每条消息存储一
个</em
浏览 2
提问于2018-11-02
得票数 0
回答已采纳
2
回答
Spark-Cassandra:如何有效地限制
分区
、
、
、
、
经过几天
的
思考,我仍然被这个问题困扰着:我有一
个
表,其中"timestamp“是
分区
键
。该表包含数
十亿
行。实现这一目标的最有效方法是什么?SparkSQL是否足够聪明,能够
优化
这样
的
东西
浏览 0
提问于2016-03-17
得票数 0
1
回答
Cassandra
分区
问题
、
、
、
、
我正在使用带有数
十亿
条记录
的
cassandra,并且我想存储按日期分组
的
数据。问题是,我应该为用户查询
不同
时区
的
记录,但它通过GMT将数据存储在
分区
键
中。为所有时区保存
不同
的
日期字段并创建大量视图是否正确?这将使db扩展到巨大
的
大小。
浏览 2
提问于2018-05-03
得票数 0
回答已采纳
1
回答
cassandra中
的
分区
计数
、
tablestats查询中
的
分区
数
(估计值)表示什么?当我们在多节点cassandra
的
不同
节点上查询表时,我们在每个node.Does上看到
不同
的
稳定计数值和
分区
数
--这表示特定节点
的
行数/
分区
键
数
?
浏览 0
提问于2018-11-16
得票数 2
回答已采纳
2
回答
蜂箱
分区
、火花
分区
和加入火花-它们之间
的
关系
、
、
、
试图理解Hive
分区
是如何与Spark
分区
相关联
的
,最后提出了一
个
关于联接
的
问题。我有两
个
外部Hive表;这两
个
表都由S3桶支持,并由date
分区
;因此,在每个桶中都有带有名称格式date=<yyyy-MM-dd>/<filename>
的
键
。
分区
等于S3中
的
对象
数
?假设这两
个
行类型有以下模式: Tabl
浏览 4
提问于2018-04-25
得票数 5
2
回答
CosmosDB中
的
分区
密钥Vs文档Id
、
、
、
、
如果我存储文档而不提供
分区
密钥,那么在这种情况下,documentId将被视为逻辑
分区
的
分区
密钥吗?
浏览 2
提问于2019-06-19
得票数 2
回答已采纳
3
回答
将数据放置在Cassandra中
的
特定节点中
、
、
在Cassandra中,我们能否“修复”某个特定
分区
键
所在
的
节点以
优化
获取? 这是对特定
键
空间和表
的
优化
,其中一
个
数据中心编写
的
数据永远不会被
不同
数据中心上
的
客户端读取。如果一
个
特定
的
分区
键
只在特定
的
数据中心中被查询,那么是否有可能通过将其“固定”到写入它
的
同一数据中心
的
节点
浏览 3
提问于2014-07-09
得票数 3
回答已采纳
1
回答
错误
的
分区
键
会导致CosmosDb中
的
过度
分区
吗?
、
Microsoft
的
分区
密钥选择建议鼓励选择一
个
将导致100或1000
个
分区
的
键
。总
的
主题是“越多越好”。 我
的
问题是,CosmosDb是否会受到
分区
键
的
影响,导致过多
的
高度分段
的
逻辑
分区
?我正在考虑使用一
个
分区
密钥,它定义了一
个
工作组id,它也等同于一
个
客
浏览 6
提问于2017-08-11
得票数 1
1
回答
唯一
的
ID是CosmosDB
的
最佳
分区
键
我试图为具有客户ID (每个客户
的
唯一值)和客户城市(在北美,产生数千
个
可能值)
的
CosmosDB表确定最佳
分区
键
。因此,我
的
问题是: 是每个
分区
键
散列,每个
分区<
浏览 2
提问于2020-08-02
得票数 3
1
回答
不同
密钥存储在同一
个
分区
中
的
Kafka消息
、
、
我试图用
不同
的
密钥存储
不同
分区
的
消息。类时,它总是存储在单个
分区
中。根据文档,DefaultPartitioner使用message key hash code查找
分区
。我也看到了这个问题,但在0.9.x版本
的
Kafka客户端库中找不到ByteArrayPartitioner类。如果我手动创建一
个
带有
分区
的
主题,那么它可以正常工作。
浏览 2
提问于2016-10-07
得票数 1
回答已采纳
2
回答
卡桑德拉有限计数
我需要找出卡桑德拉表中
的
记录
数
是否大于某个数字,例如10000。可能会有数
十亿
条记录,甚至只有数千条。下面这似乎不对,我认为它会失败或非常缓慢,对大量
的
记录。从sourceId = {id}和时间戳< {endDate}和时间戳>{startDate}
的
数据中选择计数(*); 从source
浏览 1
提问于2020-02-19
得票数 1
1
回答
Cassandra柱族限制
我想知道keyspace中有没有列族计数
的
限制?那么在columnfamily中有没有行限制呢? 哪种模式更好?
浏览 0
提问于2013-08-27
得票数 0
1
回答
MySQL -重建
分区
与
优化
分区
、
、
我在我
的
MySQL 5.1.41中对表进行了
分区
化,其中包含了大量
的
数据。最近,我删除了很多数据,这些数据导致了大约500 GB
的
碎片,但是
分区
中有很多数据。为了将这个空间恢复到操作系统,我不得不对
分区
进行碎片整理。我提到了MySQL文档,,它把我和下面的声明混淆了, 重建
分区
:重新构建
分区
;这与删除
分区
中存储
的
所有记录,然后重新插入它们具有相同
的
效果。
优化
分区
浏览 6
提问于2016-02-15
得票数 1
1
回答
卡桑德拉不均匀
分区
和热点
我对卡桑德拉
的
分区
分配有一
个
疑问。例如: 有三
个</e
浏览 3
提问于2015-04-21
得票数 2
2
回答
SQL社交网络,保存消息
的
正确方法?
我正在构建一
个
社交网络,现在我遇到了一
个
问题。拥有一
个
数据库,并为每个新用户创建新
的
表(用于消息)?ENUM ('Y', 'N') NOT NULL DEFAULT 'Y', from_id int(32)或, 将所有邮件保存在一
个
表中(使用INDEXes)如果有
十亿
行怎么办?
浏览 0
提问于2012-02-14
得票数 1
回答已采纳
1
回答
Azure表存储:一次扫描一
个
分区
、
该表中
的
每个实体都将拥有所需
的
信息,以便告诉工作人员角色将其中
的
一些信息写入特定表
的
分区
。工作员角色正在读取
的
表
的
同一
个
分区
中
的
实体可以批次在一起(将写入同一
个
分区
)。我不知道表中包含worker角色信息
的
分区
键
。是否有一种方法可以完成
不同
时从
不同
分区
抓取实体
的</e
浏览 3
提问于2014-03-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券