我有一张大桌子,我想把它隔开。要对其进行分区的字段是包含编码值的字符串,但显示为作为字符串存储的整数。“数字”由四个数字组成。前两个是我想要分割的。例如,字段值"1298“需要使用值12进行分区,我认为这对于具有自定义散列函数的散列分区来说是一个很好的使用。
对于某些参考:经常以... WHERE TheField = '0123'或... WHERE TheField IN ('0123', '0145', '0232')的形式对此列进行查询。
手动将每个值放入每个分区是不切实际的,因此我认为使用自定义散列函数是一种实用
我们是SAP HANA DB的新手。我们有25-30表新形成的申请。表中的最大记录数约为一百万条。数据是按日期维护的。我们应该进行白日分区吗?我们知道这个量要小一些。我们只维护特定时间段的数据,因此在一段时间后,将很容易删除分区。这些表的日增长约为5K(最大)。是否可以在列数据库中进行分区,或者目前不需要分区。删除记录会产生与删除分区相同的性能吗?
诚挚的问候
尝试为MySQL 5.5 (InnoDB)表实现分区策略,但我不确定我的理解是否正确,或者在创建分区时是否需要更改语法。
表"Apple“具有10个磨机rows...Columns "A”到"H“PK是列"A”、"B“和"C”。
列"A“是一个字符列,可以标识200万行的组。我认为列"A“将是尝试实现分区的一个很好的候选者,因为我按该列进行选择和删除,并且在不再需要数据时实际上可以截断该分区。
我发出了这个命令: ALTER TABLE Apple PARTITION BY KEY (A);
使用以下命令查看分区信息后:从INFO
我创建了Informatica流
其中,我需要将数据从表中读取到只包含empids的一个列。
但是,列可能包含重复的需要从下面的查询中写入不同的值来进行文件。
查询:
select distinct
emp_id
from
employee
where
empid not in
(
select distinct
custid
from
customer
);
我在Source Qualifier中添加了上面的查询
employee表包含:5 百万条记录和customer表包含:20 968681
我正在尝试创建一个表,并按范围对其进行分区,然后按散列进行子分区。但是我得到了一个错误。我怀疑脚本中有什么地方错了。当我们做范围分区时,我们可以为散列指定不同数量的子分区,就像我的例子中的(分区OTHER_1有三个子分区,而所有其他分区都有两个)。
CREATE TABLE ACCOUNTHOLDER_P (id INT, purchased DATE, OBJECT_TYPE VARCHAR2(50), PHONE_NUMBER VARCHAR2(50))
PARTITION BY RANGE (OBJECT_TYPE)
SUBPARTITION BY HASH(PHONE_NUMB
我想在3列上划分一个数据格式"df1“。对于这3列,这个dataframe正好有990个唯一的组合:
In [17]: df1.createOrReplaceTempView("df1_view")
In [18]: spark.sql("select count(*) from (select distinct(col1,col2,col3) from df1_view) as t").show()
+--------+