配置单元表联接:我有一个已分区的表，并希望与另一个表联接 - 腾讯云开发者社区

、、、、

当使用Sqoop从sql服务器或任何RDBMS数据库导入数据到hadoop时，我们可以使用增量追加或上次修改或一些自由形式的查询来获得新附加的记录或修改的记录。有没有什么办法可以让我们识别删除的记录？考虑到当记录被删除时，它将不存在于sql表中。一种解决方法是使用Sqoop加载整个表，并与配置单元中的前一个表进行比较。有没有其他最好的方法呢？

浏览 1提问于2017-01-11得票数 0

1回答

星星之火SQL和Cassandra联接

、、

我的Cassandra模式包含一个表，其中一个分区键是一个时间戳，一个parameter列是一个集群键。每个分区都包含10k+行。这是以每秒一个分区的速度记录数据。另一方面，用户可以定义“数据集”，而我有另一个表，其中包含“数据集名称”作为分区键，以及一个集群列，该列是引用另一个表的时间戳(因此"dataset“是分区键列表)。当然，我想做的事情看起来像是卡桑德拉的反模式，因为我想加入两个表。但是，使用Spark，我可以运行这样的查询并执行JOIN。 SELECT * from datasets JOIN data WHERE data.timestamp = dat

浏览 2提问于2016-02-14得票数 3

4回答

配置单元分区-如何删除null或hive_default_partition

、、

我在配置单元中遇到了配置单元默认分区(空分区)的问题。我将在这里简要地解释一下情况。我有一个蜂窝主表，数据摄取每天都会发生在这个表上。但不知何故，当数据被摄取到hive表中时，出现了一些错误，分区显示为_hive_default_partition_，或者在我的理解中是null分区。我需要从hive表中删除分区。(它是外部表)... 我正在使用hive版本1.1和CDH版本5.4.8.. 我尝试了下面的语法，但它对我不起作用。 alter table "tablename" drop partition(partn='_hive_default_partition_)

浏览 0提问于2016-03-02得票数 3

1回答

为什么SSMS在分区列上显示缺少索引的消息？

、、、

我有一个按列X划分的表。但是，SSMS显示缺少索引(Impact 80.23)：为以下查询在dbo.上创建非聚集索引[] select count(*) from table where X = 'xxx' 是否仍有必要在分区列X上创建索引？在一张大桌子上，它的密度会很低。编辑：我试过select max(x) from table。它比在非分区表上运行类似的SQL花费的时间长得多，该表在X上有一个索引。启用show statistics IO on后，它显示对分区表(没有X索引)的查询比具有索引的非分区表(扫描计数:1，逻辑读取:4)具有更多的扫描计数(170)和逻辑读取

浏览 2提问于2012-02-13得票数 1

2回答

MySQL只在一些行上左联接？

我有以下MySQL表：在这个表上，我希望离开联接另一个表，但只对带有action == 2或action == 3.的行。通过某种方式指定左联接部分，这是可能的吗?还是我需要做更多的选择和统一？编辑:具有action =1的行可以简单地包含来自左联接的空值。

浏览 3提问于2013-06-21得票数 0

回答已采纳

5回答

配置单元外部表-数据位置元数据存储在哪里？

、、、、

我正在Amazon EMR上使用配置单元外部表。这些表通常是分区的，每个分区指向S3中的不同存储桶。我正在使用MySQL进行配置单元元数据存储。我希望能够看到每个分区所指向的S3上的位置/存储桶。我已经查看了MySQL中的元数据表。我可以在那里看到分区信息，但没有任何指示数据实际位置的信息。此数据在MySQL中可用，还是可以通过配置单元命令获取？

浏览 1提问于2014-07-08得票数 3

2回答

不同Kafka主题上的分区是否位于同一个使用者(k8s pod)中？

我有一个要求，如果我希望能够从同一个使用者读取来自主题A的分区1和主题B的分区1的数据，我有一组使用者在不同的Kubernetes荚中运行。这两个主题都有5个分区，每个主题都有基于键的分区策略。因此，假设主题A上的分区1和主题B上的分区1用相同的键值键控，那么它们会在同一个使用者或pod上共享吗？如果是这样的话，那么我可以使用另一个主题的消息键从一个主题交叉引用数据。

浏览 3提问于2022-01-12得票数 0

回答已采纳

2回答

在Hive表hdfs文件夹中写入文件，并使其可用于从Hive查询

、、、、

我使用的是Spark 2.2.1，它有一个有用的选项，可以指定我想要在文件的每个分区中保存多少条记录；该功能允许在写入文件之前避免重新分区。但是，该选项似乎只适用于FileWriter接口，而不适用于DataFrameWriter接口:在这种情况下，该选项被忽略 df.write.mode("overwrite") .option("maxRecordsPerFile", 10000) .insertInto(hive_table) 当它以这种方式工作时 df.write.option("maxRecordsPerFile", 10000)

浏览 1提问于2018-06-06得票数 1

1回答

静态表视图-呼叫电话号码的公开指示器

、、

我将一个表视图设置为as static。它有4个单元格。前两个单元格被映射到另一个视图，因此工作正常，我希望其他两个手机或者呼叫一个电话号码，或者启动电子邮件。我已经有了这两个函数的代码。我只是不知道将单元格选择的操作映射到代码中的函数。当我右键单击单元格时，我只看到segue的push操作，但我想在代码中控制这一点。

浏览 0提问于2012-05-24得票数 0

回答已采纳

1回答

HDFS中来自twitter数据的配置单元查询

、、

我一直在关注这篇关于如何使用Hive分析推特数据的文章：我已经设置了flume来收集twitter数据并写入HDFS。我已经设置了一个指向相同HDFS位置的配置单元表。当我在配置单元中运行类似这样的命令时:从推文中选择entities.user_mentions.screen_name；我得到的响应如下: OK Time Time: 0.16秒。无论我运行什么查询，我都得不到任何结果。由于我不熟悉配置单元，我是希望在配置单元命令行中看到结果，还是必须从mySQL中挖掘结果。mySQL是metastore。

浏览 0提问于2016-11-14得票数 0

1回答

在蜂箱/黑斑羚中使用负载数据加载数据

、

我可以使用以下命令将数据加载到蜂箱中： LOAD DATA INPATH '/xx/person/a.csv' INTO TABLE person PARTITION (age = 30); 在上面的语句中，age=30是必须存储数据的分区。如果a.csv实际上有年龄列呢？是否有一种方法可以使单元格使用一个LOAD数据语句正确地将每一行a.csv插入到正确分区下的person表中？

浏览 1提问于2016-09-01得票数 1

回答已采纳

1回答

如何在MSSQL 2008中插入/选择而不锁定目标表？

我有一个进程，需要将许多行，可能是成千上万行，从一个暂存表复制到另一个将处理它们的表中。通常，我只想说 insert into production_table select * from staging_table 但是这个语句可能需要一个小时才能运行，因此为了不锁定处理表，我们使用客户端应用程序中的以下逻辑将接下来的1000行移动到生产表中： do { max_id = select max(id) from production_table where jobid = YYY insert into production_table (jobid, ...)

浏览 3提问于2013-01-06得票数 0

1回答

提供-Table或索引的Exchange分区未分区。无效语法

、、、

我有两个模式: TBCAM和AR_TBCAM。在TBCAM中有一个名为BKP_COST_EVENT的表，我对该表进行了分区，并将分区数据移动到AR_TBCAM模式中另一个名为BKP_COST_EVENT_P2016的简单表中。现在，数据已通过以下查询移动到AR_TBCAM模式 ALTER TABLE BKP_COST_EVENT EXCHANGE PARTITION P2016 WITH TABLE AR_TBCAM.BKP_COST_EVENT_P2016 INCLUDING INDEXES WITHOUT VALIDATION; 现在，我希望将分区数据返回到原始表BKP_COST_EVEN

浏览 30提问于2020-05-10得票数 0

回答已采纳

3回答

如何根据单元格的值在另一个工作表中查找特定单元格？

、、

我正在尝试读入一个名为operations的表，它看起来像这样 "id";"name"; "1";"LASER CUTTING"; "2";"DEBURR"; "3";"MACHINING"; "4";"BENDING"; "5";"PEM"; "6";"WELDING"; "7";"PAINT PREPARATION"; "8

浏览 1提问于2011-07-13得票数 1

回答已采纳

2回答

从oracle仓库表中删除10亿条记录

、

我有一个很大的表，是由某人从另一个表创建的，我想删除它。我没有truncate/drop table权限。最好的解决方案是什么？它在oracle中。现在，我计划给出一个简单的Delete * from table

浏览 0提问于2016-08-09得票数 0

1回答

在嵌套子查询中显示配置单元分区

、

我有一个按天分区的配置单元表(例如，20151001,20151002，...)。是否有一个配置单元查询，以一种可以在嵌套子查询中使用的方式列出这些分区？这就是说，我可以这样做： SELECT * FROM (SHOW PARTITIONS test) a where ... 该查询- SELECT ptn FROM test 返回与测试表中的行数相同的行数。我希望它只返回与分区数一样多的行(不使用DISTINCT函数)

浏览 1提问于2015-10-26得票数 1

1回答

截断命令(配置单元与SQL)

、、、、

我期望在SQL和HIVE中有相同的truncate行为。但这不一样。我想确认一下我是否理解错了。 1)在SQL中，执行以下命令drop table并再次创建。如果存在所有分区，则删除所有分区 mysql> truncate table t1; 2)在HIVE中，下面的命令只是从表中删除数据。它不会删除现有的分区。我们需要手动丢弃它。 hive> truncate table t1; 我发现了另一个问题，如果我们在分区表中添加列并对其进行更改。那么在向表插入覆盖数据时就会出现问题。找到的解决方法是删除表上的所有现有分区。这是配置单元(0.13版)中的问题吗？对HIVE和SQL使用t

浏览 1提问于2014-06-20得票数 0

1回答

具有多个值的Hive表中的分区？

、

我希望创建一个简单的单元分区表，并有一个sqoop导入命令来填充它。 1.表有4列，ID、col1、col2、col3。其中一列表示col2为int类型，只包含值1至10。我需要基于col2列对表进行分区，1到5个值数据应该在一个分区中，rest在另一个分区中。我目前正在尝试这个不起作用的地方:添加分区(col2=1，col2=2，col2=3，col2=4，col2=5)位置‘Part1 1’；完成之后，我需要使用来自我的sql服务器的sqoop导入来填充这个表。我试过很多种方法，但都做不到。有人能帮忙吗？

浏览 1提问于2018-10-11得票数 0

2回答

插入覆盖会删除配置单元中的数据和分区吗？

、、

我正在按年和月创建分区。假设目标配置单元表中存在前一个分区为year = 2018 and month = 10 and month = 11。现在，新的数据将只有year = 2018 and month = 11。所以我的问题是，插入、覆盖、删除month = 10的数据和分区吗？请给我一个解决方案，因为我也想删除month = 10的数据和分区。谢谢

浏览 0提问于2018-11-12得票数 0

1回答

如何使用母版表作为查找，在SSIS数据加载期间填充引用表中的外键

、、

如果我有一个包含以下列/格式的数据的excel文件 DeptName DeptLocation 描述我还为Employees提供了一个SQL表，其列如下 EmployeeId DeptId(外键) DeptLocation 描述然后是另一个具有以下列的SQL引用部门表 DeptId(主键) DeptName 部门表中已经填充了主数据。现在，我希望使用SSIS任务、excel源和OLE DB目的地使用excel文件中的数据填充Employees表。给定Excel文件中的DeptName，如何从部门表中查找对应的DeptId，并将其

浏览 1提问于2014-05-06得票数 0

回答已采纳

1回答

与表锁定有关的火花蜂巢插入

、、

只是一个简单的问题。我正在尝试使用1.6.0版本的Spark程序，该版本利用了Hive表上的并发加载。在insert中使用hiveContext.sql("insert . . .")语句是一种可行的方法，因为我希望在编写过程中确保表锁定，因为根据我在statement中看到的，在使用DataFrame保存操作时，没有确保表锁定和原子性。 “保存操作可以选择使用SaveMode，它指定如何处理现有数据。重要的是要认识到，这些保存模式不使用任何锁定，也不是原子性的。此外，在执行覆盖时，在写入新数据之前将删除数据。” 在访问/插入数据到指定的单元表时，我如何确保存储表的原子

浏览 0提问于2017-09-20得票数 0

回答已采纳

1回答

将10亿条记录从一个表复制到另一个表

我有Oracle数据库12和大文件的表空间是的我限制在120 my文件数据，所以我需要将我的表空间更改为大文件no，并为我的表空间创建多个数据文件。我需要将数据从旧表导出或复制到新表，但我的问题是，我有超过10亿条记录，我不知道将这个表复制到另一个表的最快方法是什么。 CREATE TABLE C##USER.READ ( DEVICEID NUMBER(38, 0) , THETIME VARCHAR2(20 BYTE) , THEH VARCHAR2(10 BYTE) , ENERGYEXPORT NUMBER(10, 0) , LOADPROFILE NUMBER(10

浏览 0提问于2021-04-26得票数 0

1回答

单元分区场景及其对性能的影响

、、

我想问一下关于单元分区的编号以及它们将如何影响性能。让我以一个真实的例子来说明这一点；我有一个外部表，它期望每天有来自多个源的大约500M行，并且它应该有5个分区列。有一天，这导致了250个分区，并期望保留1年将得到75K左右。我想这是一个很大的数字，因为当我检查时，蜂巢可以达到10K，但在那之后，表演将会很糟糕。(有人告诉我，每个表的分区不应超过1K )。主要是从这个表中选择的查询。他们中的50%应该使用分区的确切顺序。25%只使用1-3个分区，而不使用其他2. 25%仅使用第1分区。那么，你认为即使保留了一个月，这可能会很好吗？或者只有开始日期就足够了。假定正态分布，其余4列(

浏览 2提问于2019-10-27得票数 1

回答已采纳

2回答

SnappyData配置在一个物理服务器设置中的连接

、

我正在加入两个表，在一个服务器中配置有64 CPU核和512 1B内存的SnappyData中的大量行(目前为100 m1B)，并希望利用。然而，文档中的描述似乎意味着并置连接发生在每个节点级别。实际上，我需要的是类似于每桶级配置连接(或分区-连接)的东西，而且我没有充分利用服务器，因为CPU的总利用率在大多数情况下大约是10%或更少。对于join，我使用Rowstore和SQL语句。我使用单节点安装脚本(snappy-start-all.sh)设置SnappyData，其中包含一个引线、一个服务器和一个定位器，并进行了一些定制，以使用更多的mem和CPU核心： conf/引线 local

浏览 3提问于2017-04-18得票数 1

2回答

将表划分为将条目移动到另一个表

、、

我不明白分区如何或多或少地帮助我使用单独的表来存储旧的记录。我需要保持一个股票条目的列表，以及有关股票的历史记录。因此，在这里，我可以选择，如果某个股票被停用，我可以将该股票移动到另一个表，该表只有在用户希望看到旧数据时才能在报告时访问。另一个选项是对表进行分区，但是由于我对分区不太了解，所以我不确定这是否真的对我有帮助。每次从库存中删除库存记录时，都会访问库存记录。一旦剩余的数量达到0，则该项目需要保留在表中仅用于报告目的。新条目是在购买更多股票时创建的。我已经阅读了关于分区的dev.mysql文档。问题有人能遮住这上面的光线吗？这样做对吗？我们应该以不同的方式处理它吗？

浏览 0提问于2012-09-21得票数 5

回答已采纳

1回答

无法通过对象存储的OCI HDFS连接器从配置单元分区表中搜索任何数据

我尝试创建用于OCI对象存储的Hive外部表，但无法从hive分区表中搜索任何数据。查询select * from table_name limit 10;没有输出，只有配置单元分区表有问题。对于普通的非分区表，它的工作方式与预期一致。

浏览 1提问于2021-08-06得票数 1

1回答

单元格:在查询中强制执行where子句

、

我们有一个按日期划分的单元表，我们希望最终用户总是在查询中使用where子句，如果他们不使用它，它应该抛出异常。蜂巢里有什么设置，可以强制执行吗？

浏览 1提问于2017-03-16得票数 0

2回答

Oracle11g-分区的级联删除

、、、

我们有一个表，它以大约640万行/月的速度增长，并且我们定期(每月)删除一个分区。我们最近在这个表的主键上引入了一个连接表(带有级联删除)。这就带来了引用完整性的问题，在这种情况下，我们不能删除分区，因为联接表引用了其中的行。我们已经收到了让我们的应用程序代码这样做的建议，但是我们觉得这不是一个最优的解决方案。从那时起，我就读过这样的文章：，现在看来他们推荐的是DELETE FROM table partition (partitionID);，然后是ALTER TABLE table DROP PARTITION partitionID; 我们担心：处理负荷对撤消/重做日志的

浏览 3提问于2016-10-27得票数 0

回答已采纳

1回答

Cosmos DB将Feed处理器的通信量分发给同一个部署单元中的多个实例似乎不起作用

、

我正在为宇宙数据库使用.NET SDK V3 (3.26.0)。根据，Cosmos DB Feed更改处理器应该在同一个部署单元(相同的处理器名称和租赁容器)中并行地分配通信量。我一直在尝试这样做，运行了三个(甚至更多)实例，但是只有一个实例接收到调用，其他实例仍然处于空闲状态。当接收实例停止时，我希望另一个实例几乎立即恢复，而不是在另一个实例开始接收消息()之前经过几秒钟(30-60秒)。问题：如何确保提要更改处理器将调用分发到同一个部署单元中的多个活动实例？当实例停止时，我们如何确保提要更改处理器快速切换到其他活动实例？如果一个实例在没有调用StopAsync的情

浏览 5提问于2022-03-15得票数 0

回答已采纳

1回答

如何在Oracle中批量插入

、、

我必须将大量的数据从一个DB实例加载到另一个DB实例，其要求是只使用DBlinks。使用SQLLDR，我能够达到每秒200 K记录的速度，并希望使用DBLinks复制相同的记录。插入与直接路径(附加提示)给我最大40k记录每秒。但是，由于insert具有直接路径获取表级别，所以我不能打开多个会话来将其扩展到200 K。由于传统的插入非常慢，为了满足所需的speed.Is，我可能需要打开30到40个会话，所以有一种方法可以实现对同一个表的并行直接路径插入?或者还有其他方法或DB调优可以帮助我增加每秒的插入量？注意:我已经尝试过分区表，锁仍然在表上，而不是在分区上。

浏览 4提问于2014-07-03得票数 2

回答已采纳

1回答

使用Sqoop实现Hive表动态分区加载

、

我有一个名为dept的MySQL表，我基于时间戳列ts将其加载到配置单元外部表dept表中，作为增量附加检查列last-value。这可以很好地工作，现在我想根据dept_name和ts列将动态分区添加到我的配置单元表dept中。我知道我可以在sqoop之外创建表动态分区，但在将数据加载到动态分区方面需要帮助。我看过一个使用--hive-partition-key & --hive-partition-value的例子，但是值是硬编码的。在不对配置单元分区值进行硬编码的情况下，我可以使用SQOOP (dept1，时间戳1/Dept1，timestamp2..etc)和(dept2，

浏览 22提问于2016-08-26得票数 0

1回答

在HDFS上的spark输出上创建配置单元表

、、

我有我的Spark作业，它每30分钟运行一次，并将输出写入hdfs-(/tmp/data/1497567600000)。我让这个作业在集群中持续运行。如何在此数据之上创建配置单元表？我在StackOverFlow中看到过一种解决方案，它在按日期字段分区的数据上创建一个hive表。这就像， CREATE EXTERNAL TABLE `mydb.mytable` (`col1` string, `col2` decimal(38,0), `create_date` timestamp, `update_date` timestamp) PARTITIONED BY (

浏览 3提问于2017-06-18得票数 2

2回答

如何为同一个spark作业设置多个spark配置

、、

我正在处理一个奇怪的情况，我有小表和大表要使用spark处理，而且它必须是一个spark工作。为了实现最佳性能目标，我需要设置一个名为 spark.sql.shuffle.partitions = 12 for small tables and spark.sql.shuffle.partitions = 500 for bigger tables 我想知道如何在spark中动态更改这些属性？我可以有多个配置文件并在程序中调用它吗？

浏览 4提问于2018-03-07得票数 1

1回答

从单元外部表中的分区中删除列

、、

我有一个包含3个分区列(A、B、C)的单元外部表，现在我想从partition.Is中删除B和C列--可以这样做吗？我尝试过使用Alter tab_name drop列col_name；--但是它会引发一个错误，说明分区列不能删除。

浏览 1提问于2018-12-03得票数 1

1回答

如何将Hive分区和存储桶中的文件合并为一个大文件？

、、、、

我正在使用Azure HDInsight集群进行大数据处理。几天前，我通过合并多个文件在hive中创建了一个分区和分桶的表。由于Azure没有提供任何停止集群的选项，因此我不得不删除集群以节省成本。数据独立存储在Azure存储帐户中。当我使用相同的存储帐户创建新群集时，我可以使用HDFS命令查看数据库和表，但配置单元无法读取该数据库或表，可能配置单元没有关于此的元数据。剩下的唯一选择就是将所有这些分区和存储桶的文件合并到一个文件中，然后再次创建表。那么，有没有什么方法可以将该表迁移到另一个数据库或将其合并，以便更容易迁移？

浏览 17提问于2019-11-02得票数 1

1回答

配置单元-复制带有分区的数据库架构，并在另一个配置单元实例中重新创建

、、、、

我已经将一个数据库的数据和文件夹结构从一个HDFS实例复制到另一个HDFS实例。如何对配置单元元数据执行相同的操作？我需要新的HDFS实例的hive使用它们现有的分区来定义这个数据库和它的表，就像它在原始位置一样。当然，它们通常需要随着hdfs外部表位置的更新而维护其原始模式。乐于使用直接的hive命令、spark或任何开源且随时可用的通用CLI实用程序。我没有实际的hadoop集群(这是云存储)，所以请避免回答依赖于map reduce/etc的问题(比如Sqoop)。

浏览 16提问于2019-05-15得票数 1

回答已采纳

1回答

无法访问impala中的配置单元表

、、、

无法访问Impala中的配置单元表，该表对日期列创建了分区。使用dynamic partition column选项插入数据。现在，impala中不支持日期数据类型。我应该怎么做才能在impala中访问这个表。是否有在配置单元中创建时间戳分区的选项?如果有，方法是什么？

浏览 3提问于2019-05-20得票数 1

1回答

通过pig脚本删除配置单元表分区

、

目前，我们每天删除该表，并运行将数据加载到表中的脚本。脚本需要3-4个小时，在此期间数据将不可用。因此，现在我们的目标是让分析人员可以使用旧的配置单元数据，直到完成新的数据加载执行。我在hql脚本中通过将每日数据加载到在load_year、load_month和load_day上分区的hive表中，并通过删除分区来删除昨天的数据来实现这一点。但是，pig脚本有什么方法可以实现同样的效果呢？我们可以通过pig脚本修改这个表吗？我不想执行另一个hql来删除pig之后的分区。谢谢

浏览 0提问于2016-05-30得票数 0

1回答

使用bq命令创建单元分区外部表时缺少单元分区键列

、、

我正在使用bq版本2.0.58，并试图创建单元分区BigQuery外部表。但是它在使用bq命令创建单元分区外部表时缺少了hive分区键列，下面的命令可以创建一个表。存储： gs://<bucket>/myfolder/size=1000/file_1k.csv gs://<bucket>/myfolder/size=10000/file_10k.csv mkdef命令， bq mkdef --project_id=my-project --autodetect --source_format=CSV --hive_partitioning_mode=AUTO --hi

浏览 9提问于2020-07-16得票数 0

1回答

ORA_HASH能否提高连接/处理性能

、、

我拥有(相对) 11G数据仓库的基本访问权限。我做的一些处理包括通过一些计算将大表连接到大表，或者向基本数据集添加额外的列。我通常将数据放入我自己的模式中进行计算，但是仓库处理能力有限，一些查询需要很长时间，因为大多数工作涉及影响或将数据连接到表的所有行( explain计划上的大量全表扫描！)。我的问题是，如果我有一个引用编号作为两个表的主键，如果我也使用这个引用编号的散列版本，我会看到任何性能提高吗？如果没有，有没有其他方法可以在这些情况下提高性能？

浏览 3提问于2013-06-11得票数 0

2回答

优化Oracle中许多大型表上的大型Union操作

、、

我手头有以下问题。我有18个非常大的Oracle表；每个表的行数变化在2到1500万之间，另外每个表有大约450列。这些表具有相同的列类型和结构。我需要的是，一旦这些表作为其他操作的结果生成，就将它们统一到一个非常大的、单一的表中。在生成每个表时，我使用以下优化： 1)我对每个表使用Create命令，并附带提示"NOLOGGING并行32 COMPRESS for QUERY“。我们的数据库服务器支持多达32个单元的并行性。 2)在创建每个表之后，我在该表上运行一个"dbms_stats.gather_table_stats“，以优化执行路径。现在，我想到的最基本的一件事是：

浏览 7提问于2014-10-06得票数 2

回答已采纳

1回答

快速对已分区的单元表进行增量更新

、、、

我有两个蜂巢表T1和T2。T1是由date1，hour1列划分的外部表。它还有一个名为date2 (不同于date1)的日期列。 T2是一个由date2分区的单元表。我将每小时递增地获取数据，并且可以轻松地将其添加到带有动态分区的表T1中。我希望找到一种从T1中选择数据并将数据增量加载到由date2分区的T2中的有效方法。这就是我现在要做的 insert into T2 select *, date2 from ( select * from T1 where date1="a constant date" and hour1 =

浏览 0提问于2014-01-11得票数 1

2回答

大表分区.索引

、、、

我被分配了一项任务来改进表对上的数据管理过程(数据存档)，这些表类似于200 on。我现在正在阅读有关表分区和最佳实践的内容，据我所知，该过程如下创建文件组和文件创建分区函数分区方案-(映射间隔到appopriate文件组) 重新创建聚集索引-这是表物理地移动到另一个文件的时刻。利润:) 但是，在这一点上，无法找到一个信息--现有的非聚集索引是怎么回事？从这里:我找到了虽然分区索引可以独立于其基表实现，但通常可以设计分区表，然后在表上创建索引。执行此操作时，Server将使用与表相同的分区方案和分区列自动对索引进行分区。因此，索引的划分方式与表的方式基

浏览 6提问于2012-08-07得票数 4

回答已采纳

1回答

MBR在哪里

、

我有两个单独的HDDs一个有Win7，另一个有Ubuntu11.04。当我安装Ubuntu时，我将GRUB/MBR放在分区上，而不是设备上，这就是为什么它不会引导到Ubuntu吗？我是否可以轻松地将MBR复制到设备区域，或者必须重新安装？在教育方面，如果分区不能工作，为什么会有使用分区的选项呢？谢谢

浏览 0提问于2011-06-14得票数 3

3回答

在不定义架构的情况下从另一个现有表创建配置单元表

我在分区的配置单元中有表Employee。现在，我希望将Employee中的所有内容复制到另一个表中，而不定义任何模式，例如：我的第一个表如下： create table Employee(Id String,FirstName String,Lastname String); 但是我不想为NewEmployee表定义相同的模式： create table Newemployee(Id String,FirstName String,LastName String);

浏览 0提问于2015-11-03得票数 0

1回答

使用外键约束将主表中的行移动到子表

、、、

我有一个名为posts的表，它有1000万行，它降低了我的查询性能，所以我考虑使用分区对子表进行优化，其中每个子表将包含一年的记录。我目前有以下策略：创建没有INHERIT约束的子表创建表posts_2017作为(从inserted_at < '2018-01-01 00:00:00“的帖子中选择*)；创建继承关系之后， ALTER posts_2017继承员额；之后将CHECK约束添加到子表中现在它运行得很好，但是现在如果我查询SELECT * from posts，我将得到2017年帖子的重复结果。我的下一步是使用另一个查询从主表中删除它们。

浏览 1提问于2018-11-05得票数 0

回答已采纳

1回答

如何计算“一个特定客户询问了多少次”？

、、、

我有一张叫"Anfrage“的桌子。以下是“安弗雷格表”中的列：我想数一数同一个顾客询问了多少次。因此，我创建了一个新的专栏"Menge_Anfrage“，这意味着查询的数量。结果应该是这样：我尝试使用以下查询： `SELECT DISTINCT Count(*) FROM Anfrage WHERE KundenNr = 1 ) AS "Menge Anfrage",` 但是它在“”列的所有行中返回一个"4“。有人能告诉我正确的查询吗？我正在使用1,8 b38。非常感谢。

浏览 0提问于2020-10-14得票数 0

回答已采纳

1回答

配置单元:同时执行select和drop partiton配置单元查询时出错

、、、、

在同一时间运行两个查询时出现错误。这里有一些场景。我正在使用AWS EMR，下面是我的配置单元表架构。 CREATE TABLE India (OFFICE_NAME STRING, OFFICE_STATUS STRING, PINCODE INT, TELEPHONE BIGINT, TALUK STRING, DISTRICT STRING, POSTAL_DIVISION STRING, POSTAL_REGION STRING, POSTAL_CIRCLE STRING ) PARTITIONED BY (ST

浏览 3提问于2018-12-07得票数 1

1回答

使用不同的键丰富不同主题的kafka流

、

如何使用另一个具有不同键的主题加入流？下面所有表/流的所有主题都是由DB表使用Kafka connect获取的。我的应用程序是一个，它使用Kafka作为一个组中的单个用户编写，这样我就可以使用每个主题的所有分区。我有一条这样的小溪：来自主题S的流S1有3个分区：键:keyval财政，val1："keyval"，val2：“val2: keyval”键，val1："keyval"，val2："someval1“ 另一个像这样的话题 T1 w/ 6分区：键:tabval_keyval，val1："tabval"，val2：

浏览 5提问于2022-07-29得票数 0

1回答

卡夫卡重组后加入

、

我有多余的应用程序，需要消耗两个流(比如topic和bar)，并在bar.value上执行foo.key与bar.value.matching_key匹配时的操作。我只想执行一次。我希望就以下各点提出确认/见解：似乎联合的主题需要相互联系。然而，我们并不是酒吧主题的所有者。如何确保rekey表的分区数与foo主题相同？我的假设是，我们需要同一个应用程序来消费栏，并在另一个流中使用键匹配的foo。假设主题栏中的rekey来自于前面的问题: Kafka如何确保分配给应用实例的每个分区对于两个主题都是相同的？谢谢!

浏览 0提问于2018-07-18得票数 0

回答已采纳