为什么在配置单元插入中需要减速器_在配置单元表中插入值时出错_为什么配置单元嵌套查询语句需要别名？ - 腾讯云开发者社区

、、、、

当我们从配置单元命令行触发insert into语句时，问题与MapReduce作业的工作有关。在将记录插入到hive表中时:由于插入到内部hive表中时没有涉及聚合，因此为什么还会调用reducer。它应该只是一个映射器作业。在这里，reducer的作用是什么。

浏览 15提问于2021-04-28得票数 1

回答已采纳

1回答

配置单元查询正在使用太多的缩减程序运行

、、、

现在我们使用的是配置单元1.1.0-cdh5.4.2。提前谢谢。

浏览 0提问于2015-06-08得票数 0

2回答

蜂巢不尊重mapreduce.job.reduces

、

以下形式的单元格插入语句：正在使用一种减速器--即使在执行以下操作之前也是如此：另外，源表和目标表都是 stored as parquet

浏览 2提问于2015-03-03得票数 1

回答已采纳

1回答

如何使用配置单元确定HDFS中的文件大小

、、

保存在此分区目录中的文件始终是唯一的，并且可以从20MB到700MB。set mapreduce.job.reduces=5; 这将使系统在阶段1中使用5个reduce任务，但在阶段2将自动切换到1个reducer据我所知，这是因为在选择reducers的数量时，编译器比配置更重要。似乎有些任务不能“并行化”，只能由一个进程或reducer任务完成，所以系统会自动确定它。

浏览 3提问于2017-07-27得票数 3

回答已采纳

2回答

在Oozie工作流中设置配置单元操作执行参数

、、

目前，我使用的是mapred.reduce.tasks，但它需要一个静态数字。真正的问题是，当我在hive CLI上执行相同的查询时，Hive选择的reducer的数量是最优的，而不是1；那么我的Oozie作业缺少什么设置，它为所有查询选择了1个reducer？

浏览 0提问于2015-09-08得票数 0

2回答

确定Hive "order by“子句中的缩减数

、

它是如何识别减速器的数量为1的？它是否使用了默认值"1“或其他值？一般来说，hive如何决定在"order by“、"sort by”或"group by“子句中使用多少减法器？

浏览 1提问于2016-04-27得票数 1

4回答

配置单元无法手动设置减速器的数量

、、

我有以下配置单元查询：它会自动产生：1个减速器 我需要手动设置减速器的数量，我尝试了以下方法

浏览 2提问于2012-01-07得票数 25

回答已采纳

2回答

地图约简端的同机同数据处理

、、

例如，在纯Map作业的极端情况下，所有输出数据都与对应的输入数据位于同一台机器上(对吗？)。但是，在输出与输出有一定关联的中间情况下，对输出进行分区似乎是合理的，并尽可能将其保持在启动时的同一台机器上。这个是可能的吗？这种情况已经发生了吗？

浏览 3提问于2013-09-12得票数 0

回答已采纳

1回答

如何在ORC表格中创建行序列号

、、

可以使用Hive UDF UDFRowSequence，但它在单个减速器中运行。我想知道在最新的配置单元0.14中是否有其他特性可以在oRC中自动递增行序列。

浏览 3提问于2015-06-01得票数 0

1回答

阻止配置单元创建缩减程序

我在T1中有列C1和C2，在T2中有C1和C3。我想做这样的事情：但是，由于在使用transform时不能使用任何其他列insert overwrite table T2 select transform(C1, C2) as (C1, C3) using app 但是，当我这样做时，hive不再知道，输入和输出表是在同一列上存储和排序的有没有办法告诉h

浏览 4提问于2017-07-29得票数 1

3回答

在hadoop中"uber模式“的目的是什么？

、

在映射的1.x和2.x中，它的工作方式不同吗？我在哪里能找到它的背景？

浏览 5提问于2015-05-17得票数 30

回答已采纳

1回答

将sqoop从postgresql导入到parquet / avro - timestamp epoch millis vs date类型

、、

255) |updated_at | timestamp with time zone |created_at bigint如何让sqoop导入将时间戳字段作为日期处理在parquet/avro中？数据被配置为外部表，因此我们可以使用java /

浏览 1提问于2017-04-11得票数 0

1回答

在HDFS中插入数据

、、

我需要在配置单元中创建一些表，为此，我想在hdfs中插入数据，以便自动创建配置单元表。我需要把这些信息存储在蜂巢里。你能告诉我一个例子，我是如何在HDFS中插入数据的吗？

浏览 1提问于2015-07-14得票数 2

4回答

在单个实例中将pig输出存储到Hive表中

、、

我想将pig输出插入配置单元表格中(配置单元中的表格已经用确切的模式创建).Just需要将输出值插入表格中。我不想采用通常的方法，即先存储到一个文件中，然后从配置单元中读取该文件，然后再插入到表中。我需要减少已经完成的额外跳数。谢谢

浏览 2提问于2015-07-08得票数 5

1回答

hadoop map reduce中导致混洗错误的大文件

、、、

作业仍然在qubole下完成，因为我认为qubole重试了reduce步骤。但是我想知道是否有这样的设置，我可以完全避免错误，这样reduce作业就不必重试了。

浏览 3提问于2018-10-09得票数 0

2回答

为什么总是使用单一减速器进行排序？

、

我正在尝试执行以下查询，而且加载数据需要花费很长时间，因为第二个作业只使用一个还原器。插入表ddb_table SELECT * data_dump排序按秩顺序排序限制为1000000；我试图用set mapred.reduce.tasks=35来增加减速器的数量，但有趣的是，它只适用于第一份工作，而不是第二份。为什么使用单一的减速机

浏览 2提问于2012-09-02得票数 1

回答已采纳

1回答

Hadoop全序划分

、、

为什么在hadoop中总顺序分区？我们需要采取完全顺序分区的方案吗？我的理解是在多个减速器之后，每个减速器的结果都会按键排序。那么，为什么我们需要进行完全顺序分区。

浏览 0提问于2018-04-29得票数 0

回答已采纳

3回答

2从单元测试中删除硬编码路径

、

在设置单元测试的过程中，他们在setUp方法中向应用程序配置插入一个硬编码路径：更新：与此相关的另一个问题是，为什么“模块”的单元测试需要访问应用程序配

浏览 6提问于2013-06-02得票数 1

2回答

使用Hive清理大数据

、、、

问题是，这些数据需要清理，而且它太大了，我无法尝试在我的计算机上处理它(因此使用Hadoop和Hive)。有没有办法让我用蜂巢做到这一点？

浏览 1提问于2013-07-16得票数 0

1回答

因此，我试图运行一个sqoop导入作业，其中我保存了基于我的partition_key的拼花文件。最终，我希望我的文件夹/TABLE_DIR/有5个拼花文件，每个唯一的分区键一个。目前我只得到4。我不能设置数字映射5。Table2，partition_key可能上升到8，为此，我想得到8个拼花文件等。primary_key:[1,2,3,4,5,6,7,8,9,10]value: [15,12,18,18,21,23,25,26,24,10] sqoop import \ --

浏览 0提问于2018-09-06得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云