腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
在
配置
单元
插入
中
需要
减速器
、
、
、
、
当我们从
配置
单元
命令行触发insert into语句时,问题与MapReduce作业的工作有关。
在
将记录
插入
到hive表
中
时:由于
插入
到内部hive表
中
时没有涉及聚合,因此
为什么
还会调用reducer。它应该只是一个映射器作业。在这里,reducer的作用是什么。
浏览 15
提问于2021-04-28
得票数 1
回答已采纳
1
回答
配置
单元
查询正在使用太多的缩减程序运行
、
、
、
现在我们使用的是
配置
单元
1.1.0-cdh5.4.2。提前谢谢。
浏览 0
提问于2015-06-08
得票数 0
2
回答
蜂巢不尊重mapreduce.job.reduces
、
以下形式的
单元
格
插入
语句:正在使用一种
减速器
--即使
在
执行以下操作之前也是如此:另外,源表和目标表都是 stored as parquet
浏览 2
提问于2015-03-03
得票数 1
回答已采纳
1
回答
如何使用
配置
单元
确定HDFS
中
的文件大小
、
、
保存在此分区目录
中
的文件始终是唯一的,并且可以从20MB到700MB。set mapreduce.job.reduces=5; 这将使系统
在
阶段1
中
使用5个reduce任务,但在阶段2将自动切换到1个reducer据我所知,这是因为
在
选择reducers的数量时,编译器比
配置
更重要。似乎有些任务不能“并行化”,只能由一个进程或reducer任务完成,所以系统会自动确定它。
浏览 3
提问于2017-07-27
得票数 3
回答已采纳
2
回答
在
Oozie工作流
中
设置
配置
单元
操作执行参数
、
、
目前,我使用的是mapred.reduce.tasks,但它
需要
一个静态数字。真正的问题是,当我
在
hive CLI上执行相同的查询时,Hive选择的reducer的数量是最优的,而不是1;那么我的Oozie作业缺少什么设置,它为所有查询选择了1个reducer?
浏览 0
提问于2015-09-08
得票数 0
2
回答
确定Hive "order by“子句中的缩减数
、
它是如何识别
减速器
的数量为1的?它是否使用了默认值"1“或其他值? 一般来说,hive如何决定在"order by“、"sort by”或"group by“子句中使用多少减法器?
浏览 1
提问于2016-04-27
得票数 1
4
回答
配置
单元
无法手动设置
减速器
的数量
、
、
我有以下
配置
单元
查询:它会自动产生:1个
减速器
我
需要
手动设置
减速器
的数量,我尝试了以下方法
浏览 2
提问于2012-01-07
得票数 25
回答已采纳
2
回答
地图约简端的同机同数据处理
、
、
例如,
在
纯Map作业的极端情况下,所有输出数据都与对应的输入数据位于同一台机器上(对吗?)。但是,
在
输出与输出有一定关联的中间情况下,对输出进行分区似乎是合理的,并尽可能将其保持
在
启动时的同一台机器上。 这个是可能的吗?这种情况已经发生了吗?
浏览 3
提问于2013-09-12
得票数 0
回答已采纳
1
回答
如何在ORC表格
中
创建行序列号
、
、
可以使用Hive UDF UDFRowSequence,但它在单个
减速器
中
运行。我想知道
在
最新的
配置
单元
0.14
中
是否有其他特性可以
在
oRC
中
自动递增行序列。
浏览 3
提问于2015-06-01
得票数 0
1
回答
阻止
配置
单元
创建缩减程序
我
在
T1
中
有列C1和C2,
在
T2
中
有C1和C3。我想做这样的事情:但是,由于
在
使用transform时不能使用任何其他列insert overwrite table T2 select transform(C1, C2) as (C1, C3) using app 但是,当我这样做时,hive不再知道,输入和输出表是
在
同一列上存储和排序的有没有办法告诉h
浏览 4
提问于2017-07-29
得票数 1
3
回答
在
hadoop
中
"uber模式“的目的是什么?
、
在
映射的1.x和2.x
中
,它的工作方式不同吗? 我在哪里能找到它的背景?
浏览 5
提问于2015-05-17
得票数 30
回答已采纳
1
回答
将sqoop从postgresql导入到parquet / avro - timestamp epoch millis vs date类型
、
、
255) |updated_at | timestamp with time zone |created_at bigint如何让sqoop导入将时间戳字段作为日期处理
在
parquet/avro
中
?数据被
配置
为外部表,因此我们可以使用java /
浏览 1
提问于2017-04-11
得票数 0
1
回答
在
HDFS
中
插入
数据
、
、
我
需要
在
配置
单元
中
创建一些表,为此,我想在hdfs
中
插入
数据,以便自动创建
配置
单元
表。我
需要
把这些信息存储
在
蜂巢里。你能告诉我一个例子,我是如何在HDFS
中
插入
数据的吗?
浏览 1
提问于2015-07-14
得票数 2
4
回答
在
单个实例中将pig输出存储到Hive表
中
、
、
我想将pig输出
插入
配置
单元
表格
中
(
配置
单元
中
的表格已经用确切的模式创建).Just
需要
将输出值
插入
表格
中
。我不想采用通常的方法,即先存储到一个文件
中
,然后从
配置
单元
中
读取该文件,然后再
插入
到表
中
。我
需要
减少已经完成的额外跳数。谢谢
浏览 2
提问于2015-07-08
得票数 5
1
回答
hadoop map reduce中导致混洗错误的大文件
、
、
、
作业仍然
在
qubole下完成,因为我认为qubole重试了reduce步骤。 但是我想知道是否有这样的设置,我可以完全避免错误,这样reduce作业就不必重试了。
浏览 3
提问于2018-10-09
得票数 0
2
回答
为什么
总是使用单一
减速器
进行排序?
、
我正在尝试执行以下查询,而且加载数据
需要
花费很长时间,因为第二个作业只使用一个还原器。
插入
表ddb_table SELECT * data_dump排序按秩顺序排序限制为1000000;我试图用set mapred.reduce.tasks=35来增加
减速器
的数量,但有趣的是,它只适用于第一份工作,而不是第二份。
为什么
使用单一的减速机
浏览 2
提问于2012-09-02
得票数 1
回答已采纳
1
回答
Hadoop全序划分
、
、
为什么
在
hadoop
中
总顺序分区?我们
需要
采取完全顺序分区的方案吗?我的理解是
在
多个
减速器
之后,每个
减速器
的结果都会按键排序。那么,
为什么
我们
需要
进行完全顺序分区。
浏览 0
提问于2018-04-29
得票数 0
回答已采纳
3
回答
2从
单元
测试
中
删除硬编码路径
、
在
设置
单元
测试的过程
中
,他们
在
setUp方法
中
向应用程序
配置
插入
一个硬编码路径:更新: 与此相关的另一个问题是,
为什么
“模块”的
单元
测试
需要
访问应用程序
配
浏览 6
提问于2013-06-02
得票数 1
2
回答
使用Hive清理大数据
、
、
、
问题是,这些数据
需要
清理,而且它太大了,我无法尝试
在
我的计算机上处理它(因此使用Hadoop和Hive)。有没有办法让我用蜂巢做到这一点?
浏览 1
提问于2013-07-16
得票数 0
1
回答
基于列值的Sqoop导入作为parquetfile
、
、
、
因此,我试图运行一个sqoop导入作业,其中我保存了基于我的partition_key的拼花文件。最终,我希望我的文件夹/TABLE_DIR/有5个拼花文件,每个唯一的分区键一个。目前我只得到4。我不能设置数字映射5。Table2,partition_key可能上升到8,为此,我想得到8个拼花文件等。primary_key:[1,2,3,4,5,6,7,8,9,10]value: [15,12,18,18,21,23,25,26,24,10] sqoop import \ --
浏览 0
提问于2018-09-06
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为什么区块链需要争取在企业中获得牵引力?
配置指南:信息类型IT2011的字段在InfoSetQuery中不能作为查询选择条件,为什么?
Python安装Jupyter Notebook配置使用教程
jupyterLab+R,让你更优雅的探索数据
【功能发布】Excel集成网页控件,内嵌于Excel单元格区域,可加载任意网页
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券