腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么从
一个
文件
插入到
一个
表中会产生
多个
映射器
,而从另
一个
文件
插入到
一个
文件
中
却不会?
、
、
当我从
一个
属性为date
的
文件
向表
中
插入数据时,只产生了
一个
映射器
。 但是,当我从这个新表插入到另
一个
表
中
时,这一次将日期属性转换为年、月和日属性,就产生了
多个
映射器
。这是什么原因呢?
浏览 20
提问于2019-04-26
得票数 0
1
回答
在
Hadoop
环境
中
,STDIN还是
文件
作为
映射器
输入
?
、
、
但是,在
Hadoop
环境
中
,当我看到HadoopStreaming将
文件
输入
转换为mapper
的
stdin并将还原器
的
stdout转换为
文件
输出时,我有一些关于如何
输入
文件
的
问题: 我们是否必须在mapper.py
中
设置来自STDIN
的
输入
,并让HadoopStreaming将hdfs
输入
目录
中
的
文件<
浏览 1
提问于2011-01-29
得票数 2
4
回答
控制
hadoop
映射器
输出
文件
的
数量
、
、
我有份工作给
hadoop
。当作业被声明时,我已经启动了一些
映射器
。每个
映射器
都会将一些
文件
写入磁盘,比如part-m-00000、part-m-00001。据我所知,每个
映射器
创建
一个
零件
文件
。我有大量
的
数据,所以必须有
多个
映射器
,但我能以某种方式控制这个输出
文件
的
数量吗?我
的
意思是,
hadoop
将启动,例如10个
映射器
,但将只
浏览 0
提问于2013-07-19
得票数 1
回答已采纳
2
回答
在
Hadoop
MapReduce
中
可以有
多个
输入
和
多个
不同
的
映射器
吗?
、
在
Hadoop
MapReduce
中
可以有
多个
输入
和
多个
不同
的
映射器
吗?每个
映射器
类
都使用一组不同
的
输入
,但它们都会发出由相同
的
reducer使用
的
键值对。请注意,我在这里不是在谈论链接
映射器
,我是在谈论并行运行不同
的
映射器
,而不是顺序地运行。
浏览 2
提问于2012-06-16
得票数 12
回答已采纳
1
回答
2个
映射器
,每个
映射器
对应其自己
的
源目录-->
一个
缩减程序
、
、
我有两个数据源,每个都以不同
的
格式存储数据。 每个
映射器
都应该由不同
的
映射器
处理,但两个
映射器
将到达相同
的
中间格式以传递给缩减程序。我知道我可以通过向
hadoop
流添加
多个
"-input“选项来处理
多个
输入
,但是如何为每个
输入
分配单独
的
映射器
?
浏览 0
提问于2016-05-19
得票数 0
1
回答
Hadoop
MapReduce读写序列
文件
、
、
我正在尝试编写MapReduce作业,它可以在Mapper
中
读取两个序列
文件
。我试过在“main”
中
读取和写入序列
文件
,但我不知道如何在Mapper
中
实现。我认为我不太熟悉MapReduce
的
工作原理。谢谢你帮我。
浏览 0
提问于2015-07-12
得票数 0
回答已采纳
1
回答
用于处理不同数据库列集合
的
映射器
任务
、
我们有
一个
场景,我们希望单个
Hadoop
作业创建/管理
多个
映射器
任务,其中每个
映射器
任务将查询关系数据库表
中
的
列
的
子集。我们研究了DataDrivenDBInputFormat,但这似乎只是促进了分区,其中每个
映射器
任务都可以查询关系数据库表
中
的
行子集。 感谢您在这方面的任何建议。谢谢。
浏览 0
提问于2012-11-27
得票数 1
2
回答
如何将数据提供给
Hadoop
中
的
映射器
?
、
我
的
Hadoop
程序
的
输入
是一组小
文件
(10个
文件
,每个
文件
大小为60MB),我运行100个
映射器
。我假设每个
映射器
的
输入
数据只来自
一个
文件
。也就是说,不存在其
输入
数据跨越两个(或更多)
文件
的
映射器
。这是
一个
正确
的
假设吗?
浏览 0
提问于2013-10-29
得票数 0
1
回答
如何在
Hadoop
集群上运行
Hadoop
Streaming?
、
、
、
目前我有
一个
有3个节点
的
Hadoop
集群(Ubuntu) 我想运行带有
Hadoop
流
的
python /R脚本,但是我不确定仅仅执行HS是否真的能使所有节点工作 如果可能,请告诉我在群集上运行流
的
方向
浏览 21
提问于2020-04-25
得票数 0
2
回答
在
hadoop
中
实现多
映射器
和单归约器
、
、
我是
hadoop
的
新手。我有
多个
文件
夹,其中包含在
hadoop
中
处理数据
的
文件
。我对map-reducer算法
中
的
mapper实现有疑问。我是否可以指定
多个
映射器
来处理
多个
文件
,并使用单个reducer将所有
输入
文件
作为
一个
输出?如果可能,请提供实施上述步骤
的
指导原则。
浏览 1
提问于2012-08-30
得票数 0
回答已采纳
2
回答
如何让
Hadoop
v2使用同
一个
映射器
来处理
多个
块?
、
、
、
简而言之:我正在尝试使用
Hadoop
处理大块
中
的
大量大
文件
,这是<em
浏览 0
提问于2016-04-26
得票数 0
1
回答
如何让每个
映射器
类
在
hadoop
中
读取同
一个
文件
、
在我
的
hadoop
作业
中
,除了我
的
输入
数据
文件
之外,我希望每个
映射器
类
( map方法)都读取
一个
我放在hdfs
中
的
公共
文件
。此
文件
将被读取到每个
映射器
中
,并将内容保存在每个
映射器
中
。那么该怎么做呢?
浏览 3
提问于2013-03-13
得票数 2
回答已采纳
2
回答
如何在Mahout MatrixMultiplicationJob
中
增加
映射器
的
数量?
、
、
、
、
我使用Mahout0.7
的
MatrixMultiplicationJob来乘以
一个
大
的
矩阵。但它总是使用
一个
map任务,这使得它变得很慢。这可能是由于InputSplit强制将
映射器
的
数量设置为1。有没有一种方法可以在
Hadoop
/ Mahout中高效地乘以矩阵或更改
映射器
的
数量?
浏览 0
提问于2012-10-04
得票数 2
回答已采纳
1
回答
如何在单个节点上同时运行
多个
映射器
、
、
我在我
的
Mac上使用
Hadoop
2.8.0。我想同时运行所有的
映射器
。我尝试强制对
输入
文件
进行
多个
拆分,并使用
多个
输入
文件
,以便创建
多个
映射器
。它们是创建
的
,但它们是按顺序运行
的
。完成任务****_m_为什么
映射器
会
一个
接
一个
地运行?如何配置才能使它们立即启动?
浏览 0
提问于2017-04-23
得票数 1
3
回答
hadoop
是如何处理大
文件
的
?
、
我完全是
Hadoop
的
新手,尽管我对map reduce
的
概念非常了解。因此,我向
Hadoop
专家提出
的
问题是,
Hadoop
将如何处理大
文件
?它是将
文件
的
副本传输到每个
映射器</e
浏览 1
提问于2013-03-19
得票数 3
回答已采纳
1
回答
Hadoop
:每个tar/zip
文件
对应
一个
映射器
、
我有几个要计算统计数据
的
目录。也就是说,我
的
mapper函数接受
一个
文件
夹树作为
输入
,并根据目录及其所有子目录
的
内容输出一些静态数据。计算在每个目录上都需要很长时间。没有减速机。我可以为要处理
的
每个目录创建
一个
tar/zip
文件
,并将其复制到HDFS
中
。但是,如何确保为每个tar
文件
创建
一个
映射器
,并将tar
文件
的
全部
浏览 0
提问于2015-05-23
得票数 1
10
回答
Hadoop
如何执行
输入
拆分?
、
、
这是
一个
涉及
Hadoop
/HDFS
的
概念性问题。假设您有
一个
包含10亿行
的
文件
。为简单起见,让我们考虑每一行
的
形式<k,v>,其中k是该行相对于开头
的
偏移量,value是该行
的
内容。现在,当我们说要运行N个map任务时,框架是否将
输入
文件
拆分为N个拆分,并在该拆分上运行每个map任务?或者,我们是否必须编写
一个
分区函数来执行N个拆分,并在生成
的</em
浏览 4
提问于2010-05-14
得票数 39
回答已采纳
1
回答
Hadoop
是否在块级复制?
、
、
、
集群之间/集群内部
的
差异是映射-减少作业。我
的
假设是,它在
输入
分割级别上复制
文件
,这有助于提高复制性能,因为
一个
文件
将由
多个
并行处理
多个
“片段”
的
映射程序复制。然而,当我阅读
Hadoop
的
文档时,它似乎只在
文件
级别上起作用。请参阅此处:
hadoop
.apache.org/docs/current/
hadoop</e
浏览 3
提问于2017-02-20
得票数 2
回答已采纳
1
回答
hadoop
mapreduce流
中
的
多个
文件
输出
、
、
、
我正在使用
hadoop
map和reduce程序。我需要读取
多个
文件
并将其输出到
多个
文件
中
Input \ one.txt three.txt one_out.txttwo_out.txt 我需要一些像这样
的
东西。
浏览 0
提问于2013-11-14
得票数 0
2
回答
使用
Hadoop
MapReduce在不同节点上处理不同
的
文件
、
、
、
我以前用过猪和蜂巢,但对
Hadoop
MapReduce来说还是个新手。我需要编写
一个
有
多个
小
文件
作为
输入
的
应用程序(比如10个)。它们具有不同
的
文件
结构,所以我希望在不同
的
节点上并行处理它们,以便能够快速处理它们。我知道
Hadoop
的
优点是处理大型数据,但是这些
输入
文件
虽然很小,但需要大量处理,所以我希望利用
Hadoop
的
并行
浏览 0
提问于2012-12-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
怎么批量删除多个文件中的图片?
Java源文件中为什么只能有一个public类?
多个PDF合并成一个文件的简单办法
将多个音频合成为一个文件的好用技巧
如何快速在多个单元格中输入相同的数据或文字
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券