腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
fs.s3.buffer.dir中临时文件的累积
、
、
、
、
我正在使用s3运行EC2集群(s3://文件
系统
)。在这里,当我运行任何hive查询或对非常大的数据进行操作的
hadoop
命令时,它会在将临时文件复制到s3之前/之后将它们复制到节点上的本地磁盘上。
浏览 0
提问于2015-11-24
得票数 0
3
回答
hadoop
fs -text vs
hadoop
fs -cat vs
hadoop
fs -get
、
、
我相信下面所有的命令都可以用来将hdfs文件复制到本地文件
系统
。有什么不同/情景利弊。(
Hadoop
新手在这里)。
hadoop
fs -text /hdfs_dir/* >> /local_dir/localfile.txt
hadoop
fs -cat /hdfs_dir/* >> /local_dir/localfile.txt
hadoop
fs -get /hdfs_dir&
浏览 0
提问于2014-09-19
得票数 2
1
回答
命令查找
hadoop
目录中的最
大文件
。
、
、
、
、
我试图在
hadoop
文件
系统
上的给定目录中找到最大的文件。我找到了以下链接:,它显示了以下查找最
大文件
的命令:但当我跑的时候我找到find我还运
浏览 0
提问于2016-12-21
得票数 4
回答已采纳
3
回答
Hadoop
:为什么在RecordReader实现中使用FileSplit
在
Hadoop
中,考虑一个
大文件
已经加载到hdfs文件
系统
的场景,使用hdfs dfs put或hdfs dfs CopyFromLocal命令,
大文件
将被拆分成块(64MB)。
浏览 3
提问于2014-12-31
得票数 0
1
回答
我是否可以运行
Hadoop
onflow (在应用程序运行时运行map还原)
、
我们能在流上使用
hadoop
生成输出吗?我有一个由日志和预约id组成的
大文件
,如果我使用传统的RDBMS,我可以得到预约id,但需要1或2个小时。日志文件大小为800 GB On意味着在管理员登录到
系统
时显示此约会id。我是否可以运行
Hadoop
onflow (在应用程序运行时运行map还原)
浏览 4
提问于2013-10-25
得票数 0
回答已采纳
1
回答
在
Hadoop
框架中拆分
大文件
有什么好处
据我所知,
Hadoop
正在将
大文件
拆分成块这些
大文件
可以是文本或图像,如果我取消拆分功能会怎么样?这会影响
Hadoop
的性能吗?
浏览 1
提问于2015-05-12
得票数 0
3
回答
使用
hadoop
对大型文本文件进行排序
、
、
、
如果任何人能提出一种方法来实现对这个巨
大文件
的排序,那就太好了。
浏览 5
提问于2013-02-15
得票数 1
3
回答
Hadoop
滚动小文件
、
、
、
我正在运行
Hadoop
的一个项目,需要一个建议。必须有一种正确的方法,简单地将大约100个文件滚动/合并为一个。因此
Hadoop
有效地读取了一个
大文件
,而不是10个。 有什么建议吗?
浏览 0
提问于2010-11-16
得票数 1
1
回答
Hadoop
>在
Hadoop
作业运行时,datanode和namenode进程是否正在运行
、
Hadoop
启动后,两种类型的守护进程正在运行。一个是namenode上名为namenode的守护进程,另一个是datanode上名为datanode的守护进程。我确信当通过"hdfs dfs“命令将本地文件
系统
中的
大文件
加载到HDFS时,会使用它们。 但它是否也在
Hadoop
MapReduce作业运行时使用?
浏览 0
提问于2015-11-14
得票数 0
1
回答
在
hadoop
python中处理多个文件
、
、
、
、
我有一个场景,文本分隔的文件每30分钟从不同的服务器(大约10)到达
hadoop
系统
。 我希望这个解决方案能在python中实现,但是希望使用
hadoop
中的任何工具/技术的解决方案。
浏览 1
提问于2017-04-16
得票数 0
2
回答
如何理解"
hadoop
有利于顺序数据访问“
我试着比较一下在本地文件
系统
和HDFS之间编写一个
大文件
的性能。结果有点让我困惑。从本地写到的时间比HDFS短。我不明白"
Hadoop
有利于顺序数据访问“的概念.records out [root@datanodetest01 tmp]# time
hadoop
浏览 3
提问于2015-09-07
得票数 1
回答已采纳
2
回答
如何在
hadoop
中获取像素RGB值?
、
、
、
、
我在
hadoop
的hdfs中存储了数百万张图像。我想为这些图像建立一个索引。如何获取这些图像的像素RGB值?我是
hadoop
的新手,
hadoop
中的图像格式与原始图像的二进制格式不同。另一个问题是,为了提高效率,我是否应该使用
hadoop
中的序列文件将巨大的图像打包到一个
大文件
中?非常感谢。
浏览 0
提问于2012-07-06
得票数 0
1
回答
Hadoop
:对小文件使用CombineFileInputFormat会提高性能吗?
、
我对
hadoop
很陌生,并且在本地机器上进行了一些测试。 有许多解决方案来处理,许多小文件,。我正在使用CombinedInputFormat,它扩展了CombineFileInputFormat。
浏览 3
提问于2016-03-19
得票数 0
1
回答
Hadoop
:是否有可能将多个文件一分为二?
、
我有很多文件组成的输入。它们的尺寸比blockSize大。每个文件经过处理后,至少会诱导一个InputSplit来处理它。基于FileInputFormat代码,它不是:337 Path path = file.getPath();339 if (length != 0) {341
浏览 1
提问于2016-07-08
得票数 0
回答已采纳
3
回答
hadoop
是如何处理
大文件
的?
、
我完全是
Hadoop
的新手,尽管我对map reduce的概念非常了解。 大多数
Hadoop
教程都从WordCount示例开始。所以我写了一个简单的字数统计程序,运行得很好。因此,我向
Hadoop
专家提出的问题是,
Hadoop
将如何处理
大文件
?它是将文件的副本传输到每个映射器,还是自动将其拆分成块并将这些块传输到映射器?我使用MapReduce的大部分经验都是因为
Hadoop
的映射器可以一次处理文档,但从我读到的关于CouchDB的内容来看,我想知道它是设计用于处理多个小文件还是几个<e
浏览 1
提问于2013-03-19
得票数 3
回答已采纳
1
回答
用Dask从文件
系统
/S3中并行读取文件块?
、
我正在整理一个概念证明,在分布式环境中,我希望使用PyCuda来处理字符数据的
大文件
(每个任务在一个文件中~8GB)- AWS是具体的。我知道HDFS将分割数据文件并将其分发给工作人员,但我正在尽量保持环境的简单性,如果不必安装
Hadoop
,我宁愿不必安装
Hadoop
。鉴于上述段落和Dask框架,当前对文件
系统
的建议是什么?我是继续使用HDFS,还是有更好/更简单的解决方案?
浏览 2
提问于2016-05-16
得票数 3
回答已采纳
1
回答
如何在
Hadoop
中处理
大文件
?
、
、
这是一个noobie问题3 4 3 7 3 8 5 6 其中每列表示顶点,每行表示边。如何在
Hadoop
中处理
大文件
的这种情况?像这样读取意味着将整个内容加载到RAM中?在
Hadoop
中执行此操作的最佳方法是什么?
浏览 2
提问于2014-06-12
得票数 0
5
回答
HDFS目录中允许的最
大文件
数是多少?
、
、
HDFS (
hadoop
)目录中允许的最
大文件
和目录数是多少?
浏览 0
提问于2011-06-15
得票数 10
回答已采纳
2
回答
存储静态图像/文件的网络文件
系统
、
那么,什么是能够解决这个问题的最好的网络文件
系统
(分布式文件
系统
),特别是可伸缩性。特别是,谢谢!
浏览 5
提问于2012-01-27
得票数 3
2
回答
BlockSize与大数据
、
每个人都知道
Hadoop
对小文件的处理很差,因为它必须使用映射器的数量。但是
大文件
呢,它比块大小稍微大一点。例如,假设hdfs块大小为128 an,
hadoop
接收126 an至130 an之间的文件。126 to和128 to之间的文件适合存储在
hadoop
中,但是对于129 to 130 to的文件,
hadoop
需要2个映射器才能读取这些文件吗?如何在
hadoop
中处理这个问题,以克服hdfs块更大的事实? (预先谢谢:)
浏览 3
提问于2016-02-29
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券