腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8220)
视频
沙龙
1
回答
InputSplit大小或地图任务的数量是否受输入文件数量的影响
、
、
如果我有许多
小文件
(~
HDFS
块大小)
和
几个
大文件
,作业产生的映射任务数是否会有所不同
浏览 0
提问于2013-02-09
得票数 1
回答已采纳
3
回答
Hadoop滚动
小文件
、
、
、
还有人建议不要使用许多/
小文件
。有什么建议吗?
浏览 0
提问于2010-11-16
得票数 1
2
回答
R将大型CSV文件转换为
HDFS
、
、
、
、
这将留下一个巨大的CSV文件,将其转换为
HDFS
是否有意义,以便能够进行相关分析?除了this...or之外,对每个csv文件分别进行分析,然后在最后将其合并,会更有意义吗?我在想,也许是一种分布式文件
系统
,并使用amazon上的一组机器来高效地执行分析。看看rmr ,它将数据转换成
HDFS
,但显然对于真正大的data...how来说这并不令人惊讶,人们会以一种允许高效分析的方式转换csv吗?
浏览 7
提问于2015-02-14
得票数 0
3
回答
在hadoop中存储多个
小文件
的最佳位置是什么?
、
、
、
、
我将有多个大小约为10 or的小文本文件,弄不清楚这些文件在HBase或
HDFS
中的存储位置。什么是优化的存储?因为要存储在HBase中,我需要先解析它,然后根据某个行键保存它。在
HDFS
中,我可以直接创建一个路径并将该文件保存在该位置。但是直到现在,不管我读到了什么,它都说你不应该有多个
小文件
,而应该创建更少的
大文件
。但是我不能合并这些文件,所以我不能用
小文件
创建
大文件
。
浏览 6
提问于2016-06-23
得票数 0
回答已采纳
1
回答
使用文件中的数据作为映射减少作业Hadoop中的哈希映射
、
、
我有一个文件有10,000行(“
小文件
”)有键,值不同的键在
小文件
中可以有相同的值。只有在把它算进减速机之后。你能帮我并指导我怎么做吗?
小文件
将在
hdfs
上运行,我不确定其他节点如何能够从中读取数据--甚至不建议这样做--因为带有
小文件
的节点必须非常努力地向每个映射任务发
浏览 5
提问于2015-09-18
得票数 1
回答已采纳
1
回答
当我使用FileSystem.get(URI.create("
hdfs
://loacalhost:9000/filepath"),conf时发生了什么?
、
、
、
在一个需要我优化
HDFS
小文件
支持的项目中,我感到困惑。其步骤如下:
hdfs
fs -put ~/local/smallfile /usr/smallfile。但是如果我的项目正常,
小文件
应该存储到HBase,那么当我在代码中使用
浏览 0
提问于2015-05-31
得票数 0
2
回答
如何提高大量
小文件
的读写速度?
、
、
、
、
我的工作是提高从磁盘读取大量
小文件
(1KB)写入数据库的速度。数据库对我来说是开源的,我可以将所有代码从客户端更改为服务器端。数据库架构是,它是一个简单的主从式分布式
HDFS
数据库,类似于HBase。磁盘中的
小文件
可以自动插入到我们的数据库中,并自动组合成较大的块,然后写入
HDFS
。(
大文件
也可以被数据库拆分成较小的块,然后写入
HDFS
)
浏览 2
提问于2015-09-07
得票数 0
1
回答
如何在hadoop中一次处理多个文本文件进行分析
、
、
、
、
我有很多
小文件
,比如说50000多份。我需要一次处理这些文件,使用map约简概念来生成一些基于输入文件的分析。 请建议我这样做,同时也请告诉我如何使用
hdfs
将这个
小文件
合并成一个
大文件
。
浏览 5
提问于2014-12-17
得票数 0
回答已采纳
1
回答
使用Delta,如何在压缩后删除原始文件
、
、
、
基本上,我有一个火花流工作(与增量)写一个
小文件
到
hdfs
每5分钟。我还有一个压缩作业,每天运行,将前一天的数据压缩到一些
大文件
中(文件的#取决于作业重新分区号)。
大文件
与原始
小文件
位于同一个目录中。是否有任何方法有效地删除原来的
小文件
,因为它们是无用的?spark.read()
浏览 5
提问于2021-06-29
得票数 2
1
回答
Hadoop多个-put命令减速
、
我正在尝试将大量数据(几千个文件加到19 to )复制到Hadoop集群中。我在文件的子集上运行bash循环,运行的循环越多,所有复制的东西就越慢 do cat $filename | ssh user@hadoop "hadoop fs -put - /path/to/new/data/$filename"; 当我在集群上移动数据时,也会出现同样的问题,所以我不认为是通过网络复制造成问题的。编辑:集群
浏览 0
提问于2016-12-07
得票数 0
回答已采纳
1
回答
为什么我应该避免在Hadoop中存储大量的
小文件
?
、
我读过很多存储在
HDFS
中的
小文件
可能是一个问题,因为很多
小文件
意味着很多对象Hadoop NameNode内存。但是,由于每个块都作为一个对象存储在指定的节点中,那么对于一个
大文件
来说,它有什么不同呢?既然它们是在块上操作,那么块是
小文件
还是
大文件
又有什么关系呢?
浏览 0
提问于2017-10-21
得票数 1
回答已采纳
1
回答
HDFS
(序列文件)中的单个
大文件
还是多个
小文件
?
、
目前,我正在使用Sequence File压缩现有的
HDFS
数据。 尽可能将
小文件
浏览 1
提问于2017-03-11
得票数 0
回答已采纳
2
回答
将
小文件
合并为用于Hadoop分布式缓存的
大文件
?
、
我有很多
小文件
(大小约1MB)需要分发。众所周知,Hadoop
和
HDFS
更喜欢
大文件
。但我不知道这是否也适用于分布式缓存,因为分布式文件存储在本地计算机上。如果它们需要合并,在
HDFS
上以编程方式合并文件的最佳方式是什么? 还有一个问题:使用symlink的好处是什么?谢谢
浏览 1
提问于2013-04-07
得票数 2
回答已采纳
3
回答
合并小型
HDFS
数据块的最简单方法是什么?
、
、
我用Flume把日志收集到
HDFS
上。对于测试用例,我有很小的文件(~300kB),因为日志收集过程是根据实际使用进行扩展的。有没有什么简单的方法可以将这些
小文件
组合成更接近
HDFS
块大小(64MB)的
大文件
?
浏览 0
提问于2010-12-13
得票数 6
回答已采纳
4
回答
从Hadoop提供静态文件
、
、
、
、
我的工作是为静态图像/视频文件设计一个分布式
系统
。数据的大小大约是几十兆字节。更清楚一点的是,这是一个
系统
: Hadoop文件
系统
。我以前使用过Hadoop,但我没有使用Hadoop作为HTTP请求的静态文件存储库的经验。
浏览 11
提问于2013-06-02
得票数 4
回答已采纳
5
回答
HDFS
-加载大量文件
、
、
、
、
为了测试目的,我试图将大量的
小文件
加载到
HDFS
中。实际上,我们讨论的是大约100万(1'000'000)个大小为1KB到100 1KB的文件。我在一个文件夹中的Linux
系统
上用R脚本生成了这些文件。每个文件都有一个信息结构,其中包含一个带有产品信息的标头,以及包含数字信息的不同数量的列。问题是当我尝试用命令将这些本地文件上传到
HDFS
中时:
hdfs
dfs -copyFromLocal /home/user/Documents/smallD
浏览 2
提问于2015-08-13
得票数 2
3
回答
如何将
HDFS
小文件
合并为一个
大文件
?
、
、
、
我有从Kafka流生成的
小文件
的数量,所以我喜欢合并
小文件
到一个单一的文件,但这种合并是基于日期,即原始文件夹可能有以前的文件数量,但我只喜欢合并给定的日期文件到一个单一的文件。 有什么建议吗?
浏览 9
提问于2018-07-26
得票数 0
1
回答
HDFS
小文件
、
、
我有一个源,有许多
小文件
( mb),一些中等文件(1MB到5MB)
和
一些
大文件
(大于50MB) 现在可以选择将这些文件放入
HDFS
(合并文件)或HBase (作为MOBs)。就向最终用户摄取
和
显示文件的性能而言,推荐使用哪种方法?
浏览 1
提问于2015-08-29
得票数 1
2
回答
BlockSize与大数据
、
每个人都知道Hadoop对
小文件
的处理很差,因为它必须使用映射器的数量。但是
大文件
呢,它比块大小稍微大一点。例如,假设
hdfs
块大小为128 an,hadoop接收126 an至130 an之间的文件。126 to
和
128 to之间的文件适合存储在hadoop中,但是对于129 to 130 to的文件,hadoop需要2个映射器才能读取这些文件吗?如何在hadoop中处理这个问题,以克服
hdfs
块更大的事实? (预先谢谢:)
浏览 3
提问于2016-02-29
得票数 0
回答已采纳
1
回答
HDFS
Balancer -适用于包含1KB文件的群集
我有一个包含3个节点的
HDFS
集群。该集群包含大量
小文件
(KB),我已经达到了每个节点数百万个数据块。 我又向集群中添加了4台新服务器,并启动了均衡器进程,但看起来效果不是很好。-目标是减少每台服务器的数据块数量 为了平衡
小文件
,我应该更改以下参数的值以支持从1KB大小的文件移动吗?Ddfs.balancer.getBlocks.min-block-size=1048 **我确实知道
HDFS
应该管理
大文件
-处理压缩
浏览 25
提问于2021-10-16
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据 HDFS 小文件处理方案
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
如何从根源上解决 HDFS 小文件问题
超简单超详细python小文件、大文件、批量下载教程
HDFS,你必须知道,你必须测试
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券