hadoop查看大文件系统 - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

fs.s3.buffer.dir中临时文件的累积

、、、、

我正在使用s3运行EC2集群(s3://文件系统)。在这里，当我运行任何hive查询或对非常大的数据进行操作的hadoop命令时，它会在将临时文件复制到s3之前/之后将它们复制到节点上的本地磁盘上。

浏览 0提问于2015-11-24得票数 0

3回答

hadoop fs -text vs hadoop fs -cat vs hadoop fs -get

、、

我相信下面所有的命令都可以用来将hdfs文件复制到本地文件系统。有什么不同/情景利弊。( Hadoop新手在这里)。hadoop fs -text /hdfs_dir/* >> /local_dir/localfile.txt hadoop fs -cat /hdfs_dir/* >> /local_dir/localfile.txthadoop fs -get /hdfs_dir&

浏览 0提问于2014-09-19得票数 2

1回答

命令查找hadoop目录中的最大文件。

、、、、

我试图在hadoop文件系统上的给定目录中找到最大的文件。我找到了以下链接：，它显示了以下查找最大文件的命令：但当我跑的时候我找到find我还运

浏览 0提问于2016-12-21得票数 4

回答已采纳

3回答

Hadoop :为什么在RecordReader实现中使用FileSplit

在Hadoop中，考虑一个大文件已经加载到hdfs文件系统的场景，使用hdfs dfs put或hdfs dfs CopyFromLocal命令，大文件将被拆分成块(64MB)。

浏览 3提问于2014-12-31得票数 0

1回答

我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

、

我们能在流上使用hadoop生成输出吗？我有一个由日志和预约id组成的大文件，如果我使用传统的RDBMS，我可以得到预约id，但需要1或2个小时。日志文件大小为800 GB On意味着在管理员登录到系统时显示此约会id。我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

浏览 4提问于2013-10-25得票数 0

回答已采纳

1回答

在Hadoop框架中拆分大文件有什么好处

据我所知，Hadoop正在将大文件拆分成块这些大文件可以是文本或图像，如果我取消拆分功能会怎么样？这会影响Hadoop的性能吗？

浏览 1提问于2015-05-12得票数 0

3回答

使用hadoop对大型文本文件进行排序

、、、

如果任何人能提出一种方法来实现对这个巨大文件的排序，那就太好了。

浏览 5提问于2013-02-15得票数 1

3回答

Hadoop滚动小文件

、、、

我正在运行Hadoop的一个项目，需要一个建议。必须有一种正确的方法，简单地将大约100个文件滚动/合并为一个。因此Hadoop有效地读取了一个大文件，而不是10个。有什么建议吗？

浏览 0提问于2010-11-16得票数 1

1回答

Hadoop >在Hadoop作业运行时，datanode和namenode进程是否正在运行

、

Hadoop启动后，两种类型的守护进程正在运行。一个是namenode上名为namenode的守护进程，另一个是datanode上名为datanode的守护进程。我确信当通过"hdfs dfs“命令将本地文件系统中的大文件加载到HDFS时，会使用它们。但它是否也在Hadoop MapReduce作业运行时使用？

浏览 0提问于2015-11-14得票数 0

1回答

在hadoop python中处理多个文件

、、、、

我有一个场景，文本分隔的文件每30分钟从不同的服务器(大约10)到达hadoop系统。我希望这个解决方案能在python中实现，但是希望使用hadoop中的任何工具/技术的解决方案。

浏览 1提问于2017-04-16得票数 0

2回答

如何理解"hadoop有利于顺序数据访问“

我试着比较一下在本地文件系统和HDFS之间编写一个大文件的性能。结果有点让我困惑。从本地写到的时间比HDFS短。我不明白"Hadoop有利于顺序数据访问“的概念.records out [root@datanodetest01 tmp]# time hadoop

浏览 3提问于2015-09-07得票数 1

回答已采纳

2回答

如何在hadoop中获取像素RGB值？

、、、、

我在hadoop的hdfs中存储了数百万张图像。我想为这些图像建立一个索引。如何获取这些图像的像素RGB值？我是hadoop的新手，hadoop中的图像格式与原始图像的二进制格式不同。另一个问题是，为了提高效率，我是否应该使用hadoop中的序列文件将巨大的图像打包到一个大文件中？非常感谢。

浏览 0提问于2012-07-06得票数 0

1回答

Hadoop:对小文件使用CombineFileInputFormat会提高性能吗？

、

我对hadoop很陌生，并且在本地机器上进行了一些测试。有许多解决方案来处理，许多小文件，。我正在使用CombinedInputFormat，它扩展了CombineFileInputFormat。

浏览 3提问于2016-03-19得票数 0

1回答

Hadoop:是否有可能将多个文件一分为二？

、

我有很多文件组成的输入。它们的尺寸比blockSize大。每个文件经过处理后，至少会诱导一个InputSplit来处理它。基于FileInputFormat代码，它不是：337 Path path = file.getPath();339 if (length != 0) {341

浏览 1提问于2016-07-08得票数 0

回答已采纳

3回答

我完全是Hadoop的新手，尽管我对map reduce的概念非常了解。大多数Hadoop教程都从WordCount示例开始。所以我写了一个简单的字数统计程序，运行得很好。因此，我向Hadoop专家提出的问题是，Hadoop将如何处理大文件？它是将文件的副本传输到每个映射器，还是自动将其拆分成块并将这些块传输到映射器？我使用MapReduce的大部分经验都是因为Hadoop的映射器可以一次处理文档，但从我读到的关于CouchDB的内容来看，我想知道它是设计用于处理多个小文件还是几个<e

浏览 1提问于2013-03-19得票数 3

回答已采纳

1回答

用Dask从文件系统/S3中并行读取文件块？

、

我正在整理一个概念证明，在分布式环境中，我希望使用PyCuda来处理字符数据的大文件(每个任务在一个文件中~8GB)- AWS是具体的。我知道HDFS将分割数据文件并将其分发给工作人员，但我正在尽量保持环境的简单性，如果不必安装Hadoop，我宁愿不必安装Hadoop。鉴于上述段落和Dask框架，当前对文件系统的建议是什么？我是继续使用HDFS，还是有更好/更简单的解决方案？

浏览 2提问于2016-05-16得票数 3

回答已采纳

1回答

如何在Hadoop中处理大文件？

、、

这是一个noobie问题3 4 3 7 3 8 5 6 其中每列表示顶点，每行表示边。如何在Hadoop中处理大文件的这种情况？像这样读取意味着将整个内容加载到RAM中？在Hadoop中执行此操作的最佳方法是什么？

浏览 2提问于2014-06-12得票数 0

5回答

HDFS目录中允许的最大文件数是多少？

、、

HDFS (hadoop)目录中允许的最大文件和目录数是多少？

浏览 0提问于2011-06-15得票数 10

回答已采纳

2回答

存储静态图像/文件的网络文件系统

、

那么，什么是能够解决这个问题的最好的网络文件系统(分布式文件系统)，特别是可伸缩性。特别是，谢谢!

浏览 5提问于2012-01-27得票数 3

2回答

BlockSize与大数据

、

每个人都知道Hadoop对小文件的处理很差，因为它必须使用映射器的数量。但是大文件呢，它比块大小稍微大一点。例如，假设hdfs块大小为128 an，hadoop接收126 an至130 an之间的文件。126 to和128 to之间的文件适合存储在hadoop中，但是对于129 to 130 to的文件，hadoop需要2个映射器才能读取这些文件吗？如何在hadoop中处理这个问题，以克服hdfs块更大的事实？ (预先谢谢:)

浏览 3提问于2016-02-29得票数 0

回答已采纳

点击加载更多