使用多线程的HDFS读取

文章/答案/技术大牛

发布

1回答

java、multithreading、hadoop

我正在使用多线程从HDFS目录中读取文件，使用生产者-消费者模型，利用BlockingQueue。这是我的代码；生产者类： public void readURLS() { try { FileSystem <

浏览 201提问于2020-08-04得票数 0

回答已采纳

1回答

假设我有一个包含33000行的文本文件，其中每一行都是一个指向可通过HTTPS下载的1 GB .gz文件的URL。我们还假设我有一个由20节点组成的Hadoop 2.6.0集群。什么是最快的，但仍然简单和优雅，并行方式如何将所有的文件加载到HDFS中？到目前为止，我所能想到的最好的方法是一个bash脚本，它将通过SSH连接到运行一系列wget的所有其他节点，这些节点通过管道传递到HDFS put命令。但在这种情况下，

浏览 3提问于2015-04-22得票数 0

2回答

如何在scala代码中实现多线程？

multithreading、scala、apache-spark、spark-dataframe

我是scala的新手，我正在尝试实现一个代码，首先读取文件夹中的文件列表，然后在HDFS中加载每个CSV文件。到目前为止，我正在使用for循环遍历所有CSV文件，但我希望使用多线程来实现这一点，以便每个线程负责每个文件，并对各自的文件执行端到端处理。Location // saving data int

浏览 6提问于2017-07-13得票数 0

2回答

为什么Hadoop作业需要这么多线程？

java、multithreading、hadoop、apache-pig

我对Hadoop的理解是，每个计算节点上的并行性是通过为每个核心启动单独的jvm来实现的。我运行这个脚本，映射的用户在我的节点上启动"Hadoop -最终指南“中的</em

浏览 4提问于2014-02-17得票数 1

回答已采纳

2回答

hadoop/HDFS:是否可以从多个进程写入同一文件？

hadoop、hdfs

f.e.创建20字节的文件。第二个从5到9我需要这个并行创建一个大文件使用我的MapReduce。谢谢。附注:也许它还没有实现，但它通常是可能的-请告诉我应该在哪里挖掘。

浏览 4提问于2012-08-09得票数 0

1回答

将数据从hdfs加载到本地系统的有效方法？

hadoop、hdfs、bigdata

我试图使用hadoop -get从hdfs到本地加载兆字节的数据，但是完成这项任务需要几个小时。是否有其他有效的方法将数据从hdfs获取到本地？

浏览 1提问于2014-09-12得票数 3

2回答

电子病历和猪分两步走，来自S3的公共文件是否会被缓存以供重用？

amazon-web-services、amazon-s3、apache-pig、emr

我想运行一个EMR Pig作业，它在逻辑上被分成两个脚本(因此是两个步骤)，但是这两个脚本之间的一些数据文件是通用的，我的问题是，当运行第二步(第二个脚本)时，Pig是否会识别这一点，并重用从S3读取的文件

浏览 0提问于2015-02-21得票数 1

2回答

将一个本地文件放入多个HDFS目录

hadoop、hdfs、cloudera

我们有一个测试用例，它将在一个包含1000个分区的目录上创建一个Hive表，然后查询随机分区。最初是用一系列for循环完成的，花了几个小时才完成：然后：将一个本地文件传递给多个目录只会引发一个错误，但是使用for循环需要几个小时

浏览 0提问于2015-01-22得票数 2

回答已采纳

1回答

sqoop如何避免将重复数据从HDFS导出到RDBMS？

hdfs、sqoop

HDFS以复制的形式存储数据，当我们使用SQOOP将数据从HDFS移动到RDBMS时，sqoop如何避免将重复数据从HDFS导出到RDBMS？

浏览 16提问于2020-05-19得票数 0

1回答

HDFS如何同时将多个文件写入较低层的本地文件系统？

linux、asynchronous、hadoop、hdfs

在我完全理解之前，我想知道如果HDFS同时写入许多文件，它是如何保持高性能的。例如，当前在一个数据节点上有100个用于读或写的文件。我认为它不仅仅使用几个线程来执行正常的同步IO操作。HDFS是创建100个工作线程来处理它们，还是在没有这么多线程的情况下使用某种异步IO机制？

浏览 0提问于2012-06-05得票数 0

1回答

如何在HBase中读取数据？

hadoop、hbase

我们知道HBase部署在Hadoop和HDFS之上。另外，我们知道当我们想从HDFS读取文件(或记录)时，使用HDFS CLI需要相当长的时间。但是即使HBase使用HDFS，它也能够在几毫秒内读取密钥。这是怎么发生的？

浏览 0提问于2019-06-21得票数 1

回答已采纳

1回答

如何将camel hdfs区块聚合为临时文件并从中读取

java、apache-camel、hdfs

我有一个使用camel HDFS组件从hdfs读取文件的路由。camel HDFS组件以块的形式读取文件。那么，如何聚合所有块并写入文件或任何其他输出源。这样，拆分器就可以使用\n来逐条读取提取记录并执行进一步处理。这里的HDFS文件很大。

浏览 5提问于2015-09-10得票数 0

2回答

星火虫集群上的sqlContext.read...load()和sqlContext.write...save()代码在哪里运行？

hadoop、apache-spark、apache-spark-sql、spark-dataframe、hadoop2

我使用从NFS共享加载/读取文件，然后将该文件的数据保存/写入HDFS。我有一个三节点星团，其中有一个主节点和两个工作节点。我的星盘集群使用纱线作为群集管理器，因此两个工作节点是纱线NodeManager节点，主节点是YARN ResourceManager节点。我有一个远程位置，例如/data/file，它被挂载到所有三个纱线/火花节点，因为它是/data/file，其中所有csv文件都有一个以上，我想从中

浏览 5提问于2017-07-11得票数 1

1回答

读取数据文件中可用的文件路径，并使用spark读取这些文件的内容

scala、apache-spark、dataframe、rdd

它包含hdfs文件路径。我想读取这些值，然后读取文件的内容。在没有任何嵌套RDD的情况下，利用并行处理解决这一问题的最佳方法是什么。我正在使用Scala2.11和Spark2.1| value||hdfs://61.81.70.1...| |hdfs://61.81.70.

浏览 0提问于2017-08-08得票数 0

1回答

从hdfs到本地目录读取文件

hadoop、mapreduce、hdfs

我是hadoop的初学者。我有两个疑问${HADOOP_HOME}/bin/hadoop dfs -ls 它只显示当前dir中的所有文件。那么，这是否意味着所有文件都是在没有我显式添

浏览 0提问于2014-02-27得票数 5

回答已采纳

1回答

如何在HBase中启用短路读取？(hbase-site.xml)

hadoop、hdfs、hbase

因此，我将HDFS配置为执行短路读取，并且在使用HDFS读取API时，我检查了是否启用了短路读取，并且执行得非常好。(我可以看到功能启用成功的日志。)但是，当我在HDFS上运行HBase时，我不知道是否启用了这种短路读取。这是我放在hdfs-site.xml中的属性，我找到了一个文档，在hbase-site.xml中，我也必须配置这个设置。这是真的吗，即使我已经把它放到hdfs-

浏览 3提问于2021-01-18得票数 0

4回答

Hadoop -copyFromLocal找不到输入文件

hadoop、hdfs

sudo -u hdfs hadoop fs -copyFromLocal input.csv input.csv copyFromLocal: `input.csv': No such file or我给了input.csv文件的所有权限，我甚至把所有者改成了hdfs。我是Hadoop和Hbase的新手。

浏览 1提问于2012-12-10得票数 3

2回答

从HDFS集群读取Parquet文件

hdfs、apache-nifi

查找有关如何使用Apache从hdfs集群读取拼板文件的建议。在集群中，有多个文件存在于单个目录下，想要在一个流程中全部读取。Nifi是否提供了一个内置组件来读取HDFS目录中的文件(本例中为parquet)？示例-目录中的3个文件-hdfs://ap

浏览 0提问于2018-11-09得票数 0

回答已采纳

2回答

使用hbase / hive等选项通过多线程vs写入HDFS

hadoop、hive、hbase、hdfs

我需要以一种高效的方式使用JAVA对hadoop系统进行批量写入。只是检查一下这里的选项。与使用hbase / hive等选项相比，通过多线程写入HDFS是一项昂贵的操作。

浏览 5提问于2017-02-16得票数 0

回答已采纳

1回答

使用rhdfs库读取HDFS时的大小问题

r、hdfs

我试图使用rhdfs库从R读取一些HDFS文件(csv文本)。我使用以下代码：f = hdfs.file(hdfspath,"r")> object.size(m)当我检查从HDFS读取的对象的大小时，就会出现这个问题。我只读取HDFS文件系统中<e

浏览 0提问于2016-07-04得票数 0

回答已采纳

点击加载更多