腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
多线程
的
HDFS
读取
java
、
multithreading
、
hadoop
我正在
使用
多线程
从
HDFS
目录中
读取
文件,
使用
生产者-消费者模型,利用BlockingQueue。这是我
的
代码; 生产者类: public void readURLS() { try { FileSystem <
浏览 201
提问于2020-08-04
得票数 0
回答已采纳
1
回答
来自外部源
的
高效并行Hadoop负载?
bigdata
、
hadoop2
假设我有一个包含33000行
的
文本文件,其中每一行都是一个指向可通过HTTPS下载
的
1 GB .gz文件
的
URL。我们还假设我有一个由20节点组成
的
Hadoop 2.6.0集群。什么是最快
的
,但仍然简单和优雅,并行方式如何将所有的文件加载到
HDFS
中?到目前为止,我所能想到
的
最好
的
方法是一个bash脚本,它将通过SSH连接到运行一系列wget
的
所有其他节点,这些节点通过管道传递到
HDFS
put命令。但在这种情况下,
浏览 3
提问于2015-04-22
得票数 0
2
回答
如何在scala代码中实现
多线程
?
multithreading
、
scala
、
apache-spark
、
spark-dataframe
我是scala
的
新手,我正在尝试实现一个代码,首先
读取
文件夹中
的
文件列表,然后在
HDFS
中加载每个CSV文件。到目前为止,我正在
使用
for循环遍历所有CSV文件,但我希望
使用
多线程
来实现这一点,以便每个线程负责每个文件,并对各自
的
文件执行端到端处理。Location // saving data int
浏览 6
提问于2017-07-13
得票数 0
2
回答
为什么Hadoop作业需要这么
多线程
?
java
、
multithreading
、
hadoop
、
apache-pig
我对Hadoop
的
理解是,每个计算节点上
的
并行性是通过为每个核心启动单独
的
jvm来实现
的
。我运行这个脚本,映射
的
用户在我
的
节点上启动"Hadoop -最终指南“中
的</em
浏览 4
提问于2014-02-17
得票数 1
回答已采纳
2
回答
hadoop/
HDFS
:是否可以从多个进程写入同一文件?
hadoop
、
hdfs
f.e.创建20字节
的
文件。第二个从5到9我需要这个并行创建一个大文件
使用
我
的
MapReduce。 谢谢。附注:也许它还没有实现,但它通常是可能
的
-请告诉我应该在哪里挖掘。
浏览 4
提问于2012-08-09
得票数 0
1
回答
将数据从
hdfs
加载到本地系统
的
有效方法?
hadoop
、
hdfs
、
bigdata
我试图
使用
hadoop -get从
hdfs
到本地加载兆字节
的
数据,但是完成这项任务需要几个小时。是否有其他有效
的
方法将数据从
hdfs
获取到本地?
浏览 1
提问于2014-09-12
得票数 3
2
回答
电子病历和猪分两步走,来自S3
的
公共文件是否会被缓存以供重用?
amazon-web-services
、
amazon-s3
、
apache-pig
、
emr
我想运行一个EMR Pig作业,它在逻辑上被分成两个脚本(因此是两个步骤),但是这两个脚本之间
的
一些数据文件是通用
的
,我
的
问题是,当运行第二步(第二个脚本)时,Pig是否会识别这一点,并重用从S3
读取
的
文件
浏览 0
提问于2015-02-21
得票数 1
2
回答
将一个本地文件放入多个
HDFS
目录
hadoop
、
hdfs
、
cloudera
我们有一个测试用例,它将在一个包含1000个分区
的
目录上创建一个Hive表,然后查询随机分区。最初是用一系列for循环完成
的
,花了几个小时才完成:然后:将一个本地文件传递给多个目录只会引发一个错误,但是
使用
for循环需要几个小时
浏览 0
提问于2015-01-22
得票数 2
回答已采纳
1
回答
sqoop如何避免将重复数据从
HDFS
导出到RDBMS?
hdfs
、
sqoop
HDFS
以复制
的
形式存储数据,当我们
使用
SQOOP将数据从
HDFS
移动到RDBMS时,sqoop如何避免将重复数据从
HDFS
导出到RDBMS?
浏览 16
提问于2020-05-19
得票数 0
1
回答
HDFS
如何同时将多个文件写入较低层
的
本地文件系统?
linux
、
asynchronous
、
hadoop
、
hdfs
在我完全理解之前,我想知道如果
HDFS
同时写入许多文件,它是如何保持高性能
的
。 例如,当前在一个数据节点上有100个用于读或写
的
文件。我认为它不仅仅
使用
几个线程来执行正常
的
同步IO操作。
HDFS
是创建100个工作线程来处理它们,还是在没有这么
多线程
的
情况下
使用
某种异步IO机制?
浏览 0
提问于2012-06-05
得票数 0
1
回答
如何在HBase中
读取
数据?
hadoop
、
hbase
我们知道HBase部署在Hadoop和
HDFS
之上。另外,我们知道当我们想从
HDFS
读取
文件(或记录)时,
使用
HDFS
CLI需要相当长
的
时间。但是即使HBase
使用
HDFS
,它也能够在几毫秒内
读取
密钥。这是怎么发生
的
?
浏览 0
提问于2019-06-21
得票数 1
回答已采纳
1
回答
如何将camel
hdfs
区块聚合为临时文件并从中
读取
java
、
apache-camel
、
hdfs
我有一个
使用
camel
HDFS
组件从
hdfs
读取
文件
的
路由。camel
HDFS
组件以块
的
形式
读取
文件。那么,如何聚合所有块并写入文件或任何其他输出源。这样,拆分器就可以
使用
\n来逐条
读取
提取记录并执行进一步处理。 这里
的
HDFS
文件很大。
浏览 5
提问于2015-09-10
得票数 0
2
回答
星火虫集群上
的
sqlContext.read...load()和sqlContext.write...save()代码在哪里运行?
hadoop
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
、
hadoop2
我
使用
从NFS共享加载/
读取
文件,然后将该文件
的
数据保存/写入
HDFS
。 我有一个三节点星团,其中有一个主节点和两个工作节点。我
的
星盘集群
使用
纱线作为群集管理器,因此两个工作节点是纱线NodeManager节点,主节点是YARN ResourceManager节点。我有一个远程位置,例如/data/file,它被挂载到所有三个纱线/火花节点,因为它是/data/file,其中所有csv文件都有一个以上,我想从中
浏览 5
提问于2017-07-11
得票数 1
1
回答
读取
数据文件中可用
的
文件路径,并
使用
spark
读取
这些文件
的
内容
scala
、
apache-spark
、
dataframe
、
rdd
它包含
hdfs
文件路径。我想
读取
这些值,然后
读取
文件
的
内容。在没有任何嵌套RDD
的
情况下,利用并行处理解决这一问题
的
最佳方法是什么。我正在
使用
Scala2.11和Spark2.1| value||
hdfs
://61.81.70.1...| |
hdfs
://61.81.70.
浏览 0
提问于2017-08-08
得票数 0
1
回答
从
hdfs
到本地目录
读取
文件
hadoop
、
mapreduce
、
hdfs
我是hadoop
的
初学者。我有两个疑问${HADOOP_HOME}/bin/hadoop dfs -ls 它只显示当前dir中
的
所有文件。那么,这是否意味着所有文件都是在没有我显式添
浏览 0
提问于2014-02-27
得票数 5
回答已采纳
1
回答
如何在HBase中启用短路
读取
?(hbase-site.xml)
hadoop
、
hdfs
、
hbase
因此,我将
HDFS
配置为执行短路
读取
,并且在
使用
HDFS
读取
API时,我检查了是否启用了短路
读取
,并且执行得非常好。(我可以看到功能启用成功
的
日志。)但是,当我在
HDFS
上运行HBase时,我不知道是否启用了这种短路
读取
。 这是我放在
hdfs
-site.xml中
的
属性,我找到了一个文档,在hbase-site.xml中,我也必须配置这个设置。这是真的吗,即使我已经把它放到
hdfs
-
浏览 3
提问于2021-01-18
得票数 0
4
回答
Hadoop -copyFromLocal找不到输入文件
hadoop
、
hdfs
sudo -u
hdfs
hadoop fs -copyFromLocal input.csv input.csv copyFromLocal: `input.csv': No such file or我给了input.csv文件
的
所有权限,我甚至把所有者改成了
hdfs
。我是Hadoop和Hbase
的
新手。
浏览 1
提问于2012-12-10
得票数 3
2
回答
从
HDFS
集群
读取
Parquet文件
hdfs
、
apache-nifi
查找有关如何
使用
Apache从
hdfs
集群
读取
拼板文件
的
建议。在集群中,有多个文件存在于单个目录下,想要在一个流程中全部
读取
。Nifi是否提供了一个内置组件来
读取
HDFS
目录中
的
文件(本例中为parquet)?示例-目录中
的
3个文件-
hdfs
://ap
浏览 0
提问于2018-11-09
得票数 0
回答已采纳
2
回答
使用
hbase / hive等选项通过
多线程
vs写入
HDFS
hadoop
、
hive
、
hbase
、
hdfs
我需要以一种高效
的
方式
使用
JAVA对hadoop系统进行批量写入。只是检查一下这里
的
选项。 与
使用
hbase / hive等选项相比,通过
多线程
写入
HDFS
是一项昂贵
的
操作。
浏览 5
提问于2017-02-16
得票数 0
回答已采纳
1
回答
使用
rhdfs库
读取
HDFS
时
的
大小问题
r
、
hdfs
我试图
使用
rhdfs库从R
读取
一些
HDFS
文件(csv文本)。我
使用
以下代码:f =
hdfs
.file(hdfspath,"r")> object.size(m)当我检查从
HDFS
读取
的
对象
的
大小时,就会出现这个问题。我只
读取
HDFS
文件系统中<e
浏览 0
提问于2016-07-04
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券