腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
2
回答
用作MapReduce文件系统的要求是什么
、
我知道S3和其他一些文件系统可以替代HDFS,我想知道一个文件系统需要满足哪些要求才能在MapReduce框架中用作HDFS的替代品?
浏览 0
提问于2012-08-28
得票数 0
2
回答
HDFS put:没有这样的文件或目录,即使文件在那里
、
我正在尝试使用以下命令在HDFS中上载文件: sudo -u hdfs hdfs dfs -put /home/hive/warehouse/sample.csv hdfs://[ip_redacted]:9000/data 我可以确认HDFS工作正常,因为我已经很好地创建了/data目录。 即使给出.csv文件的完整路径,也会产生相同的错误: put: `/home/hive/warehouse/sample.csv': No such file or directory 为什么它会给出这个错误?
浏览 114
提问于2019-07-24
得票数 0
3
回答
“本地文件系统”是什么意思?
、
我目前正在阅读关于hadoop的文章,这让我感到困惑(请记住,当涉及到hadoop时,我完全是新手)- 使用Hadoop get命令将文件从HDFS拷贝到本地文件系统: $ hadoop hdfs dfs -get file_name /user/login_user_name 什么是本地文件系统?我知道HDFS在整个集群中将文件划分为不同的块(但我知道还有更多)。我对上述命令的理解是,我可以将文件从集群复制到我的个人(即本地)计算机上?或者这是完全错误的吗?我只是不完全确定什么是本地文件系统。
浏览 3
提问于2017-03-22
得票数 0
1
回答
Hadoop hdfs vs ext3
、
我在互联网上读到在运行hadoop时ext3文件系统是可以使用的。(参见页末) 那么我们为什么需要hdfs 我假设hdfs是一个文件系统,类似地,ext3是另一种类型的文件系统。 请让我知道ext3和hdfs在hadoop中是如何工作的? 谢谢。
浏览 1
提问于2015-05-12
得票数 1
1
回答
哪些文件系统可用于检查点设置
、
、
、
文档说,任何与Hadoop API兼容的文件系统(如HDFS、S3 )都可以用作检查点目录。 我的问题是,除了HDFS和S3之外,使用Kafka和Cassandra的spark流媒体应用程序还有什么其他实用的替代方案。 谢谢
浏览 2
提问于2016-01-07
得票数 1
3
回答
文件是否需要在HDFS中才能在分布式缓存中使用?
、
、
我得到了 Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: file:/path/to/my.jar, expected: hdfs://ec2-xx-xx-xx-xxx.compute-1.amazonaws.com 如果我尝试将本地文件添加到hadoop中的分布式缓存。当文件在HDFS上时,我没有得到这个错误(显然,因为它使用的是预期的文件系统)。有没有一种方法可以在分布式缓存中使用本地文件,而无需首先将其复制到hdfs?下面是一个代码片段: Configuration conf
浏览 3
提问于2012-03-16
得票数 2
1
回答
如何使用libhdfs.so获取hdfs配置信息
、
、
、
、
正如标题所示,在JAVA API中,org.apache.hadoop.conf.Configuration中有几种方法可以获取有关我们在hdfs配置文件中所配置内容的详细信息。例如hdfs-site.xml、core-site.xml。但是我想通过使用C应用程序接口,libhdfs.so来获得它。有人能帮我吗?
浏览 2
提问于2014-08-27
得票数 0
1
回答
hadoop在windows上,如何将D:\folder1和E:\folder1添加到hdfs?
hadoop fs -put popularNames.txt /user/hadoop/dir1/popularNames.txt 我的文件夹非常大,大约有3 TB。我不想复制文件夹,我想将hdfs设置到该位置。怎么做呢?
浏览 0
提问于2016-06-25
得票数 0
1
回答
具有HDFS和本地文件系统文件的-Dpig.additional.jars
、
、
如何将jars从本地文件系统和Hadoop分布式文件系统(HDFS)传递给-Dpig.additional.jars 假设我有两个罐子: /home/local/myjar1.jar hdfs:/user/notlocal/myjar2.jar 第一个jar位于我的本地目录中。第二个jar在HDFS中。 我想在Hadoop集群上运行test_script.pig1,并在-Dpig.additional.jars中包含上述两个jars。 pig -x mapreduce -f test_script.pig1 -Dpig.additional.jars=/home/local/m
浏览 1
提问于2014-07-28
得票数 1
回答已采纳
1
回答
来自不同服务器的Hadoop输入
、
、
我有一个主节点和两个数据节点,它们位于不同的服务器上。对于这两个数据节点,每个节点在自己的HDFS中都有一个日志文件。现在,我想运行Hadoop在主节点上执行map/reduce,输入应该是来自两个数据节点的HDFS的两个日志文件。我能这么做吗?如果可以,如何设置输入路径?(例如hadoop jar wordcount.jar数据节点1/input/logfile1数据节点2/input/Logfile2 output ...like this?)有没有可能来自不同datanode的HDFS的输入位于不同的服务器中?
浏览 0
提问于2013-07-10
得票数 0
回答已采纳
5
回答
什么是" Hadoop“-Hadoop的定义?
、
、
、
、
这是很明显的,我们都会同意,我们可以称HDFS + YARN + MapReduce为Hadoop。但是,在Hadoop生态系统中,不同的其他组合和其他产品会发生什么呢? 例如,HDFS + YARN + Spark仍然是Hadoop吗?HBASE是Hadoop吗?我想我们考虑的是HDFS + YARN + Pig Hadoop,因为Pig使用MapReduce。 只是MapReduce工具被认为是Hadoop,但是在HDFS + YARN上运行的任何其他工具(比如火花)都是非Hadoop。
浏览 18
提问于2015-01-24
得票数 13
回答已采纳
4
回答
火花基本面
、
、
我对火花很陌生..。在复习基本面时,我不太清楚一些基本的事情: 查询1.对于分布式处理--可以不使用HDFS - Hadoop文件系统而在集群上工作(比如创建自己的分布式文件系统),还是需要一些基本的分布式文件系统,如HDFS、GPFS等。 查询2.如果我们已经在HDFS中加载了一个文件(作为分布式块),那么Spark将再次将其转换为块,并在其级别上重新分发(用于分布式处理),或者只使用Haddop HDFS集群中的块分发。 查询3.除了定义DAG之外,SPARK还像MapReduce那样创建分区,并将分区洗牌到还原器节点以进行进一步的计算?我也对此感到困惑,在DAG创建之前,很明显,在每个工
浏览 7
提问于2015-08-24
得票数 1
回答已采纳
1
回答
我可以在Azure HDInsight中使用WebHDFS吗?
、
、
我已经创建了一个以Azure存储作为HDFS的HDInisght。我想知道是否可以使用webHDFS apis将二进制文件上传到HDFS。 我试过https://<HOST>:<HTTP_PORT>/webhdfs/v1/。但我不确定Host和Http_port。 同时,我检查了hdfs-site.xml,发现 <property> <name>dfs.webhdfs.enabled</name> <value>false</value> <final>true</
浏览 0
提问于2020-07-14
得票数 0
回答已采纳
1
回答
Hadoop HDFS和序列文件
、
、
我有一个非常基本的概念级别的问题出现在我的脑海中,HDFS和各种文件格式之间有什么区别和联系-序列文件(基于它的映射文件),HAR文件? 我认为答案是,HDFS是基础文件系统,我们可以将原始二进制文件上传到HDFS (不使用序列文件、HAR文件等),也可以使用一些特殊设计的文件格式来写入基于HDFS的文件--如序列文件(基于它的映射文件)格式、HAR文件格式。这是正确的理解吗?
浏览 2
提问于2012-12-01
得票数 1
回答已采纳
1
回答
如何强制HBase在HDFS上运行?
、
、
我在本机文件系统上使用HBase并创建了几个表。现在,我配置了HDFS,并希望HBase使用它。我启动了Namenode和Datanode,但是找不到一个可以告诉HBase使用HDFS的设置。 我认为它可能会在重新启动时获得HDFS,所以我这样做了(停止-hbase+ start-hbase),但我仍然能够看到先前在本机文件系统上创建的表。 如何告诉HBase使用HDFS?
浏览 2
提问于2012-11-13
得票数 1
2
回答
是否可以将日志写入/附加到hdfs中的压缩文件?
、
、
、
我正在测试hadoop和hive,我想在日志分析中使用它们。 在这里我有一个问题,我是否可以将日志写入/附加到位于hdfs中的压缩文件? 我们的系统每天生成大量的日志文件,我可以每小时压缩这些日志文件,并将它们放到hdfs中。 但是,如果我想要将日志写入hdfs中已存在且已压缩的文件中,该怎么办? 如果这些文件没有被压缩,那么这项工作似乎很容易,但是如何将日志写入或附加到压缩的日志中? 我可以这样做吗? 有没有人能给我一些建议或者举一些例子? 非常感谢!
浏览 2
提问于2012-02-06
得票数 0
2
回答
如果没有本地文件系统的帮助,如何将HDFS中的多个文件附加到HDFS中的单个文件中?
、
我在学hadoop。我现在遇到了一个问题。我运行mapreduce作业,输出存储在多个文件中,但不是单个文件。我想将它们全部添加到hdfs中的单个文件中。我知道appendToFile和getmerge命令。但它们只适用于local file system to hdfs或hdfs to local system,而不是HDFS to HDFS。有没有办法在不接触本地文件系统的情况下将HDFS中的输出文件附加到HDFS中的单个文件中?
浏览 6
提问于2019-11-29
得票数 0
8
回答
"hadoop fs“shell命令和"hdfs dfs”shell命令有什么区别?
、
它们应该是相等的吗? 但是,为什么"hadoop fs“命令显示hdfs files,而"hdfs dfs”命令显示本地文件? 以下是hadoop的版本信息: jenkins在Mon Apr 22 10:48:26 PDT 2013编译的 Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0-mr1-cdh4.2.1/source -r
浏览 138
提问于2013-08-09
得票数 118
回答已采纳
1
回答
无法从Python脚本中的HDFS访问目录
、
、
、
我有以下python脚本(我设法在本地运行它): #!/usr/bin/env python3 import folderstats df = folderstats.folderstats('hdfs://quickstart.cloudera.8020/user/cloudera/files', hash_name='md5', ignore_hidden=True) df.to_csv(r'hdfs://quickstart.cloudera.8020/user/cloudera/files.csv', sep=','
浏览 1
提问于2019-06-03
得票数 3
1
回答
如何从现有web应用程序访问HDFS(Hadoop文件系统
、
、
、
、
我已经在我的集群上安装了hadoop 1.0.4,包括1个主服务器和3个从服务器,现在我想通过我的web应用程序访问我的HDFS文件系统,以存储和访问现有web应用程序的数据。 因为我的web应用程序当前使用MySQL作为数据库,所以我希望将其替换为HDFS。 那么,我可以使用什么来通过现有的web应用程序访问HDFS呢? 出于后端数据迁移的目的,我使用sqoop和flume,但我希望与HDFS进行实时应用程序同步。因为我保存的网页应该直接去HDFS和我想要的搜索应该直接从HDFS。 请提个建议。 提前谢谢。
浏览 0
提问于2013-03-23
得票数 1
回答已采纳
1
回答
-ls与hdfs -ls的区别
、
我想知道: hdfs@hdfs-namenode-0:/ $ ls和hdfs@hdfs-namenode-0:/ $ hdfs dfs -ls / 同时,我想读取一个csv文件,该文件位于tmp上,但始终没有这样的文件或目录: 因此,这项工作都是在库伯内特斯(迷你库贝)。 谢谢你帮忙!
浏览 6
提问于2022-06-08
得票数 1
回答已采纳
1
回答
如何使用Hadoop处理视频数据
、
现在我有了一些大视频数据。我想用Map/Reduce解码hadoop中的视频数据。 我想使用的解码类库是ffmpeg。但函数av_open_input_file只能读取本地文件,不能读取HDFS上的文件。 因此,如果我想解码视频数据,我应该初始化struct AVFormatContext。现在我拿不到这个struct了。如何读取视频文件头,初始化AVFormatContext?并逐个字节地读取视频数据并最终解码?
浏览 2
提问于2012-11-21
得票数 0
1
回答
如何在现有系统中实现Hadoop框架
、
、
、
、
我计划在我的基于web的应用程序中实现Hadoop框架。但我只是将其托管在本地主机中。我计划实现mapreduce和hdfs作为分布式文件系统。问题是,我要做的第一步是什么?我应该从什么开始呢?我对Hadoop框架进行了深入的研究。了解它是如何工作的,并尝试使用互联网上的wordcount示例。
浏览 2
提问于2015-02-04
得票数 0
1
回答
带有HDFS的Tensorflow Dataset API
、
、
我们已经将*.tfrecord文件列表存储在HDFS目录中。我想使用新的Dataset API,但给出的唯一示例是使用旧的filequeue和string_input_producer ()。除其他外,这些方法很难产生划时代。 是否有任何方法在Dataset API中使用HDFS?
浏览 0
提问于2018-02-09
得票数 6
回答已采纳
2
回答
在hadoop的映射阶段写入本地文件
、
Hadoop将中间结果写入本地磁盘,将reducer的结果写入HDFS。HDFS是什么意思。它在物理上翻译成什么?
浏览 1
提问于2012-09-14
得票数 0
回答已采纳
2
回答
在Java上使用DFSClient将文件上传到HDFS
、
、
我试图使用与Hadoop捆绑的DFSClient向我的HDFS上传/写入一个文件,但是我没有成功,下面的代码实际上是在HDFS中创建文件,但是它是空的(大小为0),获取文件并查看它的内容,我可以确认它是空的。 如何调试此行为?我已经确认了我的本地文件"dilox.txt“包含文本,并且缓冲区的循环是迭代的,我的理论是,由client.create()创建的输出缓冲区没有将任何东西发送回HDFS。 请注意,我不是在Hadoop作业中运行,而是在外部运行。 相关守则: String hdfsUrl = "hdfs://1.2.3.4:8020/user/hadoop";
浏览 8
提问于2015-12-15
得票数 1
回答已采纳
1
回答
Hadoop -如何获取HDFS文件的Path对象
、
我试图找出在Hadoop集群中将内容/文件写入HDFS的各种方法。 我知道有org.apache.hadoop.fs.FileSystem.get()和org.apache.hadoop.fs.FileSystem.getLocal()来创建输出流并逐字节写入。如果您使用的是OutputCollector.collect(),这似乎并不是为HDFS编写的预期方式。我相信您在实现Mappers和减速器时必须使用Outputcollector.collect(),如果我错了,请纠正我。 我知道您可以在运行作业之前设置FileOutputFormat.setOutputPath(),但是看起来它只能
浏览 4
提问于2014-05-07
得票数 0
回答已采纳
1
回答
Hadoop蜂巢外部表位置?
、
我在研究蜂巢。我应该在哪里创建外部表。在本地文件系统中还是在HDFS文件系统中?这是推荐用于项目的。
浏览 3
提问于2014-11-08
得票数 2
2
回答
Python/Dask支持的分布式文件系统
、
、
、
、
Dask支持哪些分布式文件系统?具体来说,您可以从哪个文件系统中读取dask.dataframe?从Dask文档中,我可以看到HDFS当然是受支持的。是否支持任何其他分布式文件系统,如Ceph等? 我可以在这里找到一些关于支持其他文件系统的想法的讨论:,但没有最后的结论,只是HDFS比其他选项“更糟糕”。 谢谢你的帮助!
浏览 3
提问于2018-05-11
得票数 3
回答已采纳
2
回答
为什么hadoop不能拆分一个大文本文件,然后使用gzip压缩分片呢?
、
、
、
我最近一直在研究hadoop和HDFS。当您将文件加载到HDFS中时,它通常会将文件拆分为64 it块,并将这些块分布在集群周围。但是,它不能用gzip'd文件来实现这一点,因为gzip'd文件不能被拆分。我完全理解为什么会这样(我不需要任何人解释为什么gzip d文件不能被拆分)。但是为什么HDFS不能将一个纯文本文件作为输入并像普通的那样分割它,然后使用gzip分别压缩每个拆分呢?当任何分割被访问时,它只是在动态地解压。 在我的场景中,每个拆分都是完全独立地压缩的。拆分之间不存在依赖关系,因此您不需要整个原始文件来解压缩任何一个拆分。这就是这个补丁所采用的方法:,注意这是而
浏览 1
提问于2011-06-28
得票数 7
2
回答
HDFS、NTFS和FAT32有什么区别?
为什么在Hadoop中使用称为HDFS的特定文件系统?与NTFS或FAT相比,HDFS有什么优势?选择HDFS for hadoop的原因是什么?
浏览 6
提问于2013-07-30
得票数 0
1
回答
HBase还是卡桑德拉?
、
、
在我的lambda体系结构中,我正在争论是使用HDFS还是Cassandra来存储我不变的数据。我需要卡桑德拉服务的在线请求等,所以这是强制性的部分,技术栈。现在,如果没有必要,我不想在堆栈中引入新工具(HDFS)。所以我的问题是,如果我不使用HDFS和使用Cassandra托管我不变的数据,我会错过什么。 编辑: 我知道HDFS是一个分布式文件系统,Cassandra是NoSQL DB。不过,两者都支持数据复制,都支持高吞吐量的写操作。此外,Cassandra还支持低潜在数据检索。所以,我说的对吗? HDFS不会给我带来太多的帮助吗?
浏览 5
提问于2015-11-19
得票数 2
回答已采纳
3
回答
Hadoop与HBase集成
、
我是大数据技术的新手,我有一个关于hbase如何与hadoop集成的问题。"Hbase位于HDFS之上“是什么意思?我的理解是,HDFS是分布在多个节点上的结构化和非结构化数据的集合,而HBase是结构化数据。 如何将Hbase与Hadoop集成,以提供对底层数据的实时访问。我们必须编写特殊的作业来构建索引之类的吗?换句话说,Hbase和hdfs之间是否有一个额外的层,其中包含HBase所理解的结构中的数据。
浏览 8
提问于2016-03-27
得票数 1
回答已采纳
3
回答
什么时候文件从本地系统移到HDFS?
、
、
我是Hadoop的新手,所以如果我的问题是微不足道的,请原谅我。 本地文件系统与HDFS不同。 在创建mapreduce程序时,我们使用fileinputformat.addInputPath()函数来文件输入文件路径。它是否将数据拆分为多个数据节点,同时也执行inputsplits?如果是,这些数据将在数据中停留多长时间?我们能把mapreduce程序写到HDFS中现有的数据上吗?
浏览 0
提问于2018-05-11
得票数 0
1
回答
HDFS web界面替代方案
、
、
、
好吧,这太烦人了!我是Hadoop的新手。我正在努力寻找合适的替代方案来替代基本的HDFS web界面。我尝试过hadoop eclipse插件,但它似乎已经过时了,正确设置它是一件痛苦的事情!我安装了cloudera的发行版,我听说过cloudera桌面,但它不再可用。有没有人能告诉我HDFS web界面的替代方案,我可以通过GUI轻松地下载和上传文件到HDFS?附注:我在本地运行所有的东西,不,集群参与。我尝试了很多,但似乎没有任何东西指向正确的方向
浏览 0
提问于2013-03-23
得票数 1
2
回答
在hadoop mapreduce应用程序中访问来自其他文件系统的文件以及hdfs文件
、
我知道我们可以从普通的java应用程序中调用map-reduce作业。现在,在我的例子中,map-reduce作业必须处理hdfs上的文件以及其他文件系统上的文件。在hadoop中,我们是否可以访问其他文件系统中的文件,同时使用hdfs上的文件。这有可能吗? 所以基本上我的意图是我有一个大的文件,我想把它放在HDFS中进行并行计算,然后将这个文件的块与其他一些文件(我不想放在HDFS中,因为它们需要一次作为全长文件访问)进行比较。
浏览 0
提问于2012-11-02
得票数 4
回答已采纳
1
回答
Oracle coherence和Hadoop HDFS之间的区别是什么
、
、
、
Oracle Coherence和Hadoop HDFS之间的区别是什么,读过HDFS和coherence (但没有什么是清楚的)听起来都是一样的。这些是不同的技术解决不同的问题,还是相同的技术但不同的产品?需要知道它们在技术方面的差异和相似之处,即从更广泛的角度来看,这两种技术在哪里适合? 注意:我不是要求产品比较(所以没有大猩猩和鲨鱼)。
浏览 0
提问于2012-09-30
得票数 4
1
回答
Hadoop和Mapreduce配置
、
、
关于Hadoop体系结构,我有几个问题。 在Mapreduce中,我们可以动态地修改映射器的块大小和no,如果是这样的话,我们该怎么办呢? 如何在HDFS中创建块。例如,hadoop框架安装在例如redhat linux机器上。linux文件系统的默认块大小是4k。HDFS块是4k块上的逻辑包装器,或者是如何创建块的。同时,它是并行的还是连续的?因为例如,一个文件只有32 MB,因为块大小是64 MB。剩下的32 Mb可重用吗? 我希望看到我刚刚复制到HDFS的所有特定文件块的位置(数据节点)。有什么命令可以在单一地点进行吗? 如果我将视频文件移动到HDFS,如何对此视频文件进
浏览 1
提问于2016-03-03
得票数 1
回答已采纳
3
回答
网格计算和HDFS(Hadoop分布式文件系统)有什么区别?
、
、
有没有人可以解释HDFS和网格计算之间的主要区别?
浏览 5
提问于2014-11-12
得票数 1
4
回答
对于火花工作负载是否需要HDFS?
、
、
、
、
HDFS并不是必要的,但在某些地方出现了建议。 为了帮助评估在运行HDFS方面所付出的努力: 将HDFS用于火花工作负载有什么好处?
浏览 8
提问于2015-09-19
得票数 5
1
回答
其中hadoop以编程方式存储用于读取和写入HDFS的文件。
我在我的机器上使用了伪分发模式设置,并在eclipse中创建了以下程序: 该程序只是将输入文件合并为HDFS中的单个文件。 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.F
浏览 2
提问于2014-11-26
得票数 1
2
回答
对于分布式模式,Hbase可以使用本地文件系统而不是DFS吗?
、
我有在独立模式下工作的hbase实例。我计划将其迁移到分布式模式(3台机器组成的集群)。我的问题是,我是否可以从独立模式迁移到分布式模式,而不会丢失独立模式中的数据?另外,是否有必要在分布式模式下使用HDFS?
浏览 2
提问于2013-05-16
得票数 1
1
回答
HBase独立性能与在HDFS集群上运行的比较
、
、
我的应用程序连接到HBase,并进行大量通信(每秒读取/写入数百或数千次)。这会严重影响性能,这可能是由于HBase对每个请求执行的I/O操作。 Doo.dle是对我的代码的调用--蓝色和红色的区别在于HBase消耗的时间。 目前,我只在独立模式下进行测试,在这种模式下,HBase使用本地文件系统存储数据。我想知道,在分布式模式下使用一个实际的HDFS是否会显着地提高性能,还是只会产生相同的结果。我试图在失去太多的时间来建立和运行一个集群之前,得到一个线索。 我问自己的第二个问题是,是否可以将独立的HBase配置为只将数据持久化到内存(RAM),而不是将其写入文件系统以进行性能评估。
浏览 2
提问于2015-04-07
得票数 5
1
回答
HDFS:如何让写变得原子化?
、
我有一些(奇怪的)用例,需要从多个映射器写入HDFS文件(端HDFS文件)。但我不确定在不破坏文件完整性的情况下是否允许这样做。请给我建议。谢谢!
浏览 0
提问于2012-06-09
得票数 0
回答已采纳
1
回答
状态是否保存在TaskManager的内存中,而与后端的状态无关?
我知道我既可以在flink的配置文件(flink-conf.yaml)中全局设置状态后端,也可以在每个作业的作用域中设置。 val env = StreamExecutionEnvironment.getExecutionEnvironment() env.setStateBackend(new FsStateBackend("hdfs://namenode:40010/flink/checkpoints")) 我有一个问题: 当flink作业继续运行时,属于TasManager的状态数据保存在TaskManager中的何处?我的意思是,当一个检查点完成时,检查点数据将保存在
浏览 18
提问于2020-09-07
得票数 0
回答已采纳
2
回答
Hadoop:从HDFS映射/还原
、
、
、
我可能错了,但是所有的(?)我在Apache Hadoop中看到的示例将存储在本地文件系统(例如org.apache.hadoop.examples.Grep)上的文件作为输入。 有没有一种方法可以加载和保存Hadoop文件系统(HDFS)上的数据?例如,我使用hadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls在HDFS上放置了一个名为'stored.xls‘的制表符分隔文件。应该如何配置JobConf来读取它? 谢谢。
浏览 2
提问于2009-04-24
得票数 0
回答已采纳
1
回答
从udf访问hdfs文件
、
、
我想从我的udf调用中访问一个文件。这是我的剧本: files = LOAD '$docs_in' USING PigStorage(';') AS (id, stopwords, id2, file); buzz = FOREACH files GENERATE pigbuzz.Buzz(file, id) as file:bag{(year:chararray, word:chararray, count:long)}; 罐子已经登记好了。路径对我的hdfs是现实的,在那里文件是真正存在的。打电话了。但似乎文件没有被发现。也许是因为我试图访问hdfs上的文
浏览 0
提问于2013-07-07
得票数 3
1
回答
当使用sc.textFile(" hdfs ://.....")时,spark和hdfs之间会建立多少连接?被调用
、
当使用sc.textFile(" hdfs ://.....")时,spark和hdfs之间会建立多少连接?是调用的。hdfs上的文件非常大(100G)。
浏览 0
提问于2018-09-13
得票数 0
1
回答
未能在Hadoop2.8上执行hdfs -ls命令
hdfs -ls命令不起作用,但Hadoop fs -ls工作正常,使用时我得到了以下错误 hdfs -ls. 无法识别的选项:-ls错误:无法创建。错误:发生致命异常。程序就会退出。 你能帮帮忙吗,我是刚到Hadoop来的。
浏览 1
提问于2017-07-10
得票数 0
1
回答
hadoop DistributedCache返回null
、
、
我正在使用hadoop DistributedCache,但我遇到了一些麻烦。我的hadoop处于伪分布式模式。 首先,我将我的文件放入DistributedCache: DistributedCache.addCacheFile(new Path( "hdfs://localhost:8022/user/administrator/myfile").toUri(), job.getConfiguration()); 然后在映射器setup()中检索,但DistributedCache.getLocalCache返回空。我可以通过 System.out
浏览 0
提问于2013-06-23
得票数 1
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
案例:HDFS分布式文件系统
Hadoop分布式文件系统(HDFS)基础概念讲解
架构入门必看,分布式文件系统HDFS解读
数据架构入门必看,分布式文件系统HDFS解读
大数据技术原理与应用——分布式文件系统HDFS
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券