hadoop 集群如何使用_hadoop集群如何使用_hadoop集群怎么使用 - 腾讯云开发者社区

hadoop、ssl-certificate、azure-hdinsight、ambari

我使用的是Azure HDInsight Hadoop集群类型，HDI :Hadoop2.7(HDI3.6)。这不是Kerberised群集，因为未启用ESP。现在我需要在这个hadoop集群上启用SSL。如何确保在hadoop集群中启用SSL？我可以在core-default.xml文件中看到hadoop.ssl.enabled属性为false。现在，如何在此hadoop集群上启用SSL。感谢你的他谢谢

浏览 2提问于2019-12-03得票数 1

1回答

Hadoop Kubernetes上的Dask

hadoop、kubernetes、cluster-computing、dask、kubernetes-helm

我已经通过helm chart在我的microk8s kubernetes集群上安装了Hadoop。我想知道如何在这个hadoop集群上的不同机器上创建一个dask集群。我尝试遵循Dask网站上的教程，但一直收到错误，因为它正在寻找本地的yarn/hadoop。如何指向kubernetes上的hadoop才能创建集群？

浏览 0提问于2020-06-16得票数 2

1回答

管理Hadoop COnfiguration /服务集群的主厨

hadoop、automation、chef-infra、knife、mapr

我正在尝试开发用于部署和管理Hadoop集群(特别是MapR)的厨师食谱。根据我的理解，Chef是以自动化方式安装hadoop集群的一个很好的工具。但是，我不确定Chef如何在安装后帮助管理/更改Hadoop集群的配置，如何将集群构建到集群完全崩溃的状态(在灾难恢复的情况下)。

浏览 0提问于2014-09-08得票数 0

回答已采纳

2回答

动物园管理员和卡夫卡在Hadoop2.6集群中的位置

hadoop、apache-zookeeper、apache-kafka

Hadoop2.6使用Yarn作为下一代地图减少，同时也是集群管理器。对于集群管理服务，我们还需要使用Hadoop2.6中的ZooKeep2.6吗？我们怎么设置动物园管理员。如何为hadoop集群安装Kafka连接。什么是卡夫卡的消费者和生产者将数据发送到hadoop文件系统。他们都在哪里。我已经设置了Hadoop2.6单节点集群。接下来，我理解的方法是让动物园管理员和Kafka负责数据流到hadoop文件系统。我不知道如何将kafka用于hadoop或其api。

浏览 2提问于2015-07-27得票数 4

回答已采纳

1回答

GCE上的Hadoop实例

hadoop、google-compute-engine、cluster-computing、google-cloud-dataproc

我正在引擎上建立一个Hadoop集群。但我很难理解集群实例将如何工作。我已经找了很多东西，但没有给出明确的答案。在设置Hadoop集群时，是否创建一个安装了Hadoop的实例的映像，并且每次启动此实例(映像)时都创建其他实例(节点)？但是，这种方法需要每次创建节点时都必须配置节点？有没有人有这方面的经验，并能提供一些文档，关于如何在Google引擎上设置Hadoop集群的一部分？

浏览 3提问于2014-04-28得票数 1

回答已采纳

3回答

如何查找cdh版本hadoop

hadoop、cloudera

连接Hadoop集群时，如何知道该集群运行的是哪个版本的Hadoop？特别是，在使用Maven编译和打包Hadoop Java作业时，这对于正确配置库非常重要。

浏览 104提问于2014-07-07得票数 18

回答已采纳

1回答

如何确定Hadoop使用的所有默认端口并更改所有端口？

hadoop、mapreduce、centos、port

我在运行CentOS 6.4的三台虚拟机集群上试用了Hadoop 2。我成功地启动了hadoop集群，尽管Hadoop 2的配置文件(如：、、和 )非常折磨我。我想更改Hadoop 2使用的所有默认端口。配置文件的正式文档定义了这么多端口号。因此，我认为最好确定Hadoop在运行时使用哪些端口，然后更改所有端口。那么，如何找到运行CentOS的集群中Hadoop使用的所有默认端口呢？谢谢。

浏览 3提问于2013-08-14得票数 0

回答已采纳

2回答

Hadoop分布式文件系统

hadoop

我有一个file.txt，它有3个块(块a、块b、块c)。hadoop是如何将这些块写入集群的。我的问题是hadoop是否遵循并行编写？还是块b必须等待块a写入集群？或块a和块b和块c并行写入hadoop集群.

浏览 2提问于2014-02-13得票数 2

2回答

hadoop是怎么工作的？客户端如何连接到hadoop

java、apache、hadoop、hdfs

我对hadoop有基本的理解。我的问题是客户机/开发人员如何连接到hadoop集群来执行查询。例如，我是hadoop开发人员。某个远程位置的Hadoop集群。如何连接到hadoop集群来运行我的java代码？我是否也必须在我的笔记本电脑中安装hadoop (为此我必须运行Linux)？或者，如果我与Hadoop集群在同一个网络中，只需在我的笔记本电脑中挂载共享，并将我的代码放入hadoop集群，是否可以呢？第二个问题:对于运行java代码，我是否必须对任何数据节点进行SSH，然后运行作业？以上两个问题一直困扰着我。我没有实时经验。提前谢谢你！

浏览 4提问于2014-11-07得票数 1

回答已采纳

1回答

我可以在运行的集群上应用Ambari吗？

hadoop、ambari

我在寻找如何更方便地监控Hadoop集群，然后我遇到了一个叫做Ambari的东西。我想将Ambari应用于运行中的Hadoop集群。是否可以将Apache应用于运行中的Hadoop集群？如果这是不可能的，是否有任何未来的补丁计划？

浏览 6提问于2020-11-12得票数 0

回答已采纳

2回答

如果我已经使用Ambari安装了Hadoop，那么我可以使用CDH安装第二个Hadoop吗？在同一台机器上

hadoop、cloudera-cdh、ambari

如果我已经在相同的三台机器上安装了一个安装了Ambari的Hadoop集群，我是否可以再有一个带有CDH的Hadoop集群？如果是，如何将原集群上的数据迁移到新集群？谢谢。

浏览 1提问于2018-06-07得票数 0

1回答

我可以从我的Axis2 Web服务调用Hadoop吗？

java、web-services、hadoop

我打算开发一个web服务，它可以与Hadoop主节点对话，执行一些任务。这些任务包括: 1.启动和停止hadoop集群2.从hadoop集群3中添加和删除从节点。我不指望你们把一切都告诉我(请不要！)但是请告诉我如何从我的web服务中调用Hadoop。包括在类路径中的Hadoop罐子够了吗？我想我也需要一些配置。请指导我在web服务和Hadoop集群之间建立一个简单的调用流程。

浏览 0提问于2011-02-26得票数 0

1回答

将Hadoop配置为多节点集群

hadoop

我在VMware上的centos上安装了Hadoop2.4.1。我应该将Hadoop集群配置为多节点cluster.First，我不知道如何在Hadoop‘集群上构建多个节点。其次，我应该如何配置Hadoop集群上的节点？请一步一步地详细地指导我，特别是在定义节点方面。

浏览 3提问于2014-12-06得票数 2

2回答

节点添加后hadoop和hbase的再平衡

hadoop、hbase

我有一个关于负载均衡器的基本问题。我刚刚完成向hadoop(2.3)集群添加新节点，该集群也有hbase v0.98。添加后，在hadoop和hbase中的所有节点都在线， hbase如何受到hadoop再平衡器的影响？在hadoop再平衡之后，我是否需要显式地尝试重新平衡hbase？我的Hadoop集群完全被hbase占用。设置balancer_switch=true，它会自动重新平衡hbase和hadoop吗？怎样才能确保hadoop和hbase都被重新平衡并且工作得很好呢？

浏览 11提问于2014-05-15得票数 18

1回答

hadoop命令为什么不能在google云shell上工作

shell、hadoop、cloud

在谷歌DataProc中为我的项目创建集群之后，我尝试为Hadoop键入几个命令(比如hadoop fs -ls)。不幸的是，云外壳完全没有看到Hadoop！ -bash: hadoop:命令未找到堆叠溢出的人说： “它不能在Cloud中工作，因为它没有预装Hadoop实用程序。但我不知道如何安装或者激活它。也许是通过集群创建，但是通过dataproc创建集群却有问题。我是通过云shell来做的。如何正确使用云shell中的Hadoop命令？

浏览 2提问于2021-09-19得票数 0

1回答

1个Hadoop和Hbase大簇与1个Hadoop簇+1个Hbase簇

hadoop、hbase

Hadoop将通过从Hbase读取数据并将数据写入Hbase来运行许多作业。假设我有100个节点，那么有两种方法可以构建Hadoop/Hbase集群： 100节点hadoop & hbase集群 (1大Hadoop&Hbase) 分离数据库()，然后我们有两个集群：60节点Hadoop集群和40节点Hbase集群 (1 Hadoop +1 Hbase) 哪种选择更好？为什么？谢谢。

浏览 4提问于2014-04-19得票数 1

回答已采纳

2回答

如何创建和配置Hadoop客户端脚本？

java、shell、hadoop、sqoop

有一个正在运行的Hadoop集群。我已经下载了Hadoop发行版(在本例中为0.20.205.0) 我需要创建一些shell脚本(bash/zsh/perl)，以便能够在该集群上调用Hadoop。理想情况下，它应该能够以这种方式从Sqoop脚本中调用： exec ${HADOOP_HOME}/bin/hadoop com.cloudera.sqoop.Sqoop "$@" 如何调用Hadoop并提供namenode/jobtracker URI？如何通过Sqoop和DB驱动程序提供额外的库？

浏览 3提问于2013-02-27得票数 1

1回答

如何找到我的hadoop集群的集群id？

hadoop、amazon-web-services、amazon-s3

我希望将数据从AWS S3复制到我的hadoop集群。在研究复制数据的过程中，我发现了。在阅读有关它的文章时，我偶然发现了集群标识项。我从上读到了有关集群id的文章，但是无法确定如何获得hadoop集群的集群id。在哪里可以找到hadoop集群的集群id？注意：--我使用的是HortonWorks2.2集群设置

浏览 1提问于2015-03-13得票数 2

回答已采纳

1回答

如何为已存在的Hadoop集群部署FreeSWITCH

hadoop、cluster-computing、sip、voip、freeswitch

我计划在Hadoop集群的帮助下平衡注册和邀请FreeSWITCH的任务负载，所以我的问题如下：我想知道是否可以为现有的Hadoop集群部署FreeSWITCH。如果没有，请跳到第三个问题。如何配置和部署FreeSWITCH。对于FreeSWITCH的负载平衡还有其他解决方案吗？ PS:我的Hadoop集群由vmware构建在虚拟mathine上，操作系统是Ubuntu 14.04、Hadoop-2.6、HBase-0.98、动物园管理员-3.6、FreeSWITCH-1.4.14。

浏览 2提问于2015-04-15得票数 0

1回答

在远程群集上运行带Hbase的Map Reduce

hadoop、hbase、apache-pig、bigdata

我有一个包含某些数据的HBase集群。我还有一个hadoop集群，其中也包含某些数据。现在，是否可以使用来自hbase集群的数据在hadoop集群上运行map reduce作业？我们如何使用pig来做到这一点呢？

浏览 2提问于2014-03-17得票数 0

2回答

差异:单节点和多节点

hadoop、bigdata

我试图在虚拟机中安装Hadoop，我找到了一个教程，解释了如何在多节点集群中安装Hadoop。所以我的问题是，单节点集群和多节点集群之间有什么区别？ (预先谢谢:)

浏览 7提问于2014-05-19得票数 1

回答已采纳

1回答

无法通过远程在纱线Hadoop集群上启动python脚本

python、hadoop、hadoop-yarn

从几个星期以来，我试图通过远程访问或连接到纱线集群的pyspark来提交python脚本。我对HADOOP世界很陌生。我想要的是在外部HADOOP集群上的本地shell中提交火花脚本。我的情况:外部hadoop纱线集群。可以进入重要的港口。我有Windows 7 64位/Python2.7.9 64位/Spark1.4.1。HADOOP集群运行时没有任何问题。我的问题是:通过HADOOP集群上的远程访问提交python脚本不起作用。如果我尝试火花-提交-主纱线-集群-num-执行器2-驱动器-内存512 m-执行器-内存512 m-执行器-核心4.example.py 上面写着 Err

浏览 2提问于2015-08-21得票数 2

1回答

是否在HDFS集群上重新分配数据？

apache-spark、hadoop、hdfs

我正在阅读Hadoop和Spark文档，以了解spark如何在Hadoop集群上工作。根据Hadoop文档，Hadoop集群是一组具有计算和数据存储能力的通用硬件，它们还假定“移动计算比移动数据便宜”。现在，当我处理一个大文件，它是存储在HDFS上使用火花。Spark是否会随机地将文件中的数据重新分发到Hadoop集群，或者它知道存储数据分区的节点将要求各自的节点处理其数据？我提出了这个问题，因为没有提到火花如何处理Hadoop集群上的数据分区。如果星星之火重新分配数据，那么这种重新分配开销背后的逻辑是什么呢？

浏览 11提问于2022-09-13得票数 1

回答已采纳

1回答

将蜂窝数据从一个Hadoop集群移动到另一个Hadoop集群，而不使用distcp命令？

hadoop

如何不用distcp命令将数据从一个Hadoop集群移动到另一个Hadoop集群。因为我们不能用这个。我们还有其他选择像Sqoop或Flume吗？

浏览 2提问于2015-10-13得票数 0

1回答

仅仅使用Active Directory不足以保护hadoop吗？

active-directory、security、ldap、kerberos、hadoop

我试图保护安装在windows中的Hadoop环境。基本上，我开始分析如何保护基于Unix的hadoop集群。已经通过了与Kerberos和其他Apache附加组件(Knox/ Rhino/ Sentry)相关的各种链接。但要检查其中每一个，同时，找到了关于用户管理(LDAP)的Active。另外，在默认情况下，AD中似乎已经安装了Kerberos。因此，如果AD本身包含LDAP和Kerberos，我们不能单独使用Active Directory来保护hadoop集群吗？所有这些谷歌建议链接，都建议一个框架来保护公司预先形成的基于Unix的hadoop集群中的任何一个，授权- Activ

浏览 0提问于2014-11-21得票数 0

2回答

Hadoop客户端与集群分离

hadoop、cluster-computing、vpn、hadoop2

我也是hadoop，linux的新手。我的教授要求我们使用端口映射或VPN分离Hadoop客户端和集群。我不明白这种分离的含义。有人能给我个提示吗？现在，我了解了集群客户端分离的概念。我认为需要在客户端机器中安装hadoop。当客户端提交一个hadoop作业时，它将提交给集群的主程序。我有一些天真的想法： 1.创建客户端计算机并安装hadoop。 2.将fs.default.name设置为hdfs://master:9000 3.把dfs.namenode.name.dir设为file://master/home/hduser/hadoop_tmp/hdfs/namenode，对吗？ 4.

浏览 1提问于2016-02-10得票数 1

回答已采纳

2回答

如何将更大的文件上传到azure hadoop集群？

azure、hadoop、mapreduce

如何将更大的文件上传到azure hadoop集群？有没有办法通过远程桌面连接浏览到hadoop集群中的/example/apps目录，以便复制文件？

浏览 1提问于2013-01-21得票数 0

1回答

如何从Java创建HAR(Hadoop Archive)？

hadoop、har

我做了rest-service，它必须在hadoop集群中创建har文件。这个rest在应用服务器上工作，而不是在hadoop集群中。为此，我使用org.apache.hadoop.tools.HadoopArchives。但是我不知道如何在创建HadoopArchive对象时设置集群。 HadoopArchives har =新HadoopArchives(conf)；另一方面，当我尝试使用org.apache.hadoop.fs.FsShell时，我使用next FsShell外壳= newShellInstance()； conf.set("fs.defaultFS"，

浏览 22提问于2020-07-05得票数 0

1回答

Azure HDInsight : hadoop集群中的头节点是什么？

azure、hadoop、azure-hdinsight

我刚刚在HDInsight中设置了一个Hadoop集群，并试图开始使用Hadoop。我已经在集群上启用了远程登录并登录到它。我已将要处理的数据从桌面复制到此框中。文档将此框称为head节点，并有一个额外的步骤，讨论如何将数据复制到hadoop集群。这让我很困惑。我有以下问题：当我将数据从桌面复制到我登录的框时，不是真的将数据复制到hadoop吗？第一次复制操作与第二次复制操作有什么不同？ Hadoop中的头节点是什么？

浏览 7提问于2013-10-30得票数 1

1回答

HDInsight Hadoop集群和HDInsight星系团有什么区别？

azure-hdinsight

HDInsight Hadoop集群和HDInsight星系团有什么区别？我已经看到，即使在Hadoop集群中，也可以使用吡火花。是否与集群类型有关？也就是说，Hadoop集群意味着纱线作为集群管理层，而火花意味着火花独立(或Mesos?)作为集群管理层？如果是这样，我们仍然可以运行星火在Hadoop集群，我相信，所以星火将运行在纱线之上。

浏览 3提问于2016-07-12得票数 1

回答已采纳

2回答

是否可以从AWS Elastic Mapreduce作业访问zookeeper

hadoop、amazon-web-services、apache-zookeeper、elastic-map-reduce、emr

我是Hadoop新手，在AWS Elastic Mapreduce下运行。我需要在Hadoop中使用集群范围的原子计数器，因此建议使用zookeeper。我相信zookeeper是Hadoop堆栈的一部分(对吗？)，我如何从Elastic Mapreduce作业访问它来设置和更新集群范围的计数器？

浏览 0提问于2012-10-27得票数 0

回答已采纳

1回答

从eclipse访问Hadoop集群

eclipse-plugin、hadoop、hadoop-plugins

我只是按照Hadoop(0.20.2)安装教程进行了设置。我可以通过eclipse在集群上运行map还原程序。现在我的问题是如何从本地系统连接Hadoop集群。本地系统是windows 7，我已经为Hadoop安装了eclipse插件。我试图从本地系统(Windows)连接Hadoop (我的本地系统和Hadoop系统在同一个子网中)。连接到Hadoop服务器时出现了连接超时错误。在Hadoop的配置文件中，我给出了实际的IP地址。不知道我错过了哪一步？

浏览 1提问于2011-02-11得票数 1

4回答

火花对纱线概念的认识

hadoop、apache-spark、hdfs、hadoop-yarn

我正试图了解星火如何在纱线集群/客户端上运行。我脑子里有一个问题。是否有必要在纱线簇的所有节点上安装火花？我认为应该是因为集群中的工作节点执行一个任务，并且应该能够解码由驱动程序发送到集群中的代码(火花API)？它在文档中写道，“确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群(客户端)配置文件的目录”。为什么客户端节点在将作业发送到集群时必须安装Hadoop？

浏览 3提问于2014-07-23得票数 42

回答已采纳

1回答

如何在hadoop的单节点集群中运行Java程序？我需要把我的java代码转换成JAR文件然后执行吗？

java、hadoop、cluster-computing

我想在单节点hadoop集群上运行我的自定义java代码/程序。如何在hadoop的单节点集群中运行Java程序？我是否需要将Java代码转换为JAR文件，然后执行？

浏览 1提问于2016-11-13得票数 1

1回答

如何从hadoop群集中删除已删除的datanode详细信息

hadoop

我使用了以下属性来减少死节点超时。 Propertyname : dfs.heartbeat.recheck.interval value : 1 但是，当我从集群中删除datanode时，未从hadoop中删除的详细信息cluster.It仅在该集群中处于死节点状态。请建议如何从hadoop集群中删除已删除的datanode详细信息。

浏览 1提问于2015-07-02得票数 1

2回答

ApacheHadoop2.0中的Map减少作业

java、apache、hadoop、mapreduce、hadoop-streaming

我正在按照教程设置多节点集群并运行示例MapReduce程序。我正在设置Hadoop版本2.2.0。在Hadoop2.2.0中没有控制的目录。我使用当前目录中的find命令搜索jars。搜索结果是我的问题是如何在Hadoop多节点集群环境下运行mapreduce程序?

浏览 3提问于2014-02-15得票数 0

1回答

在Mac上设置Hadoop客户端

hadoop、osx-mavericks、cloudera-cdh

目前，我有使用MRv1运行CDH5.0的3节点集群.我正在努力弄清楚如何在我的Mac上安装Hadoop。因此，我可以向集群提交作业。根据“在CDH 5中管理Hadoop依赖项”，您只需要/usr/lib/hadoop/client-0.20/*中的文件--我也需要以下文件吗？Cloudera在tarball中有hadoop-client吗？ - core-site.xml - hdfs-site.xml - mapred-site.xml

浏览 3提问于2014-04-17得票数 2

回答已采纳

1回答

如何从卡桑德拉星系团中分离环

cassandra、datastax-enterprise、datastax

我们有一个cassandra DSE集群，其中10个节点用于cassandra环，10个节点用于hadoop环。现在，应用程序将数据写入cassandra环，cassandra将将数据复制到hadoop环。我们希望将两个环分开，并使它们成为两个不同的集群，应用程序同时将数据写入两个集群。如何将集群分离？这有可能吗？我们在集群中有600 it的数据，我们不能删除它。

浏览 1提问于2014-01-20得票数 2

3回答

在我的笔记本电脑上使用虚拟机安装多项式Hadoop集群

hadoop、vmware

我有一个windows 7笔记本电脑和，我需要在它上安装hadoop (mutlinode)集群。我已经做好了以下准备- - 虚拟软件，即virtualbox和vmware播放器。两个虚拟机，即 Ubuntu -用于Hadoop主和 Ubuntu - for (1X) Hadoop从机是否有人在您的笔记本上使用虚拟机安装过这样的集群？如果是，请帮助我安装它。我搜索过google，但是我不知道如何使用VM在hadoop上配置这个多节点集群？如何使用VMware或virtualbox在windows 7上运行两个Ubuntu？我们应该使用相同的Ubuntu版本的VM映

浏览 8提问于2014-05-09得票数 4

回答已采纳

1回答

与单独安装HBase和Hadoop相比，同时安装HBase和Hadoop有什么利弊？

hadoop、hbase、hdfs、distributed-computing

我的意思是，有两个选择: 1.在Hadoop集群上安装HBase，这也是离线计算，所以只有1个hadoop集群。2.安装一个用于离线计算的Hadoop集群，然后再安装一个仅供HBase使用其HDFS的Hadoop集群。因此，有两个选项:一个是集成集群，另一个实际上是2个集群。这两个选项的优缺点是什么？

浏览 2提问于2013-07-11得票数 1

1回答

windows上的Eclipse和远程群集上的Hadoop

windows、eclipse、hadoop、remote-access

有人能解释一下如何在远程机器上为Hadoop设置开发环境吗？大多数在线教程似乎都集中在本地模式或伪分布式模式上，这涉及到在本地或通过cygwin安装hadoop。我想避免这种情况。理想情况下，我希望通过eclipse将代码推送到远程集群，而不需要在本地计算机上安装hadoop。我已经有了一个集群，可以通过Eclipse - Hadoop插件访问文件系统，但是如何向远程集群提交作业呢？我应该更改eclipse插件中的哪些参数？(我正确地设置了namenode、作业跟踪器位置，但高级配置显示了datanode目录、datanode位置和许多其他设置)。谢谢

浏览 2提问于2014-03-17得票数 3

1回答

Hadoop使用与集群不同的版本编译

hadoop

如果我使用较旧的hadoop lib版本(如0.20.0 )开发map-reduce逻辑，然后创建一个jar文件，并在集群版本较高(如1.0.3 )的集群上运行该jar文件，那么会发生什么情况？集群是否使用与编译我的代码的hadoop版本相同的版本，或者它是否忽略了我用来编译它的版本？你能解释一下这个过程在hadoop上是如何工作的吗？我知道它会运行，但我看到一些日志，看起来是使用的旧版本的hadoop.common。jar文件也不包括lib。

浏览 0提问于2012-09-20得票数 0

2回答

使用s3 dist cp将数据从非emr群集复制到s3时出现权限问题

hadoop、amazon-s3、amazon-emr、distcp、s3distcp

陈述我的问题 1)我想将我们的cdh hadoop集群备份到s3 2)我们有一个正在运行的emr集群 3)我正在尝试从emr集群运行s3distcp，将src作为cdh远程集群的hdfs URL，将目标作为s3。出现以下错误:由: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException)：权限被拒绝: user=mapred，access=RE AD_EXECUTE，inode="/tmp/hadoop-mapred/mapred/staging“ 以下是我在阅读此

浏览 4提问于2017-12-28得票数 0

1回答

如何将文件从HDFS复制到远程HDFS

hadoop、hdfs

我希望将文件从Hadoop集群复制到远程集群。我有远程集群中的hadoop_conf文件，可以通过设置HADOOP_CONF_DIR.来访问它。我知道远程名称节点的IP和端口。我想按下面的ex格式通过名称空间复制该文件。 hadoop -cp hdfs://MyNamespace/path/file hdfs://RemoteNamespace/path/file 但是，如果不配置hadoop_conf_dir，则不知道远程名称空间，如果在hadoop_conf_dir中设置远程集群的信息，则无法访问群集的命名空间。请让我知道怎么做。

浏览 1提问于2018-04-20得票数 0

回答已采纳

1回答

映射缩减过程中的连接超时

hadoop

我正在使用distcp命令将数据从一个集群传输到另一个集群。在地图缩减过程中，我遇到了以下问题： java.net.ConnectException:连接超时我正在使用以下命令： /home/hadoop/hadoop/bin/hadoop distcp -update -skipcrccheck "hftp://source:50070//hive/warehouse//tablename" "hdfs://destination:9000//hive/warehouse//tablename" 我如何解决这个问题，.Solutions将是见习。

浏览 2提问于2014-12-04得票数 1

1回答

在Ambari集群上安装Hue

hadoop、hadoop-yarn、oozie、hue、ambari

我有一个Ambari集群来管理我的hadoop/spark作业。我想使用oozie编辑器来安排我的工作流程。色调是最流行、最易用的一种。如何在由Ambari管理的现有hadoop集群上安装hue。谢谢

浏览 0提问于2017-01-27得票数 0

1回答

正在将文件上传到Hbase HDInsight

c#、.net、azure、hadoop、azure-hdinsight

我订阅了azure，因此我在hdinsight下创建了一个hadoop集群。我必须上传一个文件到这个hadoop上。我不知道如何继续 var myCluster = Hadoop.Connect( new Uri("https://samplecluster.azurehdinsight.net/"), "admin", "admin", "sample", "storageacc.blob.core.windows.net",

浏览 6提问于2015-08-27得票数 1

1回答

在网络流量嗅探时，有没有办法过滤Hadoop数据包？

networking、hadoop、tcp、packet、sniffing

我的目标是识别与Hadoop集群相关的网络数据包，因为在我使用的集群中，还有其他生成与Hadoop无关的网络流量的服务。我假设我的Hadoop集群只使用HDFS和MapReduce，而不是像HBase，Pig，Hive等其他应用程序。有没有办法过滤Hadoop数据包？例如，如果Hadoop使用固定源或目标端口(至少一个，源或目标) 更新:我正在使用Apache Hadoop 1.0.3和libpcap来嗅探数据包

浏览 1提问于2013-08-19得票数 3

2回答

我在哪里可以找到EC2上的AMI for Hadoop？

linux、hadoop、amazon-web-services、amazon-ec2、bioinformatics

我正在尝试在亚马逊EC2上永久设置Hadoop。目前我正在做的是每天早上启动EC2实例并设置Hadoop。有什么方法可以避免这个繁琐的步骤吗？我正在寻找一个Hadoop镜像，可以加载到EC2上，让事情变得容易。我知道我可以将EMR用于hadoop服务。但我不知道如何在不提交作业流的情况下启动EMR (hadoop)集群。我的意思是，我需要一个不运行任何作业的hadoop集群。最终，我的目标是运行像和这样的生物信息学应用。为了让这些应用程序运行，有许多依赖项。因此，我需要一个免费的hadoop集群来设置环境，然后运行这些应用程序。我希望我想要做的事情很清楚。谢谢。

浏览 3提问于2013-10-09得票数 0

1回答

操作系统上的python客户端hadoop沙箱上的X流

python、macos、hadoop、streaming、hadoop-streaming

我想在我的苹果mac上编写mapreduce代码理想情况下使用python在hadoop沙箱(例如Hortonworks或Cloudera)上进行流式传输。理想情况下，我的开发设置是使用我的Apple Mac python环境& hadoop VM沙箱(后来是同一网络上的集群)。虽然有很多关于如何从hadoop集群的节点内(例如从NameNode等)连接或流式传输代码的描述，但我不清楚从集群外部做什么。例如，我假设我需要安装一些hadoop客户端库？我从哪里获得这些库？我该如何安装它们？哪种类型的python包效果最好？我应该使用哪个IP地址来流式传输我的python代码？

浏览 2提问于2013-12-29得票数 0