hadoop集群搭建有什么用_配置不够怎么搭hadoop集群_搭hadoop集群可以用虚拟机吗 - 腾讯云开发者社区

云服务器

我想拿腾讯云来搭hadoop集群，目前只有一台主机，所以有了这个疑问。

浏览 569提问于2016-01-06

1回答

如何从客户端windows机器访问hadoop集群(unix)

hadoop、user-management

我有虚拟hadoop集群，客户端到hadoop正在windows机器上运行。当我提交地图作业时，我被拒绝了org.apache.hadoop.security.AccessControlException:权限，access=EXECUTE，inode=“：jakub:supergroup看来没什么用。这与hadoop上

浏览 2提问于2013-08-14得票数 0

回答已采纳

2回答

从MongoDB向Hadoop发送数据的有效方法是什么？

mongodb、hadoop

我和一位同事讨论了MongoDB连接器在Hadoop中的使用问题，他解释说这是非常低效的。他说，MongoDB连接器使用它自己的映射减少，然后使用Hadoop映射减少，这在内部减缓整个系统。如果是这样，那么将我的数据传输到Hadoop集群的最有效方法是什么？如果MongoDB连接器效率更低，它有什么用途？在我的场景中，我希望从MongoDB (大约10 my )获取每日插入的数据，并将其全部放入Hadoop中。我还应该指出，每个MongoDB节点和Hadoop节点都共享

浏览 2提问于2014-01-07得票数 1

回答已采纳

1回答

7台服务器的Hadoop体系结构.平衡连续性和性能

architecture、hadoop、hdfs

我们从AWS MapReduce转移到我们自己机架上的Hadoop集群。最初，我们将有7台服务器专门用于Hadoop/HDFS。在这个7服务器集群中，我应该为每个框指定什么用途？特别是哪些进程应该重叠(例如，备份namenode是否应该共享一个框作为任务节点和类似的？)

浏览 4提问于2013-03-13得票数 0

回答已采纳

2回答

不能用直线连接到蜂箱，用户根目录不能模拟匿名。

hadoop、hive、beeline

username for jdbc:hive2://localhost:10000: Enter password for jdbc:hive2://localhost:10000: 由于我不知道我应该输入什么用户名或密码，所以我将它保留为空，这会导致错误：Error: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.sec

浏览 1提问于2017-04-03得票数 8

回答已采纳

1回答

HBase oldWALs:它是什么，我如何清洁它？

hadoop、hbase

我们在我们的小型hadoop集群中耗尽了空间，所以我在HDFS上检查磁盘使用情况，我发现大部分空间被/hbase/oldWALs文件夹占用。所以我想知道这个文件夹是什么，有什么用，以及如何在不破坏所有东西的情况下从这个文件夹中释放空间. 如果它与特定版本有关..。

浏览 3提问于2015-02-25得票数 5

1回答

hdfs dfs命令:连接失败异常: java.net.ConnectException:连接被拒绝

java、hadoop、hdfs

exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop我尝试过以下几种方法：stop-dfs.sh和hadoop namenode -format，然后是start-dfs.sh -这将修复它大约仔细检查我的core-site.xml和其他hadoop配置，以确保它

浏览 36提问于2020-05-22得票数 0

2回答

Yarn :我们在namenode上需要nodemanager吗？

hadoop、hdfs、hadoop-yarn、cloudera-cdh

我们需要在一个叫做namenode的节点上启动nodemanager吗?也就是说，我不会让它成为datanode？我将在一台机器上启动namenode和resourcemanager。因为我不会在这台机器上启动datanode，所以我想我也不需要启动nodemanager？

浏览 1提问于2015-09-24得票数 1

1回答

hadoop启动错误: datanode、tasktracker不会启动和数据复制错误

ubuntu、hadoop、mapreduce

我试图在一个由5台机器组成的(测试)集群上安装Hadoop1.2.1，其中一个节点充当JobTracker、NameNode和备用NameNode。其余的4台机器都是奴隶。 10.6.80.4:启动datanode，登录到/home/ubuntu/hadoop-1.2.1/libexec/../l

浏览 2提问于2015-04-13得票数 0

回答已采纳

2回答

Hadoop DFS的CopyFromLocal命令是如何工作的？

hadoop、hdfs

我对Hadoop分布式文件系统是如何设置的，以及我的特定设置是如何影响它的，我有点困惑。Hadoop知道如何在从/主之间划分信息吗?它是如何做到这一点的？ 2)在上面链接的指南中列出的配置中，从技术上讲是否有两个从设备(主机既是主机又是从设备)？

浏览 6提问于2012-07-04得票数 2

回答已采纳

5回答

split-by <column> --target-dir在Sqoop中的作用是什么

hadoop

当我们在sqoop中编写--split-by时，内部会发生什么？sqoop import --connect jdbc:mysql://localhost/test --username root --password training123 --query 'select * from transaction where $CONDITIONS' --split-by Txnid --target-dir input/transaction

浏览 3提问于2016-06-25得票数 2

1回答

火花失效-期货超时

apache-spark、amazon-emr

我使用的是运行在Amazon集群上的2.2.1。java.security.AccessController.doPrivileged(Native方法中)在org.apache.hadoop.security.UserGroupInformation.doAsspark.sql.broadcastTimeout 1000但没什么用。你对如何处理这个超时有什么建议吗？

浏览 0提问于2019-01-26得票数 4

2回答

火花流驱动程序进程内存不足

apache-spark、spark-streaming

我有一个驱动程序进程(开始使用火花提交和部署模式客户端)，为集群提供信息。我正在使用Java8 (Oracle )在Ubuntu上运行spark-1.4.1-bin-hadoop2.6。但这没什么用。从我的转储中，我看到这个stageIdToData映射包含1897个条目。考虑到上面的配置设置，这在我看来很奇怪。，我是不是做错了什么，还是这是火花问题？

浏览 2提问于2015-09-07得票数 3

6回答

Spark Sql JDBC支持

apache-spark

目前，我们正在构建一个报告平台，作为我们使用Shark的数据存储。由于Shark的开发已经停止，所以我们正处于评估Spark SQL的阶段。基于我们已有的用例，我们有一些问题。2)在Spark SQL中创建多个数据库是一种方法吗？ 3)对于报告UI，我们使用Jasper，我们希望从Jasper连接到Spark SQL。当我们进行最初的搜索时，我们了解到目

浏览 0提问于2014-07-08得票数 7

1回答

HDP安巴里安装失败

hortonworks-data-platform、ambari

我试图在一个4节点集群上安装HDP Ambari。登录到Ambari web控制台，遵循集群创建步骤并确认主机(没有使用ssh键)。在所有机器上手动安装安巴里代理吗？) stderr: Traceback (最近一次调用)：文件"/var/lib/ambari-agent这也没什么用。下面的帖子的确提到了一些类似的东西，但没有决

浏览 4提问于2016-02-23得票数 0

5回答

如何用MapReduce/Hadoop实现特征值计算？

algorithm、math、hadoop、mapreduce、eigenvalue

这是可能的，因为PageRank是特征值的一种形式，这就是MapReduce引入的原因。但是在实际实现中似乎存在问题，比如每个从机都要维护一个矩阵的副本？

浏览 0提问于2008-12-23得票数 10

2回答

创建云数据库？

database、cloud

由于云计算似乎是最受欢迎的话题之一，它引发了我的思考，而且由于我对这个话题了解不多，请原谅我对这个问题的无知。在浏览的时候，我偶然发现了这个产品，上面写着这是一个在线数据库。这和云数据库到底有什么区别？此外，如果您在这里查看该产品的视频演示()，它允许用户使用拖放界面创建数据库表单和报告，他们是如何编写此功能的，因为我发现它非常令人印象深刻。

浏览 0提问于2010-10-13得票数 12

22回答

您今天推荐什么样的并行编程模型来利用明天的多个核心处理器？

multicore、parallel-processing

如果您今天从头开始编写一个新的应用程序，并希望它扩展到您明天可以抛给它的所有核心，那么您会选择什么样的并行编程模型/系统/语言/库？为什么？

浏览 54提问于2008-09-17得票数 46

7回答

怎样使用AI提升运维效率？

机器学习、devops、运维

从内部数据中心到云和融合架构，IT运营在过去十年中呈指数级增长，很多IT大公司已经消除了与安装数据中心，服务器相关的大量工作，管理网络，存储等。但是，如果我们让人类解决新的，复杂的问题，同时我们让机器解决已知的，重复的和可识别的问题呢？输入新的理念：AI Ops。越来越多的云采用（很快，80％的IT预算将致力于云解决方案）以及人工智能（AI）和机器学习（ML）技术的出现使公司能够使用智能软

浏览 1746提问于2018-10-12