大数据hadoop_弹性伸缩Hadoop服务大促_云端托管Hadoop服务大促 - 腾讯云开发者社区

、、

我想知道，如果hadoop中使用了这么大的数据集，那么Hadoop使用的数据结构是什么。如果可能的话，请有人向我提供hadoop中底层数据结构的详细视图。

浏览 12提问于2014-02-24得票数 2

回答已采纳

1回答

1个Hadoop和Hbase大簇与1个Hadoop簇+1个Hbase簇

、

Hadoop将通过从Hbase读取数据并将数据写入Hbase来运行许多作业。假设我有100个节点，那么有两种方法可以构建Hadoop/Hbase集群：哪种选择更好？

浏览 4提问于2014-04-19得票数 1

回答已采纳

1回答

我的MongoDB需要Hadoop吗？

、、

我听说Hadoop是一个很棒的数据处理工具，一旦MongoDB连接到，它就可以提高性能。它能很好地处理Map Reduce，但它对我这个不包含任何Map Reduce函数的例子有用吗？此外，如果我在MongoDB中使用Map Reduce并连接Hadoop，性能将如何提高？

浏览 0提问于2014-04-25得票数 0

1回答

Hadoop，蜂箱，动物园管理员等

、、

我开始了解hadoop。我对它有了一些了解，但是当我读到关于Hive，Pig和其他Apache工具时，我感到很困惑。因此，有人能简单地概述一下hadoop和Apache的工具(Hive、Pig、等)，我想知道它们在处理大数据时是如何和在哪里使用的。

浏览 3提问于2014-05-20得票数 0

回答已采纳

1回答

Kylin其他数据源，如SQL Server

、、、

对于Kylin应用程序中的示例“默认”数据库来说，一切都很好。现在，我正在尝试在$KYLIN_HOME/conf/kylin.properties文件中添加以下代码的Server数据库：kylin.source.jdbc.connection-url

浏览 4提问于2021-08-25得票数 0

1回答

所有NoSQL框架都使用吗？

、、、、

我是大数据的新手；显然，大多数使用NoSQL框架(如MongoDB、CouchDb和Cassandra )的应用程序都需要访问大量的数据。现在，我的问题是，这些NoSQL工具是否都使用Hadoop文件系统作为它们的存储，或者某些文件系统是如何使用的呢？如果他们使用Hadoop文件系统，那么他们有一个简单的方法来集成Hadoop文件系统吗？谢谢

浏览 2提问于2015-01-26得票数 1

回答已采纳

1回答

最近，我使用hadoop批量加载将数据放入hbase中，首先，我调用hdfs将数据写入hadoop中的文件中，总共有7,000,000行数据，大小为503 to。其次，我使用org.apache.hadoop.hbase.mapreduce.ImportTsv和org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles将数据放入hbase中。我所做的最重要的事情是使用大容量工具将<e

浏览 5提问于2012-12-13得票数 3

1回答

将具有现有数据的服务器作为DataNode添加到Hadoop

我需要使用现有数据从多个服务器构建分布式防故障(尽可能)集群。我刚接触Hadoop，但据我所知，Hadoop比其他产品更能满足我的需求。问题是，我已经有一些数据(相当大的文件)，我希望在Hadoop中可用。是否可以将已有数据的服务器作为DataNode添加到Hadoop中？我该怎么做才能做到这一点呢？

浏览 0提问于2015-10-22得票数 0

1回答

Apache Hadoop与Google Bigdata

、、、、

哪个更好(hadoop还是google大数据)。

浏览 1提问于2015-05-16得票数 9

回答已采纳

1回答

如何在hadoop中合并我的Google驱动器中Excel工作表和文件中的数据？

、

我应该如何使用Hadoop组合数据，以便分析和得出结果？

浏览 4提问于2019-01-04得票数 0

1回答

使用supercsv的Hadoop

、、

我必须在非常大的文本文件(如5TB大小)中处理数据。处理逻辑使用supercsv解析数据并对其运行一些检查。显然，由于规模相当大，我们计划使用hadoop来利用并行计算的优势。我在我的机器上安装了hadoop，然后开始编写mapper和reducer类，然后我就被卡住了。因为映射需要一个键值对，所以要读取这个文本文件，我不确定在这个特定场景中应该是什么键和值。我的思考过程是这样的(让我知道我是否正确) 1)使用superCSV和hadoop读取文件为hdfs中的每个文件

浏览 3提问于2012-10-26得票数 2

1回答

在蜂巢中生成星型模式

、、、、

在一般的数据仓库项目中，我们将提要划分为事实和维度。例如：我对Hadoop完全陌生，我知道我可以在蜂箱中构建数据仓库。现在，我已经熟悉了guid的使用，我认为guid可以作为蜂巢的主键。将源数据加载到一个单元表中；假设是Sales_Data_Warehouse 从New_Guid()、Customer_Name、Customer_Address

浏览 4提问于2017-03-28得票数 12

回答已采纳

1回答

如何确保将(小的)数据集复制到所有节点？

、

我有一个小的数据集mysmall，当我处理一个大的集mylarge时，我需要它。现在我知道hadoop jar hadoop-streaming.jar -files mysmall,myscript.py \ -mapper "python myscript.py mysmall" 这似乎不太理想--我从hadoop收集mysmall，然

浏览 3提问于2014-06-02得票数 2

回答已采纳

1回答

对于这个场景，Python和Hadoop的选择是一个很好的选择吗？

、、

我正在寻找一个解决方案来构建一个具有以下特性的应用程序：我在哪里可以找到一个用Python编写的快速示例，用于向Hadoop添加/检索信息，以便用我的一只眼睛看到概念运行的证据并作出决定？提前感谢！

浏览 1提问于2017-08-11得票数 1

3回答

Mapr-Db大容量装载在减速器端出现故障。

、、

当处理减速器时出现以下错误时，大容量负载发生故障。我们正在M5集群上运行mapreduce，试图更新一个m7表。:119) at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:621) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.jav

浏览 8提问于2015-12-29得票数 0

回答已采纳

1回答

查询预处理: Hadoop或分布式系统

、、、

我在考虑使用hadoop。我的输入大小非常小。即使总搜索词超过50k，也可能小于1MB。但是，搜索每个术语需要花费很少的时间，即更多地面向计算而不是面向数据。所以我想知道我是应该使用Hadoop，还是应该构建自己的分布式系统。我记得我读过，hadoop主要在输入非常大的情况下使用。请建议我如何去做这件事。我读取hadoop以块大小读取数据。

浏览 1提问于2013-01-18得票数 0

回答已采纳

1回答

如何在python中将数据大容量加载到hbase

、、、

我想知道如何使用大容量加载将数据放入HBase。线程“java.lang.NoClassDefFoundError”中的异常:org/apache/hadoop/hbase

浏览 4提问于2017-08-20得票数 1

1回答

大图算法的最佳实现方法

、、、、

但是当图形很大时，例如社交网络图，什么数据结构才是实现传统算法如最短路径查找的最佳方法。由于内存要求很高，邻接矩阵或列表无法工作，对吗？社交网络引擎使用什么方法？

浏览 3提问于2014-04-01得票数 0

回答已采纳

1回答

为什么Hadoop不是实时平台？

、

我刚开始学习Hadoop，并且浏览了一些网站，我经常发现我搞砸了这件事，我真的不明白。有人能帮我解释一下这件事吗？谢谢大家

浏览 3提问于2013-10-28得票数 10

回答已采纳

2回答

hadoop是怎么工作的？客户端如何连接到hadoop

、、、

我对hadoop有基本的理解。我的问题是客户机/开发人员如何连接到hadoop集群来执行查询。例如，我是hadoop开发人员。某个远程位置的Hadoop集群。如何连接到hadoop集群来运行我的java代码？我是否也必须在我的笔记本电脑中安装hadoop (为此我必须运行Linux)？或者，如果我与Hadoop集群在同一个网络中，只需在我的笔记本电脑中挂载共享，并将我的代码放入hadoop集群，是否可以呢？第二个问题:对于运行java代码，

浏览 4提问于2014-11-07得票数 1

回答已采纳

点击加载更多