吞吐量hadoop_linux 吞吐量_提高吞吐量 - 腾讯云开发者社区

、、

我正在开发一个用于传感器数据和预测分析的大数据解决方案。我是大数据的新手，读过关于lambda-架构的文章。我考虑过将Cassandra数据库与Hadoop一起使用。Cassandra是一个高可用性和分区容错的数据库，Hadoop hdfs是一个用于大型分析作业的文件系统。如果我从物联网设备接收数据，是否应该先将数据保存在Hadoop中，然后保存到Cassandra？lambda架构在批处理层具有Hadoop，接收数据并将其发送到nosql数据库的服务层。为什么数据应该放在Hadoop的第一位？如果Hadoop包含原始数据，那么Cassandra中存储的是什么类型的数据？流层现在是模糊的

浏览 2提问于2016-11-22得票数 4

2回答

如何使用数据管道导出具有按需提供的DynamoDB表

、

我曾经使用称为Export DynamoDB table to S3的数据管道模板将一个DynamoDB表导出为文件。最近，我更新了所有的DynamoDB表，使之具有随需应变的功能，而模板也不再有效。我很确定这是因为旧的模板指定了要消耗的DynamoDB吞吐量的百分比，这与随需应变表无关。我尝试将旧模板导出到JSON，删除对吞吐量百分比消耗的引用，并创建一个新管道。然而，这是不成功的。有人能建议如何将具有吞吐量功能的旧管道脚本转换为新的随需应变表脚本吗？这是我最初的功能脚本： { "objects": [ { "name":

浏览 0提问于2019-02-13得票数 9

回答已采纳

1回答

Hadoop纱HBase安装

、、

我试图在ubuntu上安装HBase v0.98.6。我已经在操作系统上运行Hadoop纱线了。我应该停止现有的Hadoop过程，完全依赖于HBase，还是使用现有的纱线设置配置HBase？如果需要的话我可以分享更多的信息。我试图先在伪分布式上运行HBase，然后在分布式模式下运行. 要明确的是-我是问我是否需要在安装HBase之前运行Hadoop纱线(以分布式方式，而不是在一台计算机上)。如果没有，而且我仍然在这些计算机上使用Hadoop，会不会导致HBase在这些服务器上运行任何问题。

浏览 2提问于2014-09-23得票数 1

回答已采纳

1回答

如何在MR2中了解HDFS并发吞吐量

、、、

我是刚认识Hadoop的。最近，我试图使用TestDFSIO来评估我的hdfs性能，我有一个关于并发吞吐量的问题： In MR 1 并发吞吐量=报告的映射槽的吞吐量x ，例如 Throughput MB/sec: 141.4427 Map Slots=2 Concurrent Throughput = 282.8854 MB/sec. 但是在MR2中(地图和减少槽都不再存在于纱线中)，如何计算并发吞吐量？

浏览 4提问于2015-02-08得票数 1

1回答

如何在hadoop配置中选择目录列表？

、

我已经下载了一个用于设置hadoop配置的脚本。它包含具有以下块的/scripts/directories.sh文件： # Space separated list of directories where NameNode will store file system image. For example, /grid/hadoop/hdfs/nn /grid1/hadoop/hdfs/nn DFS_NAME_DIR="TODO-LIST-OF-NAMENODE-DIRS"; # Space separated list of directories where DataN

浏览 3提问于2015-01-15得票数 0

2回答

减速器中HBase数据的读取

、、、

我刚接触过Hadoop和HBase。让我以一个例子来解释我的问题。为了简洁起见，数据很小。让我们假设我们有一个名为item.log的文件，它包含以下信息。项目1，产品-1项-2，产品-1项-3，产品-2项-4，产品-2项-5，产品-3项-6，产品-1项-7，产品-1项-8，产品-2项-9，产品-1项-1 我有一个地图缩减代码如下， package org.sanjus.hadoop; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.fs.Path; import or

浏览 0提问于2014-03-25得票数 0

回答已采纳

1回答

从Hadoop应用程序插入Azure表

我有一个hadoop应用程序，在这个应用程序中，映射程序不断地将许多条目插入到一个Azure表中。大多数条目都有不同的分区键，因此批处理插入在这种情况下可能无效。因为蓝表承受的压力很大，我不知道它是否会成为瓶颈？这种方法的缺点是什么？

浏览 4提问于2015-12-16得票数 0

回答已采纳

1回答

将蜂窝数据从一个Hadoop集群移动到另一个Hadoop集群，而不使用distcp命令？

如何不用distcp命令将数据从一个Hadoop集群移动到另一个Hadoop集群。因为我们不能用这个。我们还有其他选择像Sqoop或Flume吗？

浏览 2提问于2015-10-13得票数 0

2回答

Hadoop SAN存储重用

、、、、

我们有600 We的EMC SAN存储。目前，Oracle RAC正在利用此存储。出于可伸缩性的原因，我们将Oracle RAC替换为Hadoop存储(Yarn、Spark - Hive、Shark) -尽管我们在性能上做了一些牺牲。对于Hadoop，建议使用本地存储而不是SAN存储。但是我们的管理层不愿意浪费SAN存储空间。他们希望保护SAN存储上的投资。如何才能最好地将SAN用于Hadoop？以太网升级会有帮助吗？最大限度地利用SAN存储(作为Hadoop存储)的选项有哪些。

浏览 7提问于2014-06-12得票数 0

1回答

谷歌云点击部署hadoop

、、、

为什么google cloud click to deploy hadoop工作流程需要选择本地持久磁盘的大小，即使您计划将hadoop连接器用于云存储？默认大小为500 GB。我在想，如果它确实需要一些磁盘，它的大小应该小得多。在google云中使用hadoop云存储连接器时，是否有推荐的持久化磁盘大小？ “在Google Cloud平台上部署Apache Hadoop Apache Hadoop框架支持跨计算机群集的大型数据集的分布式处理。 Hadoop将部署在单个集群中。默认部署创建1个主VM实例和2个工作VM，每个实例具有4个vCPU、15 GB内存和500 GB磁盘。创建一个临时部署

浏览 7提问于2014-11-23得票数 0

1回答

缓存流数据的最后一个整体

、、、、

我将在一个分布式应用程序上工作。数据将被流式传输和分析。此外，最终用户需要尽可能快地访问最后流式传输的数据。此外，我需要保持数据的备份以及它的工作。我最初的想法如下: 1)把redis作为缓存来保存最后的条目。2) Hadoop-存储数据3) MySQL /Hbase-方便地存储数据以进行分析。你对这样的设置有什么看法？你还能推荐别的什么吗？谢谢!

浏览 1提问于2014-12-04得票数 0

1回答

HDFS:存储FSImage和编辑日志的位置

、

我有一个问题DOes FSImage和编辑日志存储在一些共享的NFS for Hadoop2.0或两者的主动和被动名称节点有副本的fsimage和编辑日志在本地？

浏览 17提问于2017-07-19得票数 1

1回答

Hadoop MapReduce吞吐量问题

、

我很感兴趣--对于hadoop每个节点的轻量级文本数据处理，有什么可以认为是一个很好的吞吐量呢？更具体地说，我会问:假设我必须读取csv文件，解析它们，并在某一列中计算特定值的数量。让我们假设值是罕见的，所以减少步骤是快速的。我可以期望每个hadoop节点从现代四核CPU /4 GB RAM /4 SATA磁盘机器获得什么吞吐量？

浏览 8提问于2011-01-31得票数 2

2回答

hadoop与mongodb和hadoop对mongodb

、、

我试图理解mongoDB和Hadoop之间的关键区别。我理解mongoDB是一个数据库，而Hadoop是一个包含HDFS的生态系统。使用这两种技术处理数据的方式有一些相似之处，但也有很大的不同。我不明白为什么有人会在Hadoop集群上使用mongoDB，主要是mongoDB比Hadoop具有什么优势。两者都执行并行处理，两者都可以与Spark一起用于进一步的数据分析，那么什么是一个比另一个的增值。现在，如果要将两者结合起来，为什么要在mongoDB和HDFS中存储数据呢？MongoDB有map/reduce，所以为什么要将数据发送到hadoop进行处理，而且两者都与Spark兼容。

浏览 1提问于2019-05-07得票数 0

回答已采纳

2回答

虚拟机上的Hadoop

、、、

为了实现可伸缩性，我们希望从MySQL迁移到Hadoop。运行在虚拟机上的hadoop集群会改善我们网站的性能吗？在虚拟机(ESXi)上实现hadoop集群有哪些优点和缺点？

浏览 0提问于2011-01-26得票数 -2

1回答

为什么要从teradata迁移到hadoop？

、、

帮助我理解hadoop相对于teradata的优势是什么。为什么我们要从teradat迁移到hadoop。在我的应用程序中，我有一些报表从teradata检索数据，由于数百万行数据，报告速度非常慢。迁移到hadoop会解决这个问题吗？

浏览 0提问于2015-08-03得票数 0

1回答

对于MapReduce bechmark，当我完成它们的运行时，我能知道输入/洗牌/输出数据大小分别是多少吗？

、、

我读了一些关于分析工作负载输入/洗牌/输出数据大小的文章。所以，我有一些问题，在我运行完TestDFSIO、Teragen、Terasort、Ter崩和Wordcount基准之后，我能知道输入/洗牌/输出数据大小分别是多少吗？例如，如果我运行： TestDFSIO， TestDFSIO -write -nrFiles 10 -fileSize 1000 TestDFSIO -read -nrFiles 10 -fileSize 1000 Terasort， hadoop-examples.jar teragen 10000000000输出dir hadoop jar hadoop-examp

浏览 2提问于2014-05-08得票数 0

回答已采纳

1回答

如何从现有web应用程序访问HDFS(Hadoop文件系统

、、、、

我已经在我的集群上安装了hadoop 1.0.4，包括1个主服务器和3个从服务器，现在我想通过我的web应用程序访问我的HDFS文件系统，以存储和访问现有web应用程序的数据。因为我的web应用程序当前使用MySQL作为数据库，所以我希望将其替换为HDFS。那么，我可以使用什么来通过现有的web应用程序访问HDFS呢？出于后端数据迁移的目的，我使用sqoop和flume，但我希望与HDFS进行实时应用程序同步。因为我保存的网页应该直接去HDFS和我想要的搜索应该直接从HDFS。请提个建议。提前谢谢。

浏览 0提问于2013-03-23得票数 1

回答已采纳

1回答

Spark vs Hadoop用这个简单的例子？

、、

在谷歌上，Spark和Hadoop MapReduce之间的关键区别都体现在处理方法上: Spark可以在内存中完成，而Hadoop MapReduce必须从磁盘读取和写入。看起来我明白了，但我想用一个例子来确认一下。考虑下面的字数统计示例： val text = sc.textFile("mytextfile.txt") val counts = text.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_) counts.collect 我的理解

浏览 27提问于2019-05-12得票数 0

回答已采纳

1回答

数据库批量上传数据

、、

我们都知道，通过Databricks Data / Table，我们可以使用上传数据，为小文件创建一个使用文件上传的表。 Databricks对大型文件有标准的批处理方法吗？还是我们需要使用sFTP，hadoop distcp，某种类型的REST Service?，我想确保我没有错过一些新的开发。

浏览 6提问于2022-11-07得票数 0

回答已采纳

2回答

能否将Hadoop限制为空闲的CPU周期？

是否可以运行Hadoop，使其只使用空闲的CPU周期？也就是说，在人们的工作机器上安装Hadoop是否可行，这样当他们不使用PC时，就可以进行数字运算，并且他们不会经历明显的性能下降(把粉丝们抛开！)。也许这只是一个将JVM设置为以低优先级运行并且不使用太多网络的情况(假设这样的事情在windows机器上是可能的)？如果没有，有没有人知道像这样的东西在Java中有什么等价物编辑:找到周期清理基础结构的列表。尽管我关于Hadoop的问题仍然存在。

浏览 4提问于2009-10-22得票数 2

回答已采纳

1回答

Hadoop FairScheduler的高级内部数据结构和算法？

、、、

简单地说，Hadoop FairScheduler的内部结构是什么？它们是否使用优先级队列、堆来确定每个作业等待的时间？还是使用了其他一些技术？

浏览 0提问于2012-02-12得票数 0

回答已采纳

1回答

Hadoop中需要的节点

、

我是hadoop的新手，我的问题很简单:是否有任何研究或声明来根据有多少事务(数据库事务)和有多少项(每个事务中的项)来确定有多少节点使用hadoop？

浏览 2提问于2013-11-25得票数 0

1回答

多节点Hadoop集群中的HDFS压力测试

、、

我已经设置了一个多节点Hadoop集群。我打算在不使用MR.的情况下测试HDFS的性能。Hadoop test jar中有这样的基准测试吗？谢谢

浏览 0提问于2016-06-01得票数 0

2回答

在Dataproc上极慢地处理9小时和3分钟在本地机器上

、、

从日志中，我可以看到有182 k行，70 the。在Dataproc上训练182 K行需要1.5小时、70 on数据和9小时(从15/11/14开始，01:58:28，15/11/14，09:19:09)。在本地机器上加载相同的数据和运行相同的算法需要3分钟 DataProc日志 15/11/13 23:27:09 INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage: Table 'mydata-data:website_wtw_feed.video_click20151111' to be

浏览 0提问于2015-11-14得票数 1

回答已采纳

1回答

EC2上的Hadoop与ElasticMapReduce/S3

、

我使用ElasticMapReduce已经有一段时间了。它很方便，但我不能运行HBase，因为Hadoop集群只是暂时可用的(我在上问过一些相关的问题)。因此，我想尝试在一组EC2机器上安装Hadoop。我知道Hadoop有一些与EC2相关的目录- src/contrib/ec2。看起来只需输入一个命令就可以启动Hadoop集群，然后我就可以登录到主节点来运行作业等等。在尝试此功能之前，我想知道使用此功能的人是否有任何问题。谢谢!

浏览 0提问于2012-03-30得票数 3

回答已采纳

2回答

Hadoop将本地示例复制到HDFS

、

我是Hadoop的新手，我正在学习一些基本的教程来学习它。下面的教程之一希望我用Python编写一个Hadoop MapReduce作业，我已经成功地完成了所有工作，以下是总结的步骤：编写mapper.py和reducer.py脚本将本地示例数据复制到hdfs 运行MapReduce作业我的问题是:如果我必须频繁地修改数据，然后运行MapReduce作业，该怎么办？我是否每次都要在hdfs上加载修改过的数据，还是有一种直接在hdfs上修改的方法？谢谢

浏览 4提问于2014-05-02得票数 0

2回答

Apache Flink vs Twitter Heron？

、、、、

比较Flink和Spark Streaming，Flink和Storm，Storm和Heron有很多问题。这个问题的来源是Apache Flink和Twitter Heron都是真正的流处理框架(而不是像Spark Streaming这样的微批处理框架)。Storm已于去年被Twitter淘汰，他们改用Heron (基本上是Storm重新制作的版本)。在Flink和Flink vs Spark上有斯利姆·巴尔塔吉的精彩演讲： Ilya Ganelin对各种流媒体框架的出色研究：关于Flink vs Storm的有趣想法：但我还没有看到新的Storm/Heron与Apache Flink

浏览 27提问于2016-06-05得票数 9

1回答

从Hadoop群集中运行web获取

一篇名为的博客文章建议从Hadoop集群中调用外部系统(查询twitter API或爬行网页)。对于我目前正在开发的系统，既有快速子系统，也有慢速(批量)子系统。数据是从推特的-also接口中获取的，用于快速、单独的检索。这可能是每天数十万(甚至数百万)的外部请求。网页的内容也被检索以供进一步处理-至少具有相同的请求规模。除了对外部源的潜在副作用(更改数据以使其在下一个请求中不同)，以这种方式使用Hadoop的优缺点是什么？它是一种有效且有用的批量和/或快速检索数据的方法吗？

浏览 1提问于2011-06-02得票数 1

回答已采纳

1回答

Hadoop 2.6.4和大文件

、、

我是的新用户。有一次我不明白。我有一个简单的集群(3个节点)。每个节点都有大约30的空闲空间。当我查看Hadoop的概述站点时，我看到DFS仍然存在:90.96GB。我将复制因子设置为1。然后，我创建一个文件50 to，并尝试上传到HDFS。但空间没了。为什么？我不能上传超过一个集群节点空间的文件吗？

浏览 1提问于2016-04-12得票数 0

回答已采纳

1回答

使用Hadoop最快地访问文件

我需要最快地访问单个文件，该文件的多个副本存储在使用Hadoop的许多系统中。我还需要以排序的方式查找每个文件的ping时间。我应该如何学习hadoop来完成这项任务？请快点帮忙，我的时间不多了。

浏览 5提问于2011-10-03得票数 0

回答已采纳

2回答

如何找到MTU Jumbo框架的正确值

、、、

我们决定在我们所有的linux机器上设置巨型框架。我们有hadoop集群与主机器，工人机器和卡夫卡机器。我们的交换机(思科)适用于Jumbo帧，而且非常好。但是巨型框架可以设置为8000或9000，或者在它们之间设置或小于8000，什么是计算最佳MTU值的公式？

浏览 0提问于2018-03-06得票数 6

1回答

如何在火花中同步执行器之间的函数以避免与弹性文件的并发性

、、、

我有一个函数，它将被调用来使用spark和scala将DataFrame写入弹性搜索。(DataFrame在函数调用之前创建) def writeToES(dfForES: DataFrame, indexName: String, spark: SparkSession, conf: JSONObject) = { import org.apache.spark.sql.functions.col val doc_id_cols = Array("zip_id", "pattern_name", "row_index")

浏览 3提问于2019-11-14得票数 1

1回答

Hadoop到底是干什么用的，主要的应用场景和应用领域是什么？

Hadoop到底是干什么用的，主要的应用场景和应用领域是什么，主要解决的核心问题又是什么，我们个人可以用它来干什么产生价值呢?

浏览 914提问于2020-09-24

1回答

AWS数据管道误差

、

使用数据管道aws进程进行的dynamoDB表备份出现错误，如下所示： 02 May 2017 07:19:04,544 [WARN] (TaskRunnerService-df-0940986HJGYQM1ZJ8BN_@EmrClusterForBackup_2017-04-25T13:31:55-2) df-0940986HJGYQM1ZJ8BN amazonaws.datapipeline.cluster.EmrUtil: EMR job flow named 'df-0940986HJGYQM1ZJ8BN_@EmrClusterForBackup_2017-04-25T13:3

浏览 0提问于2017-05-02得票数 2

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

FSx用于S3的光泽与EMR (用EMRFS)用于火花工作

、、、

我们目前正在使用EMR为我们的火花工作提供简单的工作提交。最近，我遇到了"FSx lustre + S3“解决方案，该解决方案正被宣传为适合HPC情况的理想解决方案。然而，据说EMRFS也是针对这个特定场景进行优化的，这使得S3看起来像一个本地hadoop文件系统。所以我想知道，为什么有人会从成本和性能的角度来选择这两个中的一个呢？这个问题可能是AWS S3在AWS EMR使用时的成本的后续问题，但不幸的是，我没有资格在那里发表评论。提前谢谢你的帮助。

浏览 0提问于2020-01-12得票数 0

1回答

有人解释为什么与Hadoop相比，火花被认为是“内存中的”。

与Hadoop相比，我不需要解释为什么火花被认为是“内存中的”。

浏览 0提问于2021-05-04得票数 -1

1回答

在减少之前，hadoop必须完成映射吗？

、

我在大学的讲师说，(Hadoop)裁减操作只能在所有地图操作完成后才能开始。这与有时显示的映射减少流操作的输出形成鲜明对比： map 80% reduce 13% map 80% reduce 27% and then map 100% reduce 27% . . map 100% reduce 100% (我在家里有一个map还原三个节点集群，我运行了几个流作业)。考虑到我的讲师知道他在说什么，输出是什么意思？还原开始时任务处于什么状态，但地图没有完成？

浏览 4提问于2014-02-02得票数 7

回答已采纳

2回答

部分聚合vs合并器哪个更快？

、、、

关于级联/缩放如何优化他们使用的所谓部分聚合的，有一些注意事项。它真的比组合器更好吗？在一些常见的hadoop任务(例如字数统计)上有性能比较吗？如果是这样的话，hadoop将来是否会支持它？

浏览 0提问于2012-06-07得票数 3

回答已采纳

1回答

与使用SparkSQL从SQL server中读取表相比，使用JDBC访问Hive表可以获得哪些具体的好处？

、、、、

我是在为基于Hadoop的平台设计存储部分时遇到这个问题的。如果我们想让数据科学家访问已经存储在关系数据库(例如Azure虚拟机的SQL服务器)中的表，那么如果我们将表从SQL服务器导入到HDFS (例如WASB)并在其上创建Hive表，会有什么特别的好处吗？换句话说，由于Spark允许用户使用JDBC从其他数据库读取数据，如果我们将数据库中的表以适当的格式(avro、parquet等)持久化，是否会有任何性能改进。并使用SparkSQL通过HQL访问它们？很抱歉，如果有人问了这个问题，我做了一些研究，但没有得到两种方法的比较。

浏览 0提问于2016-07-20得票数 0

1回答

Hadoop多节点簇

、、

我是Hadoop的新手。如果我在胡说八道，请纠正我，并帮助我解决这个问题:)。我安装并配置了一个双节点hadoop集群(yarn)。主节点: 2TB HDD，4GB RAM 从节点:500 4GB，4GB RAM Datanode:仅用于主节点(不在从节点中保存复制的数据) 映射/约简:主节点和从节点。在10 to数据中，我将2TB上传到主节点(数据节点)。我只对Map/Reduce使用从节点(在运行查询时使用从节点的100% CPU )。我的问题：如果我向主节点添加了一个新的2TB HDD，并且希望将2TB更多地上传到主节点，那么如何同时使用HDD (旧硬盘中的

浏览 1提问于2015-06-27得票数 0

1回答

分布式系统中的消息传递和信令

、、、、

我有一个分布式视频分析系统，它由以下部分组成： 1. feature extraction: generated lots of features(20+) from each frame of the video 2. multiple detectors(in different machine): * Each of them will get a subset of feature * Each of them needs the features from multiple frames. * Eg. Detector 1 needs feature 1-5 from

浏览 0提问于2010-01-15得票数 3

回答已采纳

4回答

HDFS复制系数

、

当我将文件上传到HDFS时，如果我将复制因子设置为1，那么文件拆分将驻留在一台计算机上，或者拆分将分布到网络上的多台计算机上？ hadoop fs -D dfs.replication=1 -copyFromLocal file.txt /user/ablimit

浏览 16提问于2011-10-03得票数 15

回答已采纳

1回答

对于一次性将排序数据大量导入Dynamo而言，有哪些成本效益好的选项？

、、

我想快速(不到一天)将10亿条记录导入到DynamoDB中，但是当我尝试通过Hive和EMR作为导入这些记录时，这一工作在写吞吐量=“72”和使用3 cc3.8xLargeEMR从(即1小时后为0% )方面没有进展。这种缓慢显然是另一个用户注意到的，亚马逊的建议是暂时拥有大量的写吞吐量，所以这是我正在考虑的一个选项。但是，该帖子上的一位评论者提到，排序后的数据会导致IO瓶颈，这是我所面临的情况(数据是由Hadoop生成的，因此我的每个输入文件都被排序)。较新的导入文档建议使用Amazon数据管道(尽管我的第一次测试失败了，因为Hive中有关处理带空值的行的错误(例如：“处理行{”项“：{：

浏览 3提问于2014-07-03得票数 2

回答已采纳

5回答

Hadoop集群。2台快速、4台中等、8台速度较慢的机器？

、

我们将购买一些仅用于Hadoop集群的新硬件，但我们被困在了应该购买的硬件上。假设我们有5000美元的预算，我们是应该买两台价格为2500美元/台的超级好机器，四台大约1200美元/台，还是八台600美元左右？hadoop是在速度更慢的机器上运行得更好，还是在速度更快的机器上运行得更好？或者，就像大多数事情一样，“取决于”？:-)

浏览 3提问于2009-06-10得票数 8

回答已采纳

6回答

学习如何在Python中实现MapReduce/Hadoop的起点？

、、

我最近开始进行数据分析，在过去的一年中我学到了很多(目前，我几乎完全使用Python)。我觉得下一步是开始在MapReduce/Hadoop中训练自己。然而，我没有受过正规的计算机科学培训，因此常常不太了解人们在撰写Hadoop时使用的术语，因此我在这里提出问题。我希望的是Hadoop的顶级概述(除非我应该使用其他东西？)也许还会推荐一些教程/教科书。例如，如果我想并行化我用Python编写的神经网络，我会从哪里开始呢？是否有一种用算法实现Hadoop的相对标准方法，或者每个解决方案都是特定于问题的？ Apache wiki页面将Hadoop描述为“在由普通硬件构建的大型集群上运行应用程序

浏览 10提问于2012-08-29得票数 13

回答已采纳

1回答

Hadoop，蜂箱，动物园管理员等

、、

我开始了解hadoop。我对它有了一些了解，但是当我读到关于Hive，Pig和其他Apache工具时，我感到很困惑。因此，有人能简单地概述一下hadoop和Apache的工具(Hive、Pig、等)，我想知道它们在处理大数据时是如何和在哪里使用的。

浏览 3提问于2014-05-20得票数 0

回答已采纳

2回答

如何在远程系统上并行化执行

、、、

将工作分配给一组远程机器的好方法是什么？考虑这样一个示例，该任务非常占用CPU和RAM，但实际上并不处理大型数据集。选择的语言应该是Java。我认为Hadoop将是一个很好的选择，但在远程机器之间传递的数据集相当小，并且Hadoop似乎主要关注数据的分布而不是工作的分布。有哪些好的技术可以提供帮助？编辑:我主要对负载均衡感兴趣。将有一系列具有较小(< 3MB)数据集的作业，但需要大量的处理和内存。

浏览 3提问于2009-11-11得票数 0

回答已采纳

1回答