hadoop数据处理 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

集成了Mongdb，加快了数据处理速度

、

Mongodb可以与hadoop集成以进行更快的数据处理，但在此集成过程中( mongodb -> hadoop )，数据会从mongodb传输到hadoop。问题是，2.数据传输( mongodb -> hadoop )是一次性活动吗?如果是，mongodb的后续更新将如何反映在hadoop中。

浏览 2提问于2014-09-01得票数 3

6回答

如何搭建Hadoop处理环境？

、、、、

Apache Hadoop 是用于开发在分布式计算环境中执行数据处理应用程序的框架。旨在从单个服务器提供存储和计算资源的方式扩展到数千台机器。Apache Hadoop的核心部分由存储部分（Hadoop分布式文件系统）及其数据处理部分（MapReduce）组成。Hadoop将文件分割成大块，并将它们分发到群集中的节点上。那么如何搭建Hadoop处理环境？

浏览 2192提问于2018-10-24

2回答

我们可以使用Hadoop MapReduce进行实时数据处理吗？

、、、

Hadoop地图-减少和它的回声系统(如蜂巢..)我们通常用于批处理。但是我想知道是否有任何方法可以使用hadoop MapReduce作为实时数据处理的例子，比如实时结果，实时tweet。如果不是，实时数据处理或分析的替代方案是什么？

浏览 0提问于2018-12-18得票数 2

回答已采纳

1回答

在Lucene中一起显示同一系列中的文档。

这些文章分几部分编写，例如，我从IBM developer works获得了这些文章：使用Hadoop的分布式数据处理，第2部分:更进一步我将把这三篇文章分别编入索引。

浏览 1提问于2010-07-18得票数 2

1回答

使用Python存储和访问大数据

、

我正在考虑将PyTables或MongoDB与PyMongo (或者Hadoop -谢谢)一起使用。是否有其他我应该考虑的文件结构/DB？我要做的一些操作是计算一个点到另一个点的距离。

浏览 5提问于2012-10-08得票数 3

回答已采纳

2回答

hadoop和spark有什么区别？

、

随着see在市场上的增长，我可以看到spark在Hadoop上的主要用例如下：而且处理得很快。火花会在未来几天取代Hadoop吗？当火花并行运行时，Hadoop同时工作？(这是真的吗？)

浏览 0提问于2015-07-08得票数 3

回答已采纳

1回答

Apache Spark与MapReduce

、、

我一直在查找Spark和MapReduce之间的区别，我真正发现的是Spark在内存和磁盘上运行，这使得它的速度大大加快。但想必，使用Spark，您无论如何都会在内存和磁盘之间移动数据，因此如果内存空间不足，您可以将一些数据移回磁盘，然后引入新数据进行处理。

浏览 0提问于2018-05-02得票数 0

1回答

Hadoop simple Java程序-与MongoDB交互

我选择Hadoop进行数据处理，并在我的一个包含大量数据的项目中使用MongoDB进行存储。我配置并安装了hadoop，并执行了中给出的示例，该示例具有读取给定文本文档中出现的单词的次数的示例，并且运行良好。但是，当我尝试寻找一个简单的Java示例时，它将连接到MongoDB并执行简单的数据处理，例如，表中存储的记录数量属于某个简单条件(name like '%John%')。有人有什么建议吗？

浏览 1提问于2013-05-24得票数 0

回答已采纳

1回答

Hadoop和图像的3d渲染

、、

目标是学习hadoop，而不是图像处理。因此，谁能建议我应该使用什么语言，c++或java，以及3d渲染器的一些标准实现。任何其他的帮助都是非常有用的。

浏览 0提问于2010-09-13得票数 1

1回答

如何在现有系统中实现Hadoop框架

、、、、

我计划在我的基于web的应用程序中实现Hadoop框架。但我只是将其托管在本地主机中。我计划实现mapreduce和hdfs作为分布式文件系统。问题是，我要做的第一步是什么？我应该从什么开始呢？我对Hadoop框架进行了深入的研究。了解它是如何工作的，并尝试使用互联网上的wordcount示例。

浏览 2提问于2015-02-04得票数 0

2回答

MapReduce是否需要与HDFS一起使用？

、、、

我希望使用Hadoop MapReduce获得更好的数据处理性能。那么，我是否需要与Hadoop一起使用它呢？或者MapReduce可以与其他类型的分布式数据一起使用？请给我带路..。

浏览 1提问于2015-01-20得票数 0

回答已采纳

1回答

蜂箱更新效率(0.14版)

、

如何有效地处理未分区的列上的更新？

浏览 4提问于2015-04-23得票数 1

1回答

从32位桌面构建并行处理网格

、、

我正在我的笔记本电脑上运行模拟(Core2Duo1.8Ghz和4GB内存运行windows 7)，这需要很长时间。怎么做？我应该使用哪个操作系统？我的操作系统应该是服务器吗？我需要额外的硬件吗？请给我指点任何教程或书籍。请给我你的宝贵建议和建议。

浏览 0提问于2011-05-30得票数 1

回答已采纳

1回答

PC上的大量数据？

、、

你好，我想处理10亿行，23列的大量数据。但在熊猫身上，我甚至无法读取数据。那么，如何在我的Dell XPS 9570计算机上处理这些数据呢？我能用spark来做这个吗？有什么建议可以在我的电脑上处理吗？

浏览 11提问于2019-10-23得票数 0

1回答

大容量交易数据信息模式生成

、、

我试图获得更多关于使用Hadoop等分布式数据处理的信息。我刚刚开始阅读Hadoop，据我最初的理解，Hadoop非常适合非结构化数据处理，对于关系数据处理可能用处不大。

浏览 1提问于2012-10-25得票数 1

回答已采纳

1回答

星火是Apache Hadoop的替代品吗？

、、、

我们在hadoop上工作了很多年。它被用于分布式数据存储以及数据处理。现在我们知道火花比hadoop要强。这是否意味着我们应该用火花取代hadoop生态系统？有人能详细说明一下吗？

浏览 2提问于2016-12-27得票数 0

回答已采纳

1回答

我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

、

我们能在流上使用hadoop生成输出吗？我有一个由日志和预约id组成的大文件，如果我使用传统的RDBMS，我可以得到预约id，但需要1或2个小时。我是否可以运行Hadoop onflow (在应用程序运行时运行map还原)

浏览 4提问于2013-10-25得票数 0

回答已采纳

1回答

为什么spark需要本地或独立模式下的hadoop库？

、、

我下载了spark-2.4.0-bin-without-hadoop.tgz包并安装在我的系统中。Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration谷歌之后，我发现SPARK_DIS

浏览 0提问于2018-12-28得票数 1

1回答

MongoDB和Hadoop基础知识

、

hadoop仅仅被用作数据处理吗？Hadoop的主要优点是能够在不同的机器上读取相同的文件，并在那里对其进行处理，然后进行缩减。使用MongoDB和Hadoop适配器，我们可以在每个节点上处理数据，但数据仍然来自一台MongoDb机器(磁盘)。因此，在10个Hadoop节点的帮助下，10 on的搜索可以与没有Hadoop的情况下完全相同(只需在mongodb机器上) 对我来说，这看起来像是一个瓶颈。我说的对吗？

浏览 1提问于2013-04-19得票数 0

2回答