Hadoop: spark作业无法处理小型数据集

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的存储和分析。它采用了分布式文件系统（HDFS）和分布式计算模型（MapReduce），可以在集群中并行处理大量数据。

Hadoop的优势包括：

可靠性和容错性：Hadoop通过数据冗余和自动故障转移来保证数据的可靠性和容错性。
可扩展性：Hadoop可以在集群中添加更多的计算节点，以处理不断增长的数据量。
高性能：Hadoop采用了并行计算模型，可以在集群中同时处理多个任务，提高数据处理速度。
成本效益：Hadoop是开源的，可以在廉价的硬件上构建集群，降低了成本。

Hadoop适用于处理大规模数据集的场景，例如数据分析、数据挖掘、机器学习等。它可以处理结构化数据、半结构化数据和非结构化数据。

对于spark作业无法处理小型数据集的问题，可以考虑以下解决方案：

调整数据分区：Spark作业默认将数据分为多个分区进行并行处理，如果数据集较小，可以尝试减少分区数，以提高作业处理效率。
使用本地模式：Spark可以在本地模式下运行，不需要启动整个集群。对于小型数据集，可以直接在本地运行Spark作业，避免启动集群的开销。
考虑其他工具：对于小型数据集，Hadoop和Spark可能会带来额外的开销。可以考虑使用其他轻量级的数据处理工具，如Pandas、R等。

腾讯云提供了一系列与Hadoop相关的产品和服务，包括云服务器、云数据库、云存储等。您可以访问腾讯云官网了解更多详情：腾讯云Hadoop产品介绍。

Hadoop: spark作业无法处理小型数据集

apache-spark、hadoop

我们的轨迹数据挖掘代码很快就完成了2M的数据，但由于许多失败的任务，它在20M这样的更大的数据上失败了。我们试图增加内存，但还是失败了。我们有3台机器集群，有4个核心和32 We。我们的配置是 spark.executor.memory 26g spark.driver.memory 6g 当我们试图解决这个问题时，出现了错误信息

浏览 9提问于2020-08-23得票数 0

3回答

性能比较: Hive和MapReduce

hadoop、mapreduce、hive

Hive提供了一个抽象层，用于java地图减少作业，因此与相比，它应该存在性能问题。使用运行时数据的实际用例场景将是真正的帮助. 谢谢

浏览 1提问于2013-01-16得票数 0

6回答

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

google-cloud-platform、google-cloud-dataflow、google-cloud-dataproc

我正在使用Google Data Flow来实现一个ETL数据仓库解决方案。而且看起来DataProc比DataFlow便宜一点。

浏览 1提问于2017-09-27得票数 66

1回答

Spark vs Hadoop

hadoop、mapreduce、batch-processing、apache-spark、transformation

我有一个使用Hadoop或Spark编写大数据处理应用程序的要求。我知道Hadoop对于批处理应用来说是最好的技术，而Spark对于分析应用来说是最好的技术。应用程序将获得一个输入文件和几个配置文件。现在，利益相关者建议使用Spark，因为他们认为Spark比MapReduce更快。但是我认为Spark不适合这个场景，因为它适用于分析应用，而不是批处理。此外，我只能在Spark中看

浏览 0提问于2015-01-06得票数 1

1回答

我如何知道Apache Spark是否是合适的工具？

apache-spark

只是想知道，为了知道Spark是不是正确的工具，有没有什么问题可以问我们自己？我再一次花了一周的时间用Apache Spark实现了一个POC，以便与纯python代码进行性能比较，当我看到1/100的比率(更倾向于python)时，我感到困惑。我知道Spark是一个“大数据”工具，每个人都在说"Spark是处理TB/PB级数据的合适工具“，但我认为这不是唯一需要考虑的因素。简而言之，我的问题是，当给定小数据作为输入时，我

浏览 1提问于2017-06-02得票数 0

1回答

Apache Spark优化

apache-spark、machine-learning、pyspark

我正在使用Spark MLlib和Pyspark来完成我的作业，我需要证明它比传统的机器学习方法更好。我有一个数据集，我正在对其运行Logistic回归，并且我正在寻找诸如精确度、精确度、召回率等指标。当在PySpark和一个普通的Python脚本中运行代码时，我意识到普通的puthon脚本会更快地完成执行，这不应该是这样的，因为数据集中有很多数据。我很快深入研究，并意识到Spark只有一个工人运行，并且只分配了一个核心。因此，我在spark-defa

浏览 3提问于2019-12-02得票数 0

2回答

Apache Hive的实际工业应用是什么？

database、hadoop、hive、hiveql、data-warehouse

与其他数据仓库/数据库相比，Hive在业界真的不那么受欢迎吗？

浏览 0提问于2018-02-09得票数 0

3回答

在Hadoop上使用MapReduce还是Spark进行批处理？

hadoop、mapreduce、batch-processing、apache-spark

我知道MapReduce是一个在Hadoop上进行批处理的很好的框架。但是，Spark也可以用作Hadoop上的批处理框架，与MapReduce相比，它提供了可伸缩性、容错性和高性能。Cloudera，Hortonworks和MapR也开始在Hadoop上用纱线支持火花。有什么想法吗？

浏览 2提问于2014-10-31得票数 5

1回答

hadoop临时表中的Dataproc冲突

hadoop、apache-spark、google-cloud-dataproc

我有一个流，它为不同的区域并行执行Dataproc集群上的火花作业。对于每个区域，它创建一个集群，执行星火作业，并在集群完成后删除它。spark作业使用传递org.apache.spark.rdd.PairRDDFunctions.saveAsNewAPIHadoopDataset的方法将数据保存到BigQuery表中。作业将数据保存在多个表中，每个作业调用saveAsNewAPIHadoopDataset方法不止一次。问题是，有时我

浏览 0提问于2018-03-13得票数 0

回答已采纳

3回答

以高效的方式从BigQuery读取到Spark？

apache-spark、google-bigquery、google-cloud-dataproc、google-hadoop

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。复制阶段是否受Spark簇大小的影响，还是需要固定的时间？

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

多节点hadoop集群和在mesos上运行hadoop有什么区别？

hadoop、mesos

我已经构建了一个多节点hadoop集群，然后我开始研究mesos和在mesos集群上运行hadoop的能力，所以我的问题是： 1) Should I run hadoop on mesos cluster

浏览 0提问于2015-09-12得票数 0

3回答

Apache如何在Hadoop MapReduce上实现100倍的加速，以及在什么情况下？

hadoop、apache-spark、bigdata、distributed-computing

Spark的RDDs (弹性分布式数据集)和DataFrames都能提供这种加速吗？对于上述一些场景，星火社区是否获得了任何基准测试结果？

浏览 2提问于2015-12-05得票数 1

1回答

hadoop map-reduce有没有比apache spark做得更好的用例？

apache-spark、hadoop、mapreduce

我同意iterative和interactive编程范式使用spark比map-reduce更好。我也同意我们可以使用HDFS或者任何像HBase这样的hadoop数据存储作为Spark的存储层。因此，我的问题是-在现实世界中，我们是否有任何用例可以说hadoop MR在这些上下文中比apache spark更好。与使用spark相比，hadoop MR仍然是进行批处理的好方法。如果是这样的话，谁能告诉advantages of <

浏览 1提问于2015-08-03得票数 3

1回答

从我的Azure Blob存储中获取Excel数据时发生的数据库火花放电错误

pyspark、azure-databricks

下面是我的代码：.option("header", "true") \ .option("：java.lang.NoClassDefFoundError:无法初始化com.crealytics.spark.excel.DefaultSource.createRelation(DefaultSource.scala:13) at com.crea

浏览 11提问于2021-12-08得票数 1

回答已采纳

1回答

多次迭代mysqli无缓冲查询结果

php、mysql、unbuffered-queries

问题：我需要多次迭代数组，但是mysqli_data_seek不能处理无缓冲的查询。

浏览 5提问于2013-08-08得票数 1

1回答

似乎不能为火花而建蜂巢

amazon-ec2、apache-spark、apache-spark-sql

None.org.apache.spark.sql.hive.HiveContext.\n', JavaObject id=o44))在我的本地机器上运行这些命令之前，我提交了导出SPARK_HIVE=TRUE，但是我看到消息说它不受欢迎，无论如何都会被忽略。

浏览 2提问于2015-12-11得票数 0

回答已采纳

3回答

Spark、Hadoop和Cassandra之间的关系是什么

hadoop、cassandra、apache-spark、apache-spark-sql

我的理解是Spark是Hadoop的替代品。但是，当尝试安装Spark时，安装页面要求安装现有的Hadoop。我找不到任何可以澄清这种关系的东西。其次，Spark显然与Cassandra和Hive有很好的连接性。两者都有sql风格的界面。然而，Spark有它自己的sql。为什么要使用Cassandra/Hive而不是Spark的原生sql？

浏览 2提问于2015-06-27得票数 38

3回答

在纱线客户端错误上运行火花壳

shell、hadoop、apache-spark、hadoop-yarn

我有Spark1.6.1，我已经设置了现在，如果我运行星火外壳：$.short-circuit local reads feature cannot be used because libhadoop cannot be loaded.org.apache.h

浏览 7提问于2016-09-18得票数 0

回答已采纳

1回答

我在哪里运行spark* - Standalone、Hadoop或Mesos*

hadoop、apache-spark、hadoop-yarn、mesos

我正在学习Spark，但如果我必须在Hadoop/Yarn或Mesos上运行spark，我会感到困惑。如果我在Hadoop/Mesos上运行，会有什么性能提升吗？

浏览 0提问于2015-07-24得票数 1

1回答

比较内存中的集群计算系统

apache-spark、redis、apache-storm、memcachedb

我正在从事Spark(Berkeley)集群计算系统的工作。在我的研究中，我了解了一些其他的内存系统，如Redis，Memcachedb等。如果有人能给我一个SPARK和REDIS (以及MEMCACHEDB)的比较，那就太好了。Spark在哪些情况下比其他内存系统更有优势？

浏览 4提问于2013-05-22得票数 10

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Hadoop: spark作业无法处理小型数据集

相关·内容

Hadoop: spark作业无法处理小型数据集

性能比较: Hive和MapReduce

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

Spark vs Hadoop

我如何知道Apache Spark是否是合适的工具？

Apache Spark优化

Apache Hive的实际工业应用是什么？

在Hadoop上使用MapReduce还是Spark进行批处理？

hadoop临时表中的Dataproc冲突

以高效的方式从BigQuery读取到Spark？

多节点hadoop集群和在mesos上运行hadoop有什么区别？

Apache如何在Hadoop MapReduce上实现100倍的加速，以及在什么情况下？

hadoop map-reduce有没有比apache spark做得更好的用例？

从我的Azure Blob存储中获取Excel数据时发生的数据库火花放电错误

多次迭代mysqli无缓冲查询结果

似乎不能为火花而建蜂巢

Spark、Hadoop和Cassandra之间的关系是什么

在纱线客户端错误上运行火花壳

我在哪里运行spark* - Standalone、Hadoop或Mesos*

比较内存中的集群计算系统

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐