针对我的特定用例，在Hive (on Tez)和Spark之间进行性能基准测试

、、、

我正在处理集群上的一些数据，并想做一些聚合-没有太复杂的东西，但比sum更复杂，有很少的连接和计数差异。我已经用Scala在Hive和Spark中实现了这种聚合，并想比较一下执行时间。当我从网关提交脚本时，linux时间函数提供的实时时间比我预期的sys时间要短。但我不确定该选哪一个作为恰当的比较。也许只需使用sys.time并多次运行这两个查询

浏览 8提问于2016-12-31得票数 0

回答已采纳

1回答

单个记录查找的火花性能

、、、、

我正在进行性能测试，比较Spark和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相同或更快。这些结果与许多例子是一致的。但是，有一个值得注意的例外情况

浏览 12提问于2016-10-18得票数 2

回答已采纳

6回答

有什么建议可以让Hive在Hadoop上运行得更快吗？

、、

我是Hive和Hadoop的新手。我将Hadoop配置为伪分布式操作，一个数据节点和一个名称节点都在localhost上。WA

浏览 1提问于2017-12-05得票数 0

2回答

Hive和Spark的执行差异

、、

所有人:我正在寻找有更多知识的人来检查我对蜂巢和火花的理解我一直在研究不同的大型数据库解决方案，我试图了解Hive和Spark在执行方面的差异。我尝试安装Hadoop、Hive和Spark，看看它们的性能如何。我能够让Hadoop和<em

浏览 44提问于2021-04-09得票数 0

回答已采纳

1回答

选择配置单元执行引擎

、

在下面显示的3个配置单元执行引擎中，在Hadoop集群中工作时更推荐使用哪一个。当我们必须使用(理想选择)的时候，用例是什么？我尝试了一个样本大小为400M的查询，引擎Tez给出的输出比其他2个要快，查询的摘要包括分组和过滤。set hive.execution.engine=spark; set hive.execution.engine=<e

浏览 33提问于2019-08-27得票数 0

2回答

星火错误的蜂巢java.lang.NoSuchFieldError: SPARK_RPC_SERVER_ADDRESS

、、

使用简单的select * from table查询在Spark上运行Hive，运行平稳，但是在联接和和时，ApplicationMaster返回关联的火花容器的堆栈跟踪： 2019-03-29 17:at org.apache.hive.spark.client.rpc.RpcConfiguration.at org.apache.hive.spark.client.rpc.RpcConfigur

浏览 2提问于2019-03-29得票数 2

回答已采纳

7回答

Apache SQL与Sqoop基准测试同时将数据从RDBMS传输到hdfs

、、、

我正在研究一个用例，在这个用例中，我必须将数据从RDBMS传输到HDFS。我们已经使用sqoop对这个案例进行了基准测试，并发现我们能够在6-7分钟内传输大约20 of的数据。当我尝试使用Spark时，性能非常低(从netezza到hdfs需要4分钟的1GB记录)。我正在尝试进行一些调优并提高它的</e

浏览 3提问于2016-05-10得票数 14

回答已采纳

4回答

火花2:当调用SparkSession enableHiveSupport()时，它是如何工作的

、、、

我的问题相当简单，但不知怎的，我无法通过阅读文档找到一个明确的答案。SparkSession spark = SparkSession.builder().appName("MyApp").enableHiveSupport().getOrCreate() 假设我

浏览 3提问于2018-09-04得票数 12

3回答

蜂巢比星火更快吗？

、、、、

在阅读了之后，一位同事昨天提到，他能够过滤一个15B表，在做完一个"group“之后，再将它与另一个表连接起来，这样只需10分钟就会产生6B记录！我不知道这是否会在星火更慢，因为现在与DataFrames，他们可能是可比的，但我不确定，因此问题。他使用最新的蜂巢，这似乎是使用Tez。

浏览 11提问于2016-09-09得票数 6

回答已采纳

1回答

不使用动作的Spark基准测试

、

我试图通过对一个Hive表运行一个简单的查询来比较Spark和hive的性能，例如： spark.sql("select * from schema.table where col = 0") 问题是我想过使用.count()来强制代码运行，但我担心它会改变应用程序运行的方式，并与Hive进行错误的比较，因为每个任务不仅会<e

浏览 23提问于2021-07-26得票数 0

3回答

SparkSQL vs Hive* on Spark - Difference和利弊？*

、、、

SparkSQL CLI在内部使用HiveQL，并且在spark( Hive -7292)上使用配置单元，hive使用spark作为后端引擎。有没有人能再解释一下，这两种方案到底有什么不同，两种方法的优缺点是什么？

浏览 1提问于2015-07-24得票数 40

1回答

Avro与Protobuf的性能指标

、、、、

我们使用kafka来存储消息，并推送数量极大的消息(立即超过30k )。我不确定这是否相关，但是kafka消息的生产者代码是jruby的。序列化和反序列化消息也会对系统的性能产生影响。有人可以帮助比较Avro和Protocol Buffer在序列化和反序列化方面的速度吗？

浏览 0提问于2016-07-04得票数 11

回答已采纳

1回答

与MySQL - basic MongoDB ()方法相比，find()方法要慢得多

、、

这是我的第一个Stackoverflow问题，但我是一个长期读者。有人能给我解释一下为什么会这样吗？1.52201348模式是：

浏览 0提问于2015-05-12得票数 1

2回答

Apache钻头性能

、、、、

是否有任何性能基准(真正的)比较毒刺与黑斑羚与钻？而且，这也是首选的-我的用例将主要用于蜂巢之上的临时交互查询。谢谢。

浏览 2提问于2015-08-22得票数 7

回答已采纳

2回答

在Hadoop中使用HBase代替Hive的目的

、、、

在我的项目中，我们使用Hadoop 2、Spark、Scala。Scala是编程语言，Spark在这里用于分析。我们同时使用Hive和HBase。我可以使用HDFS访问Hive的所有细节，如文件等。但我的困惑是- HIVE 和 HBase

浏览 2提问于2016-12-29得票数 4

回答已采纳

1回答

对于ETL来说，使用ORC性能的Hive真的比Spark更好吗？

、、、、

我在Hive方面没有什么经验，目前我正在学习Scala的星火。我很想知道Tez上的Hive是否真的比SparkSQL快。我搜索了许多论坛的测试结果，但他们比较了较早版本的星火，其中大多数是在2015年编写的。以下要点概述 Tez引擎将提供更好的</e

浏览 0提问于2017-08-09得票数 3

3回答

蜂巢-它适合建一个数据仓库吗？

、、

因此，和大多数企业公司一样，我们在Hadoop中建立了一个数据仓库，在Hive中支持用户查询，现在，经过几个月的用户接受测试之后，每个人都对最终用户使用它不是标准(Oracle/Netezza)数据库进行即席数据分析感到有点惊讶虽然我知道这可能是一种非常愚蠢的项目执行方式(我们应该在构建产品之前研究用例和最佳匹配技术)，而且我知道Hadoop与单节点机器

浏览 0提问于2019-01-17得票数 0

回答已采纳

1回答

在对某些云环境进行基准测试之前，我需要在这些云环境上运行NoSQL数据库吗？

、、、、

我已经在我的电脑中安装了卡桑德拉(来自DataStax)和Riak。我想用品种、工作量和记录大小对它们进行基准测试。我正在使用YCSB工具。在进行基准测试之前，我是否需要使用任何公共数据中心/云环境，或者数据库已经在某些云环境中运行？

浏览 3提问于2016-08-23得票数 0

回答已采纳

1回答

Dataproc无法安装oozie包

、、

我尝试在google cloud dataproc上使用以下命令：但是dataproc无法列出存储库中的oozie包。

浏览 0提问于2016-10-14得票数 1

2回答

如何提高蜂箱中从非分区表加载数据到ORC分区表的性能

、、、

我对Hive查询很陌生，我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ具有执行引擎和启用了矢量化。我们希望从Hive表中进行报告，我从TEZ文档中看到，它可以用于实时报告。场景来自我的WEB应用程序，我希望在UI上显示来自Hive query * from Hive表的结果

浏览 2提问于2015-03-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

单个记录查找的火花性能

有什么建议可以让Hive在Hadoop上运行得更快吗？

Hive和Spark的执行差异

选择配置单元执行引擎

星火错误的蜂巢java.lang.NoSuchFieldError: SPARK_RPC_SERVER_ADDRESS

Apache SQL与Sqoop基准测试同时将数据从RDBMS传输到hdfs

火花2:当调用SparkSession enableHiveSupport()时，它是如何工作的

蜂巢比星火更快吗？

不使用动作的Spark基准测试

SparkSQL vs Hive* on Spark - Difference和利弊？*

Avro与Protobuf的性能指标

与MySQL - basic MongoDB ()方法相比，find()方法要慢得多

Apache钻头性能

在Hadoop中使用HBase代替Hive的目的

对于ETL来说，使用ORC性能的Hive真的比Spark更好吗？

蜂巢-它适合建一个数据仓库吗？

在对某些云环境进行基准测试之前，我需要在这些云环境上运行NoSQL数据库吗？

Dataproc无法安装oozie包

如何提高蜂箱中从非分区表加载数据到ORC分区表的性能

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐