有没有什么解决方案可以用相同的sql比较两个hdfs集群对同一个表的结果

在云计算领域，可以使用Apache Hive来解决这个问题。Hive是一个基于Hadoop的数据仓库基础设施，它提供了类似于SQL的查询语言HiveQL，可以方便地进行数据分析和处理。

要比较两个HDFS集群上同一个表的结果，可以按照以下步骤进行操作：

在每个HDFS集群上创建一个Hive表，表结构和数据应该保持一致。
使用Hive的INSERT INTO语句将数据导入到每个表中，确保两个表中的数据是最新的。
使用Hive的SELECT语句查询两个表的数据，并将结果保存到两个不同的文件中，例如result1.txt和result2.txt。
将两个结果文件从HDFS下载到本地文件系统。
使用适当的工具（例如diff命令）比较这两个结果文件，查看是否存在差异。

这个解决方案的优势是使用了Hive的SQL语言，使得数据比较和分析变得简单和直观。同时，由于Hive是基于Hadoop的，可以处理大规模的数据集。

对于腾讯云的相关产品，可以使用腾讯云的Hadoop集群（Tencent Cloud Hadoop Cluster）来搭建HDFS集群，并使用腾讯云的Hive服务（Tencent Cloud Hive）来执行SQL查询和数据导入操作。具体的产品介绍和使用方法可以参考腾讯云的官方文档：

请注意，以上答案仅供参考，具体的解决方案和产品选择应根据实际需求和情况进行评估和决策。

有没有什么解决方案可以用相同的sql比较两个hdfs集群对同一个表的结果

、、、

由于某些原因，我们从旧集群迁移到新集群.But我们的新集群一开始不能很好地工作，所以我们发现了一些问题并修复了它。但是在我花在修复上的时间里，一些etl工作，sql可能会产生一些错误的数据。如何快速比较同一表中这两个集群的数据？我尝试过使用getmerge和checksum来找出差异，但我不确定两个簇的结果是否以相同<

浏览 26提问于2020-01-09得票数 0

回答已采纳

3回答

Apache Sqoop和Spark

、

为了将大量SQL数据加载到Spark & ML中，下面哪个选项的性能更好。请建议以上哪一种方法可以很好地将大型SQL数据加载到Spark。

浏览 12提问于2015-11-18得票数 3

回答已采纳

1回答

如何使用SQoop对从RDBMS迁移到HDFS的数据进行测试？

、、、、

测试人员如何测试数据是否从RDBMS迁移到HDFS？请只从测试的角度解释。将数据从RDBMS移动到HDFS和将数据从RDBMS移动到HIVE之间有什么区别？据我所知，蜂巢不是一个数据库，那么为什么要将数据移动到蜂巢呢？

浏览 3提问于2017-06-06得票数 2

回答已采纳

2回答

配置单元与SQL* Server性能*

、

1)我从过去的两个月开始使用hive。我有一个与SQL相同的任务。我发现Hive很慢，执行查询需要更多的时间，而SQL只需要几分钟/秒就能执行它。在Hive中执行任务后，当我交叉检查两个(SQL和Hive)中的结果时，我发现结果中存在一些差异(不是全部，但在某些表中)。例如:我有一个表，其中有2012条记录，当我在Hive中的<

浏览 0提问于2012-04-03得票数 7

回答已采纳

4回答

配置单元collect_set()

、

假设我有两个表：timeperiod1和timeperiod2。的模式如下所示：A 1B 2B 4B [2,3]cluster characteristicB [2,3,4] 2)有没有可以用</e

浏览 1提问于2017-03-28得票数 1

1回答

如何比较两种不同标记的聚类解决方案

我计划对某些数据进行聚类方法的可靠性测试。我的计划是重复(与替换)绘制一些随机子样本对(例如，2x10%的总数据)，分别对两种数据进行聚类，然后比较结果。从这一点看，解决方案似乎非常接近，直到我们比较标签3。看起来，标签3的A对应于标签4的B。我最初的想法是，我可以根据每个集群的样本大小对它们重新命名。如果满足这两个<

浏览 0提问于2020-07-19得票数 2

回答已采纳

1回答

从hdfs读取ocr文件后不可思议地触发数据帧

、、、、

我首先在本地计算机上测试了我的代码(单节点，本地文件)，一切工作正常： .现在，我将数据上传到hadoop集群(ambari setup，yarn，11个节点)，并使用hadoop fs -put /home/username/mydata /mydata将其推送到hdfs中现在我测试了相同的代码，测试结果</em

浏览 9提问于2017-07-13得票数 7

回答已采纳

2回答

将许多文件从hdfs移到hdfs

、、

我需要将许多文件从一个hdfs dir移动到同一个集群中的另一个hdfs dir (而不是复制)。两个问题：我希望使用mapreduce来实现这一点，因为需要移动数百万个文件(或将其重命名为新路径)。我也想把它和oozie结合起来。我可以自己写一份mapreduce工作，但我想知道是否有什么东西可以完成这项工作。 B)我真的需要这样做吗？不幸的是，我对hdfs重命名

浏览 2提问于2014-01-07得票数 2

回答已采纳

3回答

Sql Server 2005数据库表-逐列比较行

、

场景我想要做的是运行这两个应用程序，这将产生大约35000行，每行包含10列-所以总共有

浏览 0提问于2010-03-22得票数 1

回答已采纳

4回答

Hadoop的蜂巢/猪、HDFS和MapReduce关系

、、、、

我对的理解是，它是查询Hadoop集群的类似SQL的工具层。我对的理解是，它是查询Hadoop集群的一种过程语言。所以，如果我的理解是正确的，蜂巢和猪似乎是解决同一个问题的两种不同的方法。然而，我的问题是，我不明白他们两人首先要解决的问题！假设我们有一个DB (关系型，NoSQL，不重要)，它

浏览 6提问于2015-06-25得票数 2

回答已采纳

2回答

从Server 2016或更高版本查询蜂箱表

、、、

我正在尝试从Server查询Hortonworks集群Hive表。我的设想如下：我读到了Server 2016中的PolyBase服务，我想是以后的版本。但是，我意识到根据，这个服务将在Server中执行的功能是连接我的HDFS并在这个数据源中重新创建外部表的</

浏览 2提问于2018-01-03得票数 0

1回答

Kerberized集群到hadoop集群之间使用Spring引导的数据流

、、、

我有一个用于开发Spring引导应用程序的流用例，它应该读取kafka主题中的数据并放入hdfs路径，我为kafka和hadoop提供了两个不同的集群。我做了很少的分析/googling，我找不到多少帮助，我的理论是我们不能登录/认证到同一个jvm实例中的两个内核化集群，因为我们需要在代码中设置领域和KDC细节，这些代码不是特定于客户端的，而是

浏览 1提问于2018-01-30得票数 0

1回答

使用sqoop的两个(PL)/SQL查询

、、、

我正在尝试使用sqoop 1.4.6将数据从Oracle数据库导入到HDFS。我可以使用--table table_name或--query SELECT <...>语句对HDFS或hive表进行简单的导入。但是，我的问题是:有没有一种方法可以先执行某个PL/SQL过程来导入表？对于常用的JDBC工具(例如，如果使用R，则使用ROracle包)，同一个连接需要两个</

浏览 0提问于2017-05-19得票数 0

1回答

比较SQL查询性能

、、

我正在重新设计我的一些数据库表。我在同一个表中有两个键，可以用来查询数据，我想比较它们之间的性能差异。使用较新的键进行查询比较慢，所以我希望有一种方法可以在进行模式更改后运行，以重新评估查询性能。我知道MS SQL Server和SET STATISTICS IO, TIME ON中的执行计划。然而，我希望有一个非常简单的绝对时间，给我一个现实的

浏览 19提问于2019-06-27得票数 0

回答已采纳

1回答

C++，如何使用常量对象和非常数对象进行比较？

我重载了operator==来比较同一个类的两个对象，它工作得很好。但是如果想要对常量对象使用比较，我就不能编译。我知道我可以用const参数编写一个额外的operator==，但是有没有办法对const和非const对象使用相同的方法呢？

浏览 2提问于2018-09-19得票数 1

2回答

我们可以使用HDInsight服务进行自动测试吗？

、、

我们有一个名为Xtrace的日志系统。我们使用该系统在SQL数据库中转储日志、异常、跟踪等。Ops团队然后使用这些数据进行调试，用于SCOM目的。考虑到SQL的150 GB限制，我们正在考虑使用HDInsight (大数据)服务。 1. Last question.

浏览 4提问于2013-10-01得票数 1

1回答

在两列中标识相似的字符串值

、、、

例如，我有一个包含两列Address1和refAddr的表。我想比较一下这两列是否匹配。显然，在这张表中，5235 JFK BLVD和5235 John F Kennedy是一对，424 N 2ND ST和424 NORTH SECOND是一对。在SQL或SSIS中，有没有什么我可以用来去掉非对结果并保留

浏览 3提问于2016-08-13得票数 0

回答已采纳

1回答

安全集群中的BDR - Cant get kerberos领域

、

我有5.13管理了两个集群(Prod和DR)。我已经测试了备份和灾难恢复(BDR)，它运行良好。现在，我已经对这两台服务器进行了角化，并安装了哨兵服务。我配置了一个超级用户，它位于具有所有权限的超级组中(两个集群上的用户相同)。我也可以在集群的所有节点上为超级用户提供kinit和klist。我的两个集群都位于同一个领域，KDC安装在主从配置中<e

浏览 0提问于2018-12-12得票数 1

回答已采纳

1回答

齐柏林飞艇图中的“无数据”

、、

它存储在HDFS集群中，我可以将其加载为Spark dataframe：input_hdfs_path = u'hdfs://cluster-master:9000/data/CDR_*.parquet'df.registerTempTable("df") 我<e

浏览 4提问于2017-10-31得票数 4

回答已采纳

1回答

检查表和视图性能的最佳方法是什么？

、、

请您建议比较表与视图查询性能的最佳解决方案是什么？我的意思是在同一个服务器上有两个数据库(SQL Server 2016)。两者都包含相同的数据，但在不同的模式中，因此假设数据库A中有数据在一个表A.Data中，在数据库B上有相同的数据在表B.Data1、B.Data2和B.Data3上。因此，在数据库B上，

浏览 0提问于2021-09-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

有没有什么解决方案可以用相同的sql比较两个hdfs集群对同一个表的结果

相关·内容

有没有什么解决方案可以用相同的sql比较两个hdfs集群对同一个表的结果

Apache Sqoop和Spark

如何使用SQoop对从RDBMS迁移到HDFS的数据进行测试？

配置单元与SQL* Server性能*

配置单元collect_set()

如何比较两种不同标记的聚类解决方案

从hdfs读取ocr文件后不可思议地触发数据帧

将许多文件从hdfs移到hdfs

Sql Server 2005数据库表-逐列比较行

Hadoop的蜂巢/猪、HDFS和MapReduce关系

从Server 2016或更高版本查询蜂箱表

Kerberized集群到hadoop集群之间使用Spring引导的数据流

使用sqoop的两个(PL)/SQL查询

比较SQL查询性能

C++，如何使用常量对象和非常数对象进行比较？

我们可以使用HDInsight服务进行自动测试吗？

在两列中标识相似的字符串值

安全集群中的BDR - Cant get kerberos领域

齐柏林飞艇图中的“无数据”

检查表和视图性能的最佳方法是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐