分布式数据仓库 - 腾讯云开发者社区

、、

我已经开始学习Hadoop了，我知道HDFS提供了分布式存储系统，Mapreduce是用于data processing.Now的，我正在阅读Hadoop生态系统。从Hive的定义来看，它是一个构建在hadoop上的数据仓库，用于提供类似SQL的接口。我的问题是，当hadoop提供容错、分布式的HDFS时，为什么要使用hive？hive会取代HDFS吗？

浏览 1提问于2018-07-26得票数 0

2回答

为什么是Hadoop还是火花？有ElasticSearch

、、

答案是："Elasticsearch是一个分布式搜索引擎，不应该用作数据仓库。“ 谢谢并致以最良好的问候，里斯基·苏纳约

浏览 5提问于2015-03-23得票数 7

1回答

Azure数据仓库数据库存储

、、、

我是Azure数据仓库的新手，在阅读一些关于数据实际存储位置的文章时，我一点也不感到困惑。是计算节点为db表或azure blob存储数据吗？谢谢

浏览 2提问于2016-08-27得票数 0

回答已采纳

1回答

哪些情况可以从减少、复制和重新分发连接提示中受益？

、、、、

文件中的有关章节：减少了连接右侧表要移动的行数，以便使两个发行版不兼容的表兼容。减少提示也称为半连接提示。复制使连接列中的值从联接左侧的表中复制到所有节点。对于分布式表，并行数据仓库将执行洗牌操作。对于复制的表，并行数据仓库将执行trim操作。要了解这些移动类型，请参阅并行<e

浏览 0提问于2019-01-24得票数 8

回答已采纳

1回答

Hive中的数据仓库

、

我需要在配置单元中建立数据仓库，并使用HBase来提供实时访问，所以我想知道它的架构是什么?配置单元是分布式的吗?即，我需要在群集的所有节点上安装配置单元，还是集中安装

浏览 1提问于2013-07-11得票数 0

1回答

分发事务已完成-错误- Server 2005

、

尝试执行存储过程以更新某个数据仓库，但是，当我执行存储过程时，会收到一条错误消息，声明：错误Msg 8525，级别16，状态1，第1行分布式事务已完成。将此会话登记在新事务中或空事务中。

浏览 2提问于2016-09-30得票数 1

回答已采纳

1回答

如何在现有系统中实现Hadoop框架

、、、、

我计划实现mapreduce和hdfs作为分布式文件系统。问题是，我要做的第一步是什么？我应该从什么开始呢？我对Hadoop框架进行了深入的研究。

浏览 2提问于2015-02-04得票数 0

1回答

对于Hadoop:哪个数据存储？

、、

为此，我正在考虑将Hadoop用于MapReduce和分布式计算。使用MapReduce模式，我可以创建每组100.000条记录，并将它们分布在集群上，以便进行一些分布式分析/计算。

浏览 3提问于2015-02-11得票数 0

3回答

作为我大学课程的一部分，我最终完成了一个真正的项目，该项目包括帮助一家公司从他们的关系数据仓库转移到NoSQL数据仓库。据我所知，NoSQL的全部要点是在一个由多台机器组成的大型分布式系统中运行它。所以我不明白这次迁移的意义，特别是因为我非常确定(但不是全部)如果他们真的安装了NoSQL，他们最终的性能可能会更差。但我仍然不愿意告诉他们这一点，因为我还是这个领域的新手(不到一个月)，所以我想知道，是否存在在一台机器上使用NoSQL作为数据仓库的合理性能明智的情况？或者这只是一个糟糕的主意？

浏览 0提问于2014-02-20得票数 4

3回答

什么是曼哈顿数据库？

、

我的一个朋友正在面试一个数据仓库和业务对象的角色，但他被问及关于曼哈顿数据库的问题？任何帮助都将不胜感激！

浏览 0提问于2010-02-28得票数 1

回答已采纳

2回答

Azure数据湖- HDInsight vs数据仓库

、、、

我所处的位置是，我们使用Azure数据仓库中的外部表从Azure数据湖中读取数据。这使我们能够使用众所周知的SQL从数据湖中读取数据。我假设Data Warehouse正在后台运行某种形式的分布式查询，正在转换到U-SQL(?)，那么为什么我们要将Data Lake Analytics与U-SQL的语法稍有不同呢？

浏览 1提问于2018-01-18得票数 3

3回答

更新大复制维度( Server )

、、

我们使用服务器设备作为数据仓库。我们仓库中的一个表是一个大约有2000万行的复制表。作为ETL过程的一部分，我们需要从这个维度过期旧记录；但是，我们看到更新少量记录(<100)需要超过1小时。当然，我想过的一个选择是将这个维度从复制更改为分布式。我的测试表明，它将修复ETL进程需要花费很长时间(从1.5小时到30秒)的问题，但是针对此维度的分布式版本的所有联接都会受到影响，因为联接几乎从不基于相同的分发列。同样，移动到分布式表似乎不是最好的解决方案，因为它将影响到数百个已经编写好的SQL查询和其他人开发的报告。

浏览 0提问于2013-08-12得票数 8

1回答

使用多处理模块并行访问python生成器

、、

我有一个Python生成器，它从数据仓库中提取了一个相当大的表。在提取数据后，我正在以分布式的方式使用芹菜处理数据。经过测试，我意识到发电机是瓶颈。它不能为芹菜工人生产足够的工作任务。关于生成器的更多细节生成器使用块查询访问数据仓库，这些查询结果基本上是相互独立和无状态的。因此，我认为这是一个很好的选择，使其并行使用multiprocessing模块。

浏览 0提问于2014-11-12得票数 2

回答已采纳

2回答