腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
当HDFS已经提供数据存储时,为什么还要使用Hive?
、
、
我已经开始学习Hadoop了,我知道HDFS提供了
分布式
存储系统,Mapreduce是用于data processing.Now的,我正在阅读Hadoop生态系统。从Hive的定义来看,它是一个构建在hadoop上的
数据仓库
,用于提供类似SQL的接口。 我的问题是,当hadoop提供容错、
分布式
的HDFS时,为什么要使用hive?hive会取代HDFS吗?
浏览 1
提问于2018-07-26
得票数 0
2
回答
为什么是Hadoop还是火花?有ElasticSearch
、
、
答案是:"Elasticsearch是一个
分布式
搜索引擎,不应该用作
数据仓库
。“ 谢谢并致以最良好的问候, 里斯基·苏纳约
浏览 5
提问于2015-03-23
得票数 7
1
回答
Azure
数据仓库
数据库存储
、
、
、
我是Azure
数据仓库
的新手,在阅读一些关于数据实际存储位置的文章时,我一点也不感到困惑。是计算节点为db表或azure blob存储数据吗? 谢谢
浏览 2
提问于2016-08-27
得票数 0
回答已采纳
1
回答
哪些情况可以从减少、复制和重新分发连接提示中受益?
、
、
、
、
文件中的有关章节:减少了连接右侧表要移动的行数,以便使两个发行版不兼容的表兼容。减少提示也称为半连接提示。 复制使连接列中的值从联接左侧的表中复制到所有节点。对于
分布式
表,并行
数据仓库
将执行洗牌操作。对于复制的表,并行
数据仓库
将执行trim操作。要了解这些移动类型,请参阅并行<e
浏览 0
提问于2019-01-24
得票数 8
回答已采纳
1
回答
Hive中的
数据仓库
、
我需要在配置单元中建立
数据仓库
,并使用HBase来提供实时访问,所以我想知道它的架构是什么?配置单元是
分布式
的吗?即,我需要在群集的所有节点上安装配置单元,还是集中安装
浏览 1
提问于2013-07-11
得票数 0
1
回答
分发事务已完成-错误- Server 2005
、
尝试执行存储过程以更新某个
数据仓库
,但是,当我执行存储过程时,会收到一条错误消息,声明: 错误Msg 8525,级别16,状态1,第1行
分布式
事务已完成。将此会话登记在新事务中或空事务中。
浏览 2
提问于2016-09-30
得票数 1
回答已采纳
1
回答
如何在现有系统中实现Hadoop框架
、
、
、
、
我计划实现mapreduce和hdfs作为
分布式
文件系统。问题是,我要做的第一步是什么?我应该从什么开始呢?我对Hadoop框架进行了深入的研究。
浏览 2
提问于2015-02-04
得票数 0
1
回答
对于Hadoop:哪个数据存储?
、
、
为此,我正在考虑将Hadoop用于MapReduce和
分布式
计算。使用MapReduce模式,我可以创建每组100.000条记录,并将它们分布在集群上,以便进行一些
分布式
分析/计算。
浏览 3
提问于2015-02-11
得票数 0
3
回答
在一台机器上运行NoSQL
、
、
、
作为我大学课程的一部分,我最终完成了一个真正的项目,该项目包括帮助一家公司从他们的关系
数据仓库
转移到NoSQL
数据仓库
。据我所知,NoSQL的全部要点是在一个由多台机器组成的大型
分布式
系统中运行它。所以我不明白这次迁移的意义,特别是因为我非常确定(但不是全部)如果他们真的安装了NoSQL,他们最终的性能可能会更差。但我仍然不愿意告诉他们这一点,因为我还是这个领域的新手(不到一个月),所以我想知道,是否存在在一台机器上使用NoSQL作为
数据仓库
的合理性能明智的情况?或者这只是一个糟糕的主意?
浏览 0
提问于2014-02-20
得票数 4
3
回答
什么是曼哈顿数据库?
、
我的一个朋友正在面试一个
数据仓库
和业务对象的角色,但他被问及关于曼哈顿数据库的问题?任何帮助都将不胜感激!
浏览 0
提问于2010-02-28
得票数 1
回答已采纳
2
回答
Azure数据湖- HDInsight vs
数据仓库
、
、
、
我所处的位置是,我们使用Azure
数据仓库
中的外部表从Azure数据湖中读取数据。 这使我们能够使用众所周知的SQL从数据湖中读取数据。我假设Data Warehouse正在后台运行某种形式的
分布式
查询,正在转换到U-SQL(?),那么为什么我们要将Data Lake Analytics与U-SQL的语法稍有不同呢?
浏览 1
提问于2018-01-18
得票数 3
3
回答
更新大复制维度( Server )
、
、
我们使用服务器设备作为
数据仓库
。我们仓库中的一个表是一个大约有2000万行的复制表。作为ETL过程的一部分,我们需要从这个维度过期旧记录;但是,我们看到更新少量记录(<100)需要超过1小时。当然,我想过的一个选择是将这个维度从复制更改为
分布式
。我的测试表明,它将修复ETL进程需要花费很长时间(从1.5小时到30秒)的问题,但是针对此维度的
分布式
版本的所有联接都会受到影响,因为联接几乎从不基于相同的分发列。同样,移动到
分布式
表似乎不是最好的解决方案,因为它将影响到数百个已经编写好的SQL查询和其他人开发的报告。
浏览 0
提问于2013-08-12
得票数 8
1
回答
使用多处理模块并行访问python生成器
、
、
我有一个Python生成器,它从
数据仓库
中提取了一个相当大的表。在提取数据后,我正在以
分布式
的方式使用芹菜处理数据。经过测试,我意识到发电机是瓶颈。它不能为芹菜工人生产足够的工作任务。关于生成器的更多细节 生成器使用块查询访问
数据仓库
,这些查询结果基本上是相互独立和无状态的。因此,我认为这是一个很好的选择,使其并行使用multiprocessing模块。
浏览 0
提问于2014-11-12
得票数 2
回答已采纳
2
回答
用于
数据仓库
和空间查询的NewSQL
、
、
、
哪些NewSQL发行版适合处理
数据仓库
和空间查询?(MemSQL,VoltDB,NuoDB,什么?以及原因)
浏览 1
提问于2018-11-27
得票数 0
1
回答
多个节点中的配置单元表-正在处理
、
、
、
、
我知道Hive是一个运行在Hadoop之上的
数据仓库
工具。我们知道Hadoop有一个
分布式
文件系统-HDFS。 假设我有一个主人和三个奴隶。现在,我已经在HiveQL中创建了一个表employees。
浏览 0
提问于2016-03-18
得票数 0
3
回答
我如何自制一个身份栏?
、
至于为什么我们不能使用identity列,微软的并行
数据仓库
在物理上不同的服务器之间拆分表。Microsoft从PDW中删除了标识功能,因为您必须在所有服务器之间通信,以便为
分布式
表中的每个插入找到新的标识值,这在很大程度上否定了并行点。
浏览 2
提问于2013-06-14
得票数 2
1
回答
云服务性能?
、
、
、
云服务性能好不好
浏览 276
提问于2020-06-12
2
回答
雪花
数据仓库
-生成具有字母数字字符而不是整数的维度id
在雪花
数据仓库
中使用字母-数字字符组合而不是整数来生成维度id是个好主意吗?()例如:假设我必须从一个具有3个键组合的源表构建一个维度表。通常我们构建增量整数列代理键作为维度id。因为雪花是
分布式
数据库,性能也很好,我觉得这应该没问题。我想看看有没有什么不可预见的影响?
浏览 0
提问于2019-03-07
得票数 0
2
回答
与Teradata的全局事务
、
、
、
、
我在基于Java的项目中使用、Oracle、和Teradata这两个数据库。我希望设置全局事务,以便可以在一个事务下对两个数据库执行操作。那么,现在如何在两个数据库上设置1项事务下的全局事务和性能操作?
浏览 1
提问于2014-05-25
得票数 0
回答已采纳
5
回答
DataWarehouse -什么是好的定义?
、
有人能给我一个好的、实用的
数据仓库
定义吗?
浏览 0
提问于2010-05-21
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据仓库原理:数据仓库系统的体系结构
传统数据仓库和云数据仓库的区别
数据仓库调研
数据仓库模型说明
聊聊数据仓库建设
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券