如何将50 it的RDBMS数据迁移到hadoop中并进行处理？使用hadoop处理50 by数据的最低硬件要求是什么？

hadoop、hdfs

如何将50 it的RDBMS数据迁移到hadoop中并进行处理？使用hadoop处理50 by数据的最低硬件要求是什么？

浏览 16提问于2019-06-25得票数 0

回答已采纳

4回答

Hadoop与RDBMS的比较

hadoop、rdbms、nosql

我真的不明白hadoop扩展背后的实际原因比RDBMS更好。有人能解释一下颗粒水平吗？这与底层数据结构和算法有关吗？

浏览 0提问于2015-09-12得票数 3

回答已采纳

2回答

处理数据仓库中的大数据

hadoop、bigdata、data-warehouse、datamart

我是一个学习大数据的概念。基于我的理解，大数据是处理非结构化数据和高volume.When的关键，我们研究了数据仓库( datawarehouse，DW )的大数据体系结构，从源数据通过Hadoop (HDFS和Mapreduce)提取数据，并将相关的非结构化信息转换为有效的业务信息，最后通过ETL处理(以及现

浏览 3提问于2015-04-28得票数 5

回答已采纳

1回答

是否在HDFS集群上重新分配数据？

apache-spark、hadoop、hdfs

我正在阅读Hadoop和Spark文档，以了解spark如何在Hadoop集群上工作。根据Hadoop文档，Hadoop集群是一组具有计算和数据存储能力的通用硬件，它们还假定“移动计算比移动数据便宜”。现在，当我处理一个大文件，它是存储在HDFS上使用火花。Spark是否会随机地将文件中的数据重新分发到Hadoop集群，或者它知道存储数

浏览 11提问于2022-09-13得票数 1

回答已采纳

3回答

为什么要使用Hadoop？

java、hadoop

我对Hadoop的用法并不感到困惑。我不知道何时何地使用Hadoop。 Hadoop是一个开放源码的框架，它允许使用简单的编程模型在分布式环境中存储和处理大型数据。根据定义，这项工作还由Oracle、MSSQL等其他数据库完成，即跨集群存储和处理数据。那么使用Hadoop还有什么优点呢？

浏览 3提问于2015-08-12得票数 1

回答已采纳

3回答

从SQL到BigData的迁移？

sql、c#-4.0、hadoop、hive

在我们正在运行的项目中，使用带有C#和MS SQL3.5的SQL3.5，目前其数据库大小为4TB。它将增加渐变，所以我们正在寻找解决方案。一些人告诉我关于BigData (使用Hive + Hadoop)。所以任何一个1都能解释我该怎么做？我应该将MSSQL迁移到Hadoop吗？请告诉我切换到hadoop的硬件和软件要求？是否可以将我们当前的数据

浏览 4提问于2013-06-10得票数 2

回答已采纳

4回答

用于数据来源的Sqoop与Informatica大数据版本

hadoop、hive、sqoop、informatica-powercenter

我可以选择使用Sqoop或Informatica版本将数据来源到HDFS中。源系统是Tearadata，Oracle。Informatica是组织中使用的ETL工具。问候桑吉布

浏览 2提问于2015-07-01得票数 0

回答已采纳

2回答

hadoop中的分析实现

mongodb、hadoop、nosql

目前，我们已经有了基于mysql的分析。我们每隔15分钟读取日志，对其进行处理并添加到mysql数据库中。随着我们的数据不断增长(在一种情况下，到目前为止增加了900万行&每月增加50万行)，我们计划将分析转移到无sql数据库。根据我的研究，Hadoop似乎更适合我们处理日志&它可以处理非常大的

浏览 0提问于2014-04-12得票数 0

1回答

如何使用hive表中分区的数据从RC文件创建RDD

scala、apache-spark-sql、spark-dataframe、scala-collections

),emp_dept varchar(50)PARTITIONED BY (emp_dept_idSTORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat';

浏览 0提问于2016-11-02得票数 1

2回答

宾得和哈多普

hadoop、pentaho、kettle、pdi

如果这个问题看起来很幼稚的话，我很抱歉，但是我对数据工程领域还很陌生，因为我现在是一个自学的人，但是我的问题是像宾得和Hadoop这样的ETL产品之间有什么区别呢？当我用这个代替那个的时候？

浏览 0提问于2018-04-25得票数 2

回答已采纳

3回答

Hadoop作为ETL工具的替代品，如SSIS、Informatica？

hadoop、ssis、etl、data-warehouse、informatica

我非常了解SSIS，Informatica，用于执行ETL过程&将数据加载到数据仓库。我们可以用Hadoop代替ETL工具，比如Informatica用于ETL过程吗? 在这里，我基本上是在谈论关系表结构。我知道hadoop可以用于从非结构化数据中提取信息。

浏览 7提问于2014-05-29得票数 1

1回答

类似于SQL表的循环调度，用于跟踪最近的活动

sql

我们需要跟踪不同时间段的用户活动，如24小时，7天等。我们预计不会有很大数量的不同时期，但用户数量将非常大，可能在数百万。每晚cronjob汇总每个用户的统计数据听起来并不合理。我知道过去我曾用RRD表这样跟踪网络使用情况，但这些只是BerkeleyDB的，而且每个统计数据必须有一个文件，这是行不通的，但这个想法似乎是我想要的。有没有我忽略的模式/最佳实践？

浏览 1提问于2011-12-31得票数 2

回答已采纳

3回答

Hadoop与数据库的关系

hadoop、nosql、rdbms

好的.我已经尝试在网络和这个网站上搜索这个问题的答案，这似乎是一个非常基本的问题。我完全是大数据处理的新手。我想知道HDFS和数据库之间的关系。是否总是有必要使用HDFS，数据必须是某种NoSQL格式？是否有在使用HDFS时始终附加的特定数据库？我知道cloudera提供Hadoop解决方案，他们使用HBase。我可以

浏览 0提问于2013-07-04得票数 8

回答已采纳

1回答

基于树莓Pi的Hadoop簇

hadoop

至少有可能从基于Raspberry Pi的节点构建Hadoop集群吗？这样的集群能满足Hadoop的硬件需求吗？如果是这样的话，需要多少树莓Pi节点才能满足需求？据我所知，一个由几个树莓Pi节点组成的集群是不强大的。我的目的是组织集群，而不可能从我的桌面或笔记本中丢失个人数据，并使用这个集群学习Hadoop。如果您能提出更好<e

浏览 0提问于2012-07-08得票数 2

回答已采纳

3回答

Amazon Elastic Map Reduce是否在每个实例上运行一个或多个映射器进程？

hadoop、amazon-web-services、mapreduce、elastic-map-reduce、hadoop-streaming

我的问题是:我应该自己关心映射器中的多处理(从stdin读取任务，然后将它们分布在工作进程中，将结果组合到主进程中并输出到stdout)，还是Hadoop会自动处理它？我还没有在Hadoop流媒体文档和Amazon Elastic MapReduce常见问题解答中找到答案。

浏览 0提问于2012-02-03得票数 1

回答已采纳

1回答

对于Hadoop，选择哪种数据存储，亚马逊S3还是Azure Blob Store？

azure、hadoop、amazon-web-services、emr

我正在从事一个Hadoop项目，并在我的本地集群中生成大量数据。不久之后，我将使用基于云的Hadoop解决方案，因为与实际工作负载相比，我的Hadoop集群非常小，但是到目前为止，我还没有选择我将使用哪一个，即基于Windows Azure、EMR或其他什么。我在本地生成了大量数据，并希望将这些数据存储到一些基于云的存储中，因为我稍后将在

浏览 0提问于2012-05-08得票数 2

回答已采纳

2回答

Hadoop与关系数据库

mysql、hadoop、hbase、hive

我是Hadoop的新手，我想了解Hadoop在场景中的工作。提前谢谢。

浏览 4提问于2013-10-01得票数 3

回答已采纳

2回答

hadoop如何帮助用户跟踪数据？

logging、hadoop、mapreduce

我想知道hadoop如何帮助用户数据跟踪。例如，我有一个电子商务应用程序，我希望记录客户执行的每一个活动，例如查看项、添加到购物车或购买项目。是否有使用hadoop记录事件的示例或最佳实践。我之所以想使用hadoop，是因为它的高可用性和可伸缩性，而且记录的数据也将从GBs增长到TBs。还是我错了？因为日志记录应该独立于hadoop，以后对日志数据的</e

浏览 3提问于2014-04-11得票数 1

回答已采纳

4回答

hadoop与teradata有什么区别

database、hadoop、teradata、business-intelligence

我从来没有接触过hadoop，但从昨天开始，我正在做一些研究。通过对两者的描述，它们似乎是可以互换的，但在一些论文中，它们被写成用于不同的目的。但我发现的都是模糊的。我很困惑。有没有人同时使用过这两种方法？它们之间的严重区别是什么？简单的例子:我想构建ETL，它将转换数十亿行的原始数据，并将它们组织成DWH。然后对它们进行一些资源开销分析。为什么使用</

浏览 0提问于2013-01-31得票数 10

2回答

我有一组50 to的~1GB tiff图像，我需要在这些图像上运行相同的算法。目前，我有C++编写的纠正过程，它工作良好，但它将永远运行在所有这些图像连续运行。我知道MapReduce/Spark的实现可以工作，但我似乎不知道如何使用图像输入/输出。我看到的每个教程/示例都使用纯文本。理论上，我也想利用Amazon服务。如果有人对我有指导的话，那就太好了。我显然不是在寻找一个完整的解决方案，但也许有人已

浏览 0提问于2016-06-23得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Hadoop与RDBMS的比较

处理数据仓库中的大数据

是否在HDFS集群上重新分配数据？

为什么要使用Hadoop？

从SQL到BigData的迁移？

用于数据来源的Sqoop与Informatica大数据版本

hadoop中的分析实现

如何使用hive表中分区的数据从RC文件创建RDD

宾得和哈多普

Hadoop作为ETL工具的替代品，如SSIS、Informatica？

类似于SQL表的循环调度，用于跟踪最近的活动

Hadoop与数据库的关系

基于树莓Pi的Hadoop簇

Amazon Elastic Map Reduce是否在每个实例上运行一个或多个映射器进程？

对于Hadoop，选择哪种数据存储，亚马逊S3还是Azure Blob Store？

Hadoop与关系数据库

hadoop如何帮助用户跟踪数据？

hadoop与teradata有什么区别

用于大型图像处理的Hadoop

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐