Hadoop实践分析 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

有没有集成beanstalkd和hadoop的好方法？

、、、

只要数据增长，我就需要选择Hadoop来分析数据，以便使用Hive实现BI目的。将beanstalkd与hadoop集成的最佳实践是什么？我找到了FlumeNG，但它似乎太重了，无法满足我的需求。

浏览 3提问于2014-06-04得票数 2

2回答

我想知道hadoop如何帮助用户数据跟踪。例如，我有一个电子商务应用程序，我希望记录客户执行的每一个活动，例如查看项、添加到购物车或购买项目。是否有使用hadoop记录事件的示例或最佳实践。我之所以想使用hadoop，是因为它的高可用性和可伸缩性，而且记录的数据也将从GBs增长到TBs。还是我错了？因为日志记录应该独立于hadoop，以后对日志数据的分析可以用hadoop完成吗？Hadoop仅仅是关于MapReduce的吗？如果我可以使用had

浏览 3提问于2014-04-11得票数 1

回答已采纳

2回答

查询和转储生产数据库

、

我有一些大型MySQL生产表需要转储，以便可以在Hadoop中运行一些分析。关于对生产数据库进行转储和查询，我应该了解哪些最佳实践？如果我只是进行转储/读取(而不是写入)，我需要担心影响生产性能吗？

浏览 2提问于2010-06-20得票数 0

回答已采纳

4回答

Hadoop批处理分析和hadoop实时分析有什么区别？

、

我想知道Hadoop批处理分析和Hadoop实时分析的区别。例如，Hadoop real time analytics可以使用Apache Spark完成，而Hadoop batch analytics可以使用Map reduce编程。另外，如果实时分析是更好的分析方法，那么批量分析需要什么？谢谢

浏览 5提问于2016-02-11得票数 1

1回答

最佳实践:如何通过更改"schema“/”column“来处理数据记录

、、、、

这是一个最佳实践问题。然而，我们面临的问题是，我们想要分析的日志记录最终会发生变化，从这个意义上讲，可能会添加或删除列。我想知道你们中的一些人是否愿意分享你们在这种情况下的最佳实践。目前我们能想到的最好的方法是将数据存储为json格式，而不是csv格式。但是，这将增加(至少两倍)所需的存储空间。

浏览 1提问于2015-04-28得票数 1

1回答

近实时分析仪表板的最佳实践

、、、、

目前，我正在构建一个仪表板，以查看有关我公司产品生成的数据的一些分析。我们使用MySQL作为数据库。从原始实时数据生成分析的SQL查询可能有点复杂，需要很长时间处理。因此，我安排了一些批次，每天或每小时运行，查询这些实时数据并生成分析，并将其存储在一些仅由仪表板查询的特殊表中。它运行良好，但缺点是分析不是实时的。因此，我想知道什么是我的要求的最佳实践。我想知道将实时数据从MySQL复制到诸如hadoop或Elasticsearch之类的东西是否是一个好的解决方案。

浏览 0提问于2016-02-04得票数 4

1回答

用于存储/访问大量数据的PostgreSQL和S3QL

、、

我们目前在亚马逊的EC2上使用postgres9，对其性能非常满意。现在我们正在考虑向Postgres添加~2TB的数据，这超出了我们的EC2小实例所能容纳的范围。

浏览 4提问于2011-12-15得票数 4

回答已采纳

1回答

HDP集群如何定义磁盘分区？

、、

在安装HDP集群时，我尝试使用Hortonworks的最佳实践，通过以下步骤定义磁盘分区：我正在使用Ambari 2.0来安装我的堆栈。Hadoop的默认安装路径是/hadoop/xxx。有没有办法告诉Ambari使用上面链接中的最佳实践，而不是/hadoop？如果不是，那么手动操作的最好方法是什么？

浏览 1提问于2015-06-24得票数 0

3回答

卡桑德拉使用星火的优势

、、、、

另一方面，Hadoop提供了一致性而不是可靠性，因此适合于分析系统。它的接口是MapReduce，这是相当慢和太低的水平，以今天。所以这就是斯帕克斯进来的地方。Sparks使用Hadoop的HDFS，用更好的体系结构取代旧的MapReduce，该体系结构更好地利用内存而不是硬盘，并公开更好的接口，如RDD和dataframes。

浏览 3提问于2017-03-13得票数 0

回答已采纳

3回答

为Hadoop* practice创建或获取环境*

、、、

我已经开始阅读有关hadoop的文章。我也想学习实践。由于hadoop是分布式环境，并被设计为在linux上运行，因此我不能在运行windows的本地计算机上实践它。我可以预先配置hadoop集群，但我更喜欢自己配置。

浏览 0提问于2014-08-15得票数 0

9回答

为什么像Vertica/InfoBright/GreenPlum这样的面向列的数据库会对Hadoop大惊小怪？

、、、

馈送Hadoop集群并使用该集群将数据馈送到Vertica/InfoBright数据仓库有什么意义？谢谢！

浏览 6提问于2011-11-25得票数 5

1回答

如何使用hadoop支持开发应用程序

、、、

我对hadoop和bigdata非常陌生，通过horton的工作，我对hadoop提供的Pig、Hive和不同类型的分析有了一些了解，但还不清楚开发阶段，请给我一些例子，说明如何开始使用hadoop分析支持来构建一个应用程序

浏览 4提问于2014-11-06得票数 1

回答已采纳

3回答

使用cassandra和hadoop的大数据lambda架构

、、

我正在开发一个用于传感器数据和预测分析的大数据解决方案。我是大数据的新手，读过关于lambda-架构的文章。我考虑过将Cassandra数据库与Hadoop一起使用。Cassandra是一个高可用性和分区容错的数据库，Hadoop hdfs是一个用于大型分析作业的文件系统。Hadoop中的数据用于大型分析，而cassandra中的数据应该是我的Hadoop作业的结果。这是否意味着我可以将原始数据存储在这两个文件中？我可以在Cassandra和Hadoop</e

浏览 2提问于2016-11-22得票数 4

2回答

es (ElasticSearch- Hadoop* )是如何实现Hadoop的？*

、、

如果它仅仅是HDFS的Hadoop连接器，那么es-hadoop如何启用Hadoop分析？

浏览 1提问于2015-07-30得票数 1

回答已采纳

1回答

什么时候数据大到可以使用Hadoop？

、、

我的雇主运行Hadoop集群，而且由于我们的数据很少大于1GB，我发现很少需要Hadoop来满足我们办公室的需求(这不是大数据)，但我的雇主似乎想说我们正在使用Hadoop集群，所以我们正在积极地寻找需要使用我们的大型工具进行分析的数据我看到一些报道说，小于5tb的东西不应该使用hadoop。Hadoop成为数据分析实用解决方案的神奇大小是什么？

浏览 2提问于2015-09-11得票数 0

回答已采纳

1回答

为什么不在Hadoop节点中启用虚拟节点？

网址：如果我在分析/Hadoop节点中启用虚拟节点，会发生什么情况？

浏览 1提问于2013-11-14得票数 2

回答已采纳

1回答

如何利用Hadoop实时处理Postgres数据库？

、、

我有一个Postgres数据库，用于生产服务器，需要定期使用Hadoop进行分析。在Hadoop中进行的每一个查询都应该基于Postges数据库中可能的最新版本。如何在Hadoop中进行近乎实时的数据分析？

浏览 4提问于2015-05-19得票数 2

回答已采纳

1回答

Apache的分析--我可以使用Hadoop命令导入数据吗？

、、

我试图使用Hadoop命令将数据导入Apache实例的分析中。我导航到以下页面：，其中给出了使用hadoop fs命令行的指令。我尝试了以下命令(用实例名替换主机名)：但是，命令超时了。-- 问题：可以使用Apache的BigInsights文档

浏览 8提问于2015-10-12得票数 1

6回答

如何将hadoop用于web应用程序？

我不知道如何将Hadoop集成到这个应用程序中，也不知道如何编写map- reduce程序。

浏览 0提问于2011-08-09得票数 16

1回答

我无法在Hadoop集群中执行mapreduce作业

、、、

$ hadoop jar /usr/lib/hadoop/hadoop-streaming-2.6.0-cdh5.13.0.jar -file mapper.py -mapper mapper.py -result它引发一个错误Not a valid JAR:/usr/lib/hadoop/hadoop-

浏览 4提问于2019-11-10得票数 0

回答已采纳

点击加载更多

有没有集成beanstalkd和hadoop的好方法？

hadoop如何帮助用户跟踪数据？

查询和转储生产数据库

Hadoop批处理分析和hadoop实时分析有什么区别？

最佳实践:如何通过更改"schema“/”column“来处理数据记录

近实时分析仪表板的最佳实践

用于存储/访问大量数据的PostgreSQL和S3QL

HDP集群如何定义磁盘分区？

卡桑德拉使用星火的优势

为Hadoop* practice创建或获取环境*

为什么像Vertica/InfoBright/GreenPlum这样的面向列的数据库会对Hadoop大惊小怪？

如何使用hadoop支持开发应用程序

使用cassandra和hadoop的大数据lambda架构

es (ElasticSearch- Hadoop* )是如何实现Hadoop的？*

什么时候数据大到可以使用Hadoop？

为什么不在Hadoop节点中启用虚拟节点？

如何利用Hadoop实时处理Postgres数据库？

Apache的分析--我可以使用Hadoop命令导入数据吗？

如何将hadoop用于web应用程序？

我无法在Hadoop集群中执行mapreduce作业

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐