首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Hadoop生态系统-在我的场景中使用什么技术工具组合?(内部详情)

Hadoop生态系统-在我的场景中使用什么技术工具组合?(内部详情)
EN

Stack Overflow用户
提问于 2012-05-09 14:26:26
回答 2查看 600关注 0票数 2

对于一些人来说,这可能是一个有趣的问题:

see :存储在 Server(RDBMS)中的数据的 2-3兆字节,认为它类似于亚马逊的数据,即用户查看他们所看到/单击的东西以查看他们购买的东西。

任务:制作了一个推荐引擎(比如亚马逊),它会显示给用户,如果你喜欢的话,购买它的客户也会购买->,然后你可能会喜欢这个-> (也)类型的数据挖掘来预测未来的购买习惯(数据挖掘)。所以,等等,基本上是一个侦察引擎。

问题:由于数据量巨大(用户习惯数据5-6年),我认为Hadoop是最终的解决方案。现在的问题是,使用什么样的技术工具组合?

HDFS:底层FIle系统

HBASE/蜂箱/猪:?

Mahout:用于运行一些算法,我假设这些算法使用Map(遗传、聚类、数据挖掘等)。

-我错过了什么?为所有这些处理加载RDBMS数据如何?( Hadoop?)Sqoop)

- -在这一切结束时,我会得到一个结果列表(Reco),或者有一种方法可以直接查询它并将其报告给我在.NET??中构建的前端。

我认为这个问题的答案,可能是一个很好的讨论,在未来的许多人,像我,谁想启动他们的hadoop实验。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-05-09 14:35:19

对于从RDBMS加载数据,我建议查看BCP (从SQL导出到平面文件),然后查看Hadoop命令行,以便加载到HDFS中。对于正在进行的数据,Sqoop是很好的,但是对于初始负载来说,它的速度会慢得令人难以忍受。

要查询Hadoop的结果,您可以使用HBase (假设您想要低延迟查询),可以通过它的C#来查询它。

票数 1
EN

Stack Overflow用户

发布于 2012-05-09 19:10:54

HBase可以适合您的场景。HDFS是底层文件系统。不过,除非使用HBase文件格式(HFile),否则不能在HBase中以HDFS (任意格式)查询加载数据。

HBase与Pig先生集成,Hive也与HBase集成。正如Chris所提到的,您可以使用Thrift来执行查询(get,扫描),因为这将提取特定的用户信息,而不是大量的数据集。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10518134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档