首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用hadoop和相关技术对大量不同格式的文档进行索引和搜索

使用hadoop和相关技术对大量不同格式的文档进行索引和搜索
EN

Stack Overflow用户
提问于 2014-08-07 01:25:43
回答 1查看 203关注 0票数 0

在我们的组织中,我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。

我们正在考虑做一个概念的证明,我们的目标是存储,索引和搜索大量的PDF文件,电子邮件文档和word文档。首先,我想知道这是一个大数据用例吗?

如果是,那么它是hadoop用例吗?如果是这样的话,我们应该追求什么技术呢?

我们尝试将PDF存储在HDFS中,并通过mapper作业并行地创建lucene索引,并将索引存储在数据节点本地临时目录中。

但我们不确定我们是否做对了,如何使它成为适当的大数据Hadoop用例,以及如何在技术堆栈上做出决定,无论是Hadoop还是no SQL db,还是SOLR等等。

我们的目标是在大量不同格式的文档上进行概念证明,如果可能的话,我们希望使用Hadoop .有人能帮我们找到正确的方向吗?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2014-08-07 05:17:39

如果您不打算对存储在HDFS中的文件的数据进行任何分析,那么Hadoop可能不是您的正确选择。如果您有非结构化或半结构化数据,并且希望将这些数据处理成表以便将来进行分析,则可以使用HDFS与Hive/Pig一起提取它们。您可能不需要NoSQL,除非您想要高可用性或一致性,在您的情况下,我不这样认为。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25172844

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档