腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >使用hadoop和相关技术对大量不同格式的文档进行索引和搜索

问使用hadoop和相关技术对大量不同格式的文档进行索引和搜索
EN

Stack Overflow用户

提问于 2014-08-07 01:25:43

回答 1查看 203关注 0票数 0

在我们的组织中，我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。

我们正在考虑做一个概念的证明，我们的目标是存储，索引和搜索大量的PDF文件，电子邮件文档和word文档。首先，我想知道这是一个大数据用例吗？

如果是，那么它是hadoop用例吗？如果是这样的话，我们应该追求什么技术呢？

我们尝试将PDF存储在HDFS中，并通过mapper作业并行地创建lucene索引，并将索引存储在数据节点本地临时目录中。

但我们不确定我们是否做对了，如何使它成为适当的大数据Hadoop用例，以及如何在技术堆栈上做出决定，无论是Hadoop还是no SQL db，还是SOLR等等。

我们的目标是在大量不同格式的文档上进行概念证明，如果可能的话，我们希望使用Hadoop .有人能帮我们找到正确的方向吗？

谢谢

hadoop

full-text-search

bigdata

回答 1

Stack Overflow用户

发布于 2014-08-07 05:17:39

如果您不打算对存储在HDFS中的文件的数据进行任何分析，那么Hadoop可能不是您的正确选择。如果您有非结构化或半结构化数据，并且希望将这些数据处理成表以便将来进行分析，则可以使用HDFS与Hive/Pig一起提取它们。您可能不需要NoSQL，除非您想要高可用性或一致性，在您的情况下，我不这样认为。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25172844

复制

相似问题

问使用hadoop和相关技术对大量不同格式的文档进行索引和搜索
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用hadoop和相关技术对大量不同格式的文档进行索引和搜索EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用hadoop和相关技术对大量不同格式的文档进行索引和搜索
EN