在我们的组织中,我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。
我们正在考虑做一个概念的证明,我们的目标是存储,索引和搜索大量的PDF文件,电子邮件文档和word文档。首先,我想知道这是一个大数据用例吗?
如果是,那么它是hadoop用例吗?如果是这样的话,我们应该追求什么技术呢?
我们尝试将PDF存储在HDFS中,并通过mapper作业并行地创建lucene索引,并将索引存储在数据节点本地临时目录中。
但我们不确定我们是否做对了,如何使它成为适当的大数据Hadoop用例,以及如何在技术堆栈上做出决定,无论是Hadoop还是no SQL db,还是SOLR等等。
我们的目标是在大量不同格式的文档上进行概念证明,如果可能的话,我们希望使用Hadoop .有人能帮我们找到正确的方向吗?
谢谢
发布于 2014-08-06 21:17:39
如果您不打算对存储在HDFS中的文件的数据进行任何分析,那么Hadoop可能不是您的正确选择。如果您有非结构化或半结构化数据,并且希望将这些数据处理成表以便将来进行分析,则可以使用HDFS与Hive/Pig一起提取它们。您可能不需要NoSQL,除非您想要高可用性或一致性,在您的情况下,我不这样认为。
https://stackoverflow.com/questions/25172844
复制