我是ElasticSearch的新手,我正在探索它是否适合我的需求,我将在下面解释这一点。非常感谢来自专家的任何指导。
我有大量的文本数据,涉及数以亿计的文档。我想确定这些文件的一个子集(可能是数千到数十万),它们包含这些文件中的特定关键字(比如药品名称),并添加与结果集相关联的自定义标记。例如,假设100K文件被识别为具有“用于糖尿病的药物A”,则应该与标签“药物A”相关联。ES是这个问题的正确解决方案吗?我知道ES具有很高的可伸缩性,但是对于这样的工作流来说,可扩展性是一个问题吗?我正在探索一些替代方案,并考虑到时间限制,希望在深入研究之前获得一些指导(我仍在阅读文档以更好地理解Elastic Stack)。将非常感谢任何将我们带向正确方向的指导/指示。
发布于 2019-05-03 23:33:57
Elasticsearch可以用来解决这个问题。您可以采用几种不同的方法。例如,您可以对文档进行索引,然后对关键字进行后期索引查询,并使用适当的标记更新文档。或者,您可以利用管道,在文档发送到elasticsearch索引时对其进行标记。
https://stackoverflow.com/questions/55972486
复制相似问题