你可以看看UIMA。虽然它不是一个存储引擎，但它提供了一个平台，通过在管道中应用各种注释器(可以是标记器、句子拆分器、POS标记器)，将非结构化文本数据转换为更结构化的格式。输出包含文档中具有开始和结束索引的注释(您可以将输出转换为xml格式)。因此，您可以将语料库划分为几个文档，通过UIMA管道传递它们，并将输出存储在基于文档的存储中，比如MongoDB。我认为在文档级访问这些注释更有意义，因为注释的上下文很重要。因此，您可以从MongoDB存储中检索这些带注释的文档，并使用开始和结束索引或注释类型(标记、句子等)访问注释。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12013684

复制

相似问题

问NLP文本注释存储和访问
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NLP文本注释存储和访问EN