问忽略使用文件列表的Stanford NLP命令中的问题文件
EN

Stack Overflow用户

提问于 2018-02-04 11:21:17

回答 1查看 61关注 0票数 0

我正在使用Stanford Cornelp来获取大量文本的解析树。我正在通过使用以下命令调用单个JVM来处理文件列表-

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props myprops.props ] -filelist filelist.txt

然而，我在使用这种方法时面临一个问题。我批中的一些文本可能太长或太复杂，因此程序内存不足并被终止。此外，它返回的错误不包含它崩溃的文本文件的名称。

但我希望程序所做的是忽略它面临错误的文件，并继续到文件列表中的下一个文件。(对我来说，一种选择是为每个文件分别调用一个java命令，但这会使整个过程几乎成指数级地变慢)。有没有可能使用"filelist“命令？

发布于 2018-02-04 12:42:59

如果添加-parse.maxlen 100，就可以告诉解析器只解析标记长度小于或等于100的句子。您可以根据自己的目的对限制进行微调。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48604356

复制

相似问题

问忽略使用文件列表的Stanford NLP命令中的问题文件EN