我正在使用Stanford Cornelp来获取大量文本的解析树。我正在通过使用以下命令调用单个JVM来处理文件列表-
java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props myprops.props ] -filelist filelist.txt然而,我在使用这种方法时面临一个问题。我批中的一些文本可能太长或太复杂,因此程序内存不足并被终止。此外,它返回的错误不包含它崩溃的文本文件的名称。
但我希望程序所做的是忽略它面临错误的文件,并继续到文件列表中的下一个文件。(对我来说,一种选择是为每个文件分别调用一个java命令,但这会使整个过程几乎成指数级地变慢)。有没有可能使用"filelist“命令?
发布于 2018-02-04 12:42:59
如果添加-parse.maxlen 100,就可以告诉解析器只解析标记长度小于或等于100的句子。您可以根据自己的目的对限制进行微调。
https://stackoverflow.com/questions/48604356
复制相似问题