我正在使用UIMA RUTA来注释大量的文档。它们来自不同的来源,有时会发生字符组合<!出现在文档的中间。<!之后的文本被标注为标记,并被其他批注忽略。
有没有一个选项来改变这种行为?即使我关闭了标记注释,<!未被任何其他批注批注。
我找到了负责创建大多数标记批注的代码部分( org.apache.uima.ruta.seed包中的DefaultSeeder),但我找不到哪一部分代码负责以<开头的标记批注!
谢谢你的建议!
发布于 2021-02-11 21:04:12
有几个选项。最有可能的情况是,您希望将RutaEngine配置为使用不同的种子,即TextSeeder而不是DefaultSeeder。TextSeeder不会创建标记注释。
您还可以更改可见性设置,以便正常处理标记注释覆盖的文本,例如,使用ADDRETAINTYPE(标记);
https://stackoverflow.com/questions/66068740
复制相似问题