我的目标是从网页中提取结构化数据。我使用的是this SO question中提到的代码。我在我的Spring项目中使用了Apache Any23 CLI库依赖。
通过使用它,我能够从网页中提取HTML5微数据(Schema.org)。但是,我无法提取网页中存在的JSON-LD格式。当我查看Apache Any23的文档时,它支持JSON-LD格式。没有找到更多的文档。
发布于 2020-05-26 23:16:16
通常,如果你用new Any23()创建一个新的Any23提取器,它应该可以开箱即用。如果您使用另一个构造器,如Any23(String... extractorNames),则必须确保为嵌入式JSON LD添加了正确的构造器,即"html-embedded-jsonld"。
现在,如果在提取过程中出现任何错误,Any23会自动删除它们。(我知道,这很棒!)
我发现可以在org.apache.any23.extractorExtractionResultImpl方法notifyIssue中设置断点。有了这个,你也许能够找到你的问题的更详细的原因。
https://stackoverflow.com/questions/46638632
复制相似问题