Apache Tika Server提供了一个Rest API来从文档中提取文本。还可以设置特定的请求头参数,如X-Tika-PDFOcrStrategy
。例如:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
从大量关于tika的不同文档中,我发现了这些有文档记录的附加头部参数:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
但是似乎没有关于如何使用X-Tika-.....?
头参数或者支持哪些参数以及不支持哪些参数的文档。
例如,我想知道是否可以使用以下内容覆盖ImageType模式或DPI:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
我的问题是:支持哪些头参数,这些参数遵循哪些命名约定?
发布于 2020-05-26 11:47:57
处理X-Tika-OCR
和X-Tika-PDF
头的代码是TikaResource.processHeaderConfig。
然后,通过反射将这些标头后缀和值映射到TesseractOCRConfig和PDFParserConfig配置对象。
因此,要了解您可以设置哪些X-Tika
标头,请查找要调整的配置类(Tesseract或PDF)上的选项,然后构建名称,然后设置标头。如果您不确定选项的作用,或者不确定它需要什么值,请查看将被调用的底层setter方法的JavaDocs。
例如PDF上的setExtractInlineImages,它映射到X-Tika-PDFextractInlineImages
。
https://stackoverflow.com/questions/62011038
复制相似问题