文章/答案/技术大牛

发布

社区首页 >问答首页 >Apache Tika服务器-请求标头参数？

问Apache Tika服务器-请求标头参数？
EN

Stack Overflow用户

提问于 2020-05-26 05:26:16

回答 1查看 802关注 0票数 2

Apache Tika Server提供了一个Rest API来从文档中提取文本。还可以设置特定的请求头参数，如X-Tika-PDFOcrStrategy。例如：

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从大量关于tika的不同文档中，我发现了这些有文档记录的附加头部参数：

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有关于如何使用X-Tika-.....?头参数或者支持哪些参数以及不支持哪些参数的文档。

例如，我想知道是否可以使用以下内容覆盖ImageType模式或DPI：

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:支持哪些头参数，这些参数遵循哪些命名约定？

apache-tika

tika-server

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-26 11:47:57

处理X-Tika-OCR和X-Tika-PDF头的代码是TikaResource.processHeaderConfig。

然后，通过反射将这些标头后缀和值映射到TesseractOCRConfig和PDFParserConfig配置对象。

因此，要了解您可以设置哪些X-Tika标头，请查找要调整的配置类(Tesseract或PDF)上的选项，然后构建名称，然后设置标头。如果您不确定选项的作用，或者不确定它需要什么值，请查看将被调用的底层setter方法的JavaDocs。

例如PDF上的setExtractInlineImages，它映射到X-Tika-PDFextractInlineImages。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62011038

复制

相似问题

问Apache Tika服务器-请求标头参数？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Tika服务器-请求标头参数？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Tika服务器-请求标头参数？
EN