首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Apache Tika服务器-请求标头参数?

Apache Tika服务器-请求标头参数?
EN

Stack Overflow用户
提问于 2020-05-26 05:26:16
回答 1查看 802关注 0票数 2

Apache Tika Server提供了一个Rest API来从文档中提取文本。还可以设置特定的请求头参数,如X-Tika-PDFOcrStrategy。例如:

代码语言:javascript
运行
复制
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从大量关于tika的不同文档中,我发现了这些有文档记录的附加头部参数:

代码语言:javascript
运行
复制
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有关于如何使用X-Tika-.....?头参数或者支持哪些参数以及不支持哪些参数的文档。

例如,我想知道是否可以使用以下内容覆盖ImageType模式或DPI:

代码语言:javascript
运行
复制
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:支持哪些头参数,这些参数遵循哪些命名约定?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-26 11:47:57

处理X-Tika-OCRX-Tika-PDF头的代码是TikaResource.processHeaderConfig

然后,通过反射将这些标头后缀和值映射到TesseractOCRConfigPDFParserConfig配置对象。

因此,要了解您可以设置哪些X-Tika标头,请查找要调整的配置类(TesseractPDF)上的选项,然后构建名称,然后设置标头。如果您不确定选项的作用,或者不确定它需要什么值,请查看将被调用的底层setter方法的JavaDocs。

例如PDF上的setExtractInlineImages,它映射到X-Tika-PDFextractInlineImages

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62011038

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档