我想使用Apache Tika来处理企业级的大量文档。我使用哪一个,Tika服务器、Tika应用程序还是Java调用?你能给我推荐一种系统架构吗?(即负载均衡3-4 Tika物理上不同的服务器)
发布于 2021-10-11 22:58:09
对REST端点进行PUT调用以通过HTTP发送数千个0.5 GB的文档,一次一个,对于Tika服务器来说不是一个合适的场景。这将不是内存效率和服务器will likely crash与某种内存泄漏或错误。
尽管从v1.19开始,现在有了一个-spawnChild
选项,可以在进程处理完-maxFiles
之后对其进行periodically restart。从v2.x开始,这里是now the default。
根据您的需要,只需使用batch mode中的tika-app
即可:
java -jar tika-app.jar -i <input_directory> -o <output_dir>
https://stackoverflow.com/questions/49059599
复制相似问题