LOGSTASH是否可以从某个位置读取PDF文件并提取其中的内容,然后将此内容发送到目的地(KAFKA)?
据我所知,LOGSTASH可以读取.TXT或.LOG或.CSV文件,但我不确定它是否能够读取PDF中的内容。
关于这一行的任何建议都将是有帮助的。
如果没有,kafka有这个能力吗?可以从APACHE KAFKA中读取PDF内容吗?
发布于 2017-02-08 12:19:29
Logstash没有PDF输入筛选器。最好的办法是找到一个程序,它可以为您提供PDF文件中的文本。有一个问题可能会有帮助:How to extract text from a PDF?
然后你可以设置一些东西来生成PDF的文本版本,然后使用logstash将它们索引到elasticsearch中。
https://stackoverflow.com/questions/42087731
复制相似问题