发布于 2018-02-03 19:32:23
最好的方法,我发现,没有质量损失,消除阴影,噪音,文字从下一页流血等:
pdfimages combined_ocr.pdf page
ls ./p*.ppm | xargs -L1 -I {} convert {} -quality 100 -density 300 -fill white -fuzz 80% +opaque "#000000" {}.jpg
这可以作为额外的步骤添加,也可以代替上面的命令来实际获得两种颜色:
ls ./p*.ppm | xargs -L1 -I {} convert {} +dither -colors 2 -type bilevel -density 300 -fill white -fuzz 40% +opaque "#000000" -density 300 {}.jpg
50-60%的fuzz
没有那么激进,结果更加可读性:
ls ./p*.ppm | xargs -L1 -I {} convert {} +dither -colors 2 -type bilevel -density 300 -fill white -fuzz 40% +opaque "#000000" -density 300 {}.jpg
ls -1 ./*jpg | xargs -L1 -I {} img2pdf {} -o {}.pdf
。pdftk *.pdf cat output combined.pdf
pypdfocr combined.pdf
https://unix.stackexchange.com/questions/84709
复制相似问题