我正在使用CAM::PDF Perl模块来解析PDF。这个模块运行得很好,除了一个问题,它似乎随机拆分单词。有没有办法通过设置或某种算法将单词重新组合在一起?
例如:
“在纽约和都柏林设有办事处。”-Notice纽约
“价格竞争”-price竞争
代码部分如下:
$pdf = CAM::PDF->new($pdf_name);
$text = $pdf->getPageText($page);
print("$text\n");;
发布于 2011-06-07 06:46:57
一般来说,从PDF重建原始文本并不总是可能的。通常物理结构与输出不匹配。
在这种情况下,您很可能会受到手动字距调整的影响。例如,拆分字符对并调整间距以产生更令人满意的结果-参见http://en.wikipedia.org/wiki/Kerning。
因此,在单词内部中断并输出更小的块,这被CAM::PDF识别为单独的单词。
如果您对PDF制作有一些控制,您可以尝试字体和字距调整设置-但这也可能会影响输出质量。
PDF::OCR2可能会更健壮地处理字距调整,并且可能在识别原始文本方面做得更好。
https://stackoverflow.com/questions/6256156
复制相似问题