文章/答案/技术大牛

发布

社区首页 >问答首页 >Perl CAM::PDF拆分单词不正确

问Perl CAM::PDF拆分单词不正确
EN

Stack Overflow用户

提问于 2011-06-07 02:03:18

回答 1查看 384关注 0票数 0

我正在使用CAM::PDF Perl模块来解析PDF。这个模块运行得很好，除了一个问题，它似乎随机拆分单词。有没有办法通过设置或某种算法将单词重新组合在一起？

例如：

“在纽约和都柏林设有办事处。”-Notice纽约

“价格竞争”-price竞争

代码部分如下：

    $pdf = CAM::PDF->new($pdf_name);    
    $text = $pdf->getPageText($page);
    print("$text\n");

；

perl

pdf

Stack Overflow用户

回答已采纳

发布于 2011-06-07 06:46:57

一般来说，从PDF重建原始文本并不总是可能的。通常物理结构与输出不匹配。

在这种情况下，您很可能会受到手动字距调整的影响。例如，拆分字符对并调整间距以产生更令人满意的结果-参见http://en.wikipedia.org/wiki/Kerning。

因此，在单词内部中断并输出更小的块，这被CAM::PDF识别为单独的单词。

如果您对PDF制作有一些控制，您可以尝试字体和字距调整设置-但这也可能会影响输出质量。

PDF::OCR2可能会更健壮地处理字距调整，并且可能在识别原始文本方面做得更好。

票数 3

查看全部 1 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6256156

复制

相似问题

问Perl CAM::PDF拆分单词不正确
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Perl CAM::PDF拆分单词不正确EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Perl CAM::PDF拆分单词不正确
EN