我有一个叫PDF2XL的软件,它通常是很好的提取数据表的文件。我以前在数百个文件中使用过它。
然而,这一个文件给了我乱七八糟的输出,我甚至不能正确地复制和粘贴到这个文本区域。各种unicode怪异的东西。
如果我按照正常方式复制并粘贴到excel/记事本中,也会遇到同样的问题。
我猜这与PDF文件中乱七八糟的字符编码标题有关?我怎样才能改变这一点?我在Windows上,没有可以编辑PDF的软件,所以如果我需要编辑/重新保存它,请推荐一个免费的软件来做这件事。
谢谢!
发布于 2012-10-04 10:28:28
使用子集字体的PDF文件数量越来越多,子集字体基本上是一种自定义编码。通常,PDF中的字体描述符应该有一个ToUnicode表,以允许文本提取解码字体编码并返回正确的文本。
一些PDF生产者故意这样做,以防止对诸如财务报告之类的内容进行简单的PDF文本提取。如果只有一种字体,那么你可以手动解码字体,但在我的经验中,我见过PDF的多个随机编码,这使得自动解码几乎是不可能的。
测试这些类型的PDF的一种方法是在Acrobat中打开文件,选择一些文本,将其复制并粘贴到记事本中。如果文本是乱码,则PDF使用的是子集字体,您也无能为力。如果Acrobat不能正确地提取文本,那么没有其他方法可以。它也可能是一页象形文字。
https://stackoverflow.com/questions/8039423
复制相似问题