文章/答案/技术大牛

发布

社区首页 >问答首页 >PDF数据提取会给出符号/胡言乱语？

问PDF数据提取会给出符号/胡言乱语？
EN

Stack Overflow用户

提问于 2011-11-08 00:27:31

回答 1查看 3.9K关注 0票数 3

我有一个叫PDF2XL的软件，它通常是很好的提取数据表的文件。我以前在数百个文件中使用过它。

然而，这一个文件给了我乱七八糟的输出，我甚至不能正确地复制和粘贴到这个文本区域。各种unicode怪异的东西。

如果我按照正常方式复制并粘贴到excel/记事本中，也会遇到同样的问题。

我猜这与PDF文件中乱七八糟的字符编码标题有关？我怎样才能改变这一点？我在Windows上，没有可以编辑PDF的软件，所以如果我需要编辑/重新保存它，请推荐一个免费的软件来做这件事。

谢谢!

pdf

character-encoding

text-extraction

回答 1

Stack Overflow用户

发布于 2012-10-04 10:28:28

使用子集字体的PDF文件数量越来越多，子集字体基本上是一种自定义编码。通常，PDF中的字体描述符应该有一个ToUnicode表，以允许文本提取解码字体编码并返回正确的文本。

一些PDF生产者故意这样做，以防止对诸如财务报告之类的内容进行简单的PDF文本提取。如果只有一种字体，那么你可以手动解码字体，但在我的经验中，我见过PDF的多个随机编码，这使得自动解码几乎是不可能的。

测试这些类型的PDF的一种方法是在Acrobat中打开文件，选择一些文本，将其复制并粘贴到记事本中。如果文本是乱码，则PDF使用的是子集字体，您也无能为力。如果Acrobat不能正确地提取文本，那么没有其他方法可以。它也可能是一页象形文字。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8039423

复制

相似问题

问PDF数据提取会给出符号/胡言乱语？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF数据提取会给出符号/胡言乱语？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF数据提取会给出符号/胡言乱语？
EN