首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PDF数据提取会给出符号/胡言乱语?

PDF数据提取会给出符号/胡言乱语?
EN

Stack Overflow用户
提问于 2011-11-08 00:27:31
回答 1查看 3.9K关注 0票数 3

我有一个叫PDF2XL的软件,它通常是很好的提取数据表的文件。我以前在数百个文件中使用过它。

然而,这一个文件给了我乱七八糟的输出,我甚至不能正确地复制和粘贴到这个文本区域。各种unicode怪异的东西。

如果我按照正常方式复制并粘贴到excel/记事本中,也会遇到同样的问题。

我猜这与PDF文件中乱七八糟的字符编码标题有关?我怎样才能改变这一点?我在Windows上,没有可以编辑PDF的软件,所以如果我需要编辑/重新保存它,请推荐一个免费的软件来做这件事。

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2012-10-04 10:28:28

使用子集字体的PDF文件数量越来越多,子集字体基本上是一种自定义编码。通常,PDF中的字体描述符应该有一个ToUnicode表,以允许文本提取解码字体编码并返回正确的文本。

一些PDF生产者故意这样做,以防止对诸如财务报告之类的内容进行简单的PDF文本提取。如果只有一种字体,那么你可以手动解码字体,但在我的经验中,我见过PDF的多个随机编码,这使得自动解码几乎是不可能的。

测试这些类型的PDF的一种方法是在Acrobat中打开文件,选择一些文本,将其复制并粘贴到记事本中。如果文本是乱码,则PDF使用的是子集字体,您也无能为力。如果Acrobat不能正确地提取文本,那么没有其他方法可以。它也可能是一页象形文字。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8039423

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档