问修复带有不可读字符的PDF
EN

Stack Overflow用户

提问于 2014-08-29 13:22:40

回答 1查看 3.2K关注 0票数 2

这是一个文档的示例页面，其中复制的文本在我最喜欢的阅读器SumatraPDF (mupdf)中显示为问号，就像在Adobe Acrobat中一样。但是我的主要问题是，我不能搜索这个文档，也不能索引它。

xpdf的pdftotext提取正确的文本。

在Adobe Acrobat中，如果我使用“复制为格式化文本”，正确的文本将写入剪贴板，尽管我仍然无法从Acrobat中进行搜索。

同样，如果我在Firefox内置的PDF阅读器中打开链接的页面，我可以正确地复制文本。

也许可以指示GhostScript纠正这个问题，我不能用“不可读字符”来描述这个问题。

发布于 2014-08-29 15:21:57

该文件使用具有非标准编码且无ToUnicode CMaps的子集字体。所以不，你不能让Ghostscript‘更正’这个文件。

事实上，我看不出有什么东西可以从中提取合理的文本，而且我的Acrobat版本(Pro X和Reader XI)不能复制有意义的文本，而且看起来没有“复制为格式化文本”菜单项，你能告诉我在哪里可以找到它吗？

然而，我注意到PDF文件实际上是由Ghostscript (版本9.14)创建的，所以可能你的意思是‘从一个不同的输入文件开始，我没有给你，我能不能生成一个可以复制文本的PDF文件’，我只能说‘我不知道’，这取决于原始输入文件中的内容。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25562121

复制

相似问题

问修复带有不可读字符的PDFEN