首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >修复带有不可读字符的PDF

修复带有不可读字符的PDF
EN

Stack Overflow用户
提问于 2014-08-29 13:22:40
回答 1查看 3.2K关注 0票数 2

示例PDF页面:https://db.tt/qRcF000k

这是一个文档的示例页面,其中复制的文本在我最喜欢的阅读器SumatraPDF (mupdf)中显示为问号,就像在Adobe Acrobat中一样。但是我的主要问题是,我不能搜索这个文档,也不能索引它。

xpdf的pdftotext提取正确的文本。

在Adobe Acrobat中,如果我使用“复制为格式化文本”,正确的文本将写入剪贴板,尽管我仍然无法从Acrobat中进行搜索。

同样,如果我在Firefox内置的PDF阅读器中打开链接的页面,我可以正确地复制文本。

也许可以指示GhostScript纠正这个问题,我不能用“不可读字符”来描述这个问题。

EN

回答 1

Stack Overflow用户

发布于 2014-08-29 15:21:57

该文件使用具有非标准编码且无ToUnicode CMaps的子集字体。所以不,你不能让Ghostscript‘更正’这个文件。

事实上,我看不出有什么东西可以从中提取合理的文本,而且我的Acrobat版本(Pro X和Reader XI)不能复制有意义的文本,而且看起来没有“复制为格式化文本”菜单项,你能告诉我在哪里可以找到它吗?

然而,我注意到PDF文件实际上是由Ghostscript (版本9.14)创建的,所以可能你的意思是‘从一个不同的输入文件开始,我没有给你,我能不能生成一个可以复制文本的PDF文件’,我只能说‘我不知道’,这取决于原始输入文件中的内容。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25562121

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档