示例PDF页面:https://db.tt/qRcF000k
这是一个文档的示例页面,其中复制的文本在我最喜欢的阅读器SumatraPDF (mupdf)中显示为问号,就像在Adobe Acrobat中一样。但是我的主要问题是,我不能搜索这个文档,也不能索引它。
xpdf的pdftotext提取正确的文本。
在Adobe Acrobat中,如果我使用“复制为格式化文本”,正确的文本将写入剪贴板,尽管我仍然无法从Acrobat中进行搜索。
同样,如果我在Firefox内置的PDF阅读器中打开链接的页面,我可以正确地复制文本。
也许可以指示GhostScript纠正这个问题,我不能用“不可读字符”来描述这个问题。
发布于 2014-08-29 15:21:57
该文件使用具有非标准编码且无ToUnicode CMaps的子集字体。所以不,你不能让Ghostscript‘更正’这个文件。
事实上,我看不出有什么东西可以从中提取合理的文本,而且我的Acrobat版本(Pro X和Reader XI)不能复制有意义的文本,而且看起来没有“复制为格式化文本”菜单项,你能告诉我在哪里可以找到它吗?
然而,我注意到PDF文件实际上是由Ghostscript (版本9.14)创建的,所以可能你的意思是‘从一个不同的输入文件开始,我没有给你,我能不能生成一个可以复制文本的PDF文件’,我只能说‘我不知道’,这取决于原始输入文件中的内容。
https://stackoverflow.com/questions/25562121
复制相似问题