我试图使一个iOS应用程序,这将从pdf文件中提取纯文本,并在UITextView中显示它。它根本不是一个pdf阅读器来查看pdf文件,但我希望稍后对该文本执行某些操作。我已经用谷歌搜索了很多,但仍然不能得到一个确切的解决方案。
我已经尝试过使用https://github.com/zachron/pdfiphone,但文件使用的是ARMV6架构,这在Xcode4.5中似乎已过时
如果任何人能使用iOS的Quartz-2d框架提供一些准确和清晰的代码,那就太好了。
发布于 2012-12-26 15:25:13
Here是一个从PDF中提取文本的示例代码,希望这能对你有所帮助。
https://github.com/zachron/pdfiphone
这是一个为iPhone从PDF中获取文本的库。
这里有另一个使用OCR technology的演示,找到下面的链接
https://github.com/nolanbrown/Tesseract-iPhone-Demo
另外请查看Quartz 2D Programming Guide的his page,它涵盖了在iOS中打开和解析PDF文件所需的所有内容。请注意,这不是一项简单的任务,因为没有方法在一行中提取全文。您必须使用CGPDFScanner将数据作为输入流进行处理
另外两个库
发布于 2016-02-25 12:22:39
这个问题总是被提出来。一般来说,从PDF中提取文本是非常困难的。PDF规范在设计时并没有考虑到文本提取。有许多库试图完成这项工作,本质上是通过从单个字形的几何位置重建文本。这些库都取得了不同程度的成功,但在某些PDF文档上都会失败。事实上,有些PDF文档有字形,但无法将字形与字符相关联。对于这些文档,根本不可能提取文本,除非使用某种OCR方法。
PDF被设计为一种可移植的只读格式,因为PDF文档将在任何平台上以相同的方式呈现。这就是它最擅长的,也是它应该被使用的地方。
如果要编辑文本,请不要使用PDF。
发布于 2014-10-17 19:46:53
Here (Extracting text from pdf using objective-c),我找到了你问题的答案,而且它起作用了。但并不像我需要的那样好:
它只能提取ascii
祝好运。
https://stackoverflow.com/questions/14037328
复制相似问题