首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在NSString中从pdf中获取文本

在NSString中从pdf中获取文本
EN

Stack Overflow用户
提问于 2012-12-26 15:22:43
回答 3查看 5.4K关注 0票数 1

我试图使一个iOS应用程序,这将从pdf文件中提取纯文本,并在UITextView中显示它。它根本不是一个pdf阅读器来查看pdf文件,但我希望稍后对该文本执行某些操作。我已经用谷歌搜索了很多,但仍然不能得到一个确切的解决方案。

我已经尝试过使用https://github.com/zachron/pdfiphone,但文件使用的是ARMV6架构,这在Xcode4.5中似乎已过时

如果任何人能使用iOS的Quartz-2d框架提供一些准确和清晰的代码,那就太好了。

EN

回答 3

Stack Overflow用户

发布于 2012-12-26 15:25:13

Here是一个从PDF中提取文本的示例代码,希望这能对你有所帮助。

https://github.com/zachron/pdfiphone

这是一个为iPhone从PDF中获取文本的库。

这里有另一个使用OCR technology的演示,找到下面的链接

https://github.com/nolanbrown/Tesseract-iPhone-Demo

另外请查看Quartz 2D Programming Guidehis page,它涵盖了在iOS中打开和解析PDF文件所需的所有内容。请注意,这不是一项简单的任务,因为没有方法在一行中提取全文。您必须使用CGPDFScanner将数据作为输入流进行处理

另外两个库

  1. https://github.com/KurtCode/PDFKitten/
  2. https://github.com/mobfarm/FastPdfKit
票数 2
EN

Stack Overflow用户

发布于 2016-02-25 12:22:39

这个问题总是被提出来。一般来说,从PDF中提取文本是非常困难的。PDF规范在设计时并没有考虑到文本提取。有许多库试图完成这项工作,本质上是通过从单个字形的几何位置重建文本。这些库都取得了不同程度的成功,但在某些PDF文档上都会失败。事实上,有些PDF文档有字形,但无法将字形与字符相关联。对于这些文档,根本不可能提取文本,除非使用某种OCR方法。

PDF被设计为一种可移植的只读格式,因为PDF文档将在任何平台上以相同的方式呈现。这就是它最擅长的,也是它应该被使用的地方。

如果要编辑文本,请不要使用PDF。

票数 2
EN

Stack Overflow用户

发布于 2014-10-17 19:46:53

Here (Extracting text from pdf using objective-c),我找到了你问题的答案,而且它起作用了。但并不像我需要的那样好:

它只能提取ascii

  • it

  • me

祝好运。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14037328

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档