python pdf 转 image

前言

最近项目需要pdf中提取内容,pdf是扫描版,想通过转成图片,通过图像识别区分出段落,然后进行ocr识别,得到结构化数据

所以第一步需要搞定的就是pdf转图片了

环境:Mac 10.12.6 (16G29)

正文

安装依赖

注意imagemagick,目前不支持最新的7版本,所以只能装6

brew install freetype
brew install GhostScript
brew install imagemagick@6
brew link --overwrite imagemagick@6
echo 'export MAGICK_HOME=/usr/local/opt/imagemagick@6' >> ~/.bash_profile
echo 'export PATH="$MAGICK_HOME/bin:$PATH"' >> ~/.bash_profile
pip install Wand

python 脚本

from wand.image import Image
# Converting first page into JPG
with Image(filename="/thumbnail.pdf[0]") as img:
     img.save(filename="/temp.jpg")

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Jerry的SAP技术分享

使用jMeter构造大量并发的随机HTTP请求

在前一篇文章使用jMeter构造大量并发HTTP请求进行微服务性能测试里,我介绍了如何用jMeter构造并发HTTP请求。但是通过文中介绍的方式构造的并发请求,...

4313
来自专栏散尽浮华

分布式监控系统Zabbix-图形集中展示插件Graphtree

Zabbix想要集中展示图像,唯一的选择是screen,后来zatree解决了screen的问题,但性能不够好。Graphtree 由OneOaaS开发并开源出...

3547
来自专栏Android系列

使用Galera部署MariaDB集群

Shiny是R编程语言的库,允许您在本机R中创建交互式Web应用程序,而无需使用HTML,CSS或JavaScript等Web技术。将Shiny应用程序部署到W...

2530
来自专栏深度学习之tensorflow实战篇

下载和安装R、RStudio !~~~

现如今,R语言是统计领域广泛使用的工具,是属于GNU系统的一个自由、免费、源代码开放的软件,是用于统计计算和统计绘图的优秀工具。而RStudio是R的集成开发环...

3475
来自专栏简单聊聊Spark

Mac 下安装虚拟机及CentOS6.5的安装,以及ssh工具的破解

一.虚拟机的安装操作流程见如下链接,本例采用VMware Fusion这个虚拟机:

2232
来自专栏自动化测试实战

RF接口测试(3)--http请求之post

4506
来自专栏木头编程 - moTzxx

小程序图片长按识别功能的实现

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011415782/article/de...

1311
来自专栏ASP.NET MVC5 后台权限管理系统

构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(25)-权限管理系统-系统管理员(附生成器)

这一节我们要着手建立系统管理员表,但发布之前,我先发布一个代码生成器给大家先用着。 这个生成器是为这个项目而生的,理论不能用于其他项目,而且写得比较潦草,但能用...

2079
来自专栏Hadoop实操

CDSW1.4的Models功能-创建和部署模型(QuickStart)

在前面的文章Fayson介绍了关于《CDSW1.4的新功能》、《Hadoop之上的模型训练 - CDSW1.4新功能模块》、《CDSW1.4的Experimen...

1092
来自专栏python百例

108-多线程的效率

python的多线程有一个GIL(全局解释器锁),使得多个线程,某一时刻只有一个线程发送给CPU处理。所以多线程不适用计算密集型应用,更适合IO密集型应用。 ...

1034

扫码关注云+社区

领取腾讯云代金券