专栏首页深度应用[Python工具]pdf表格提取camelot安装教程

[Python工具]pdf表格提取camelot安装教程

pdf表格提取camelot安装教程

经过测试,macos 与win10 均可以用一下方式安装

Camelot: 一个友好的PDF表格数据抽取工具

一个python命令行工具,使任何人都能很轻松的从PDF文件中抽取表格数据。

怎样使用Camelot

使用Camelot从PDF文档提取数据非常简单

.Camelot允许你通过调整设置项来精确控制数据的提取过程

.可以根据空白和精度指标来判断坏的表格,并丢弃,而不必手动检查

.每一个表格数据是一个panda的dataframe,从而可以很方便的集成到ETL和数据分析工作流中

.可以把数据导出为各种不同的格式比如 CSV、JSON、EXCEL、HTML

  • pip 安装指令:

首先在电脑上安装python3.6,然后再命令行输入:

pip install camelot-py
  • 进入python命令行测试
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
......
    import chardet  # For str encoding detection in Py3
ModuleNotFoundError: No module named 'chardet'
>>>

如果如同上述情况报错:No module named ‘chardet’,返回系统命令行,执行:

pip install chardet

安装chardet成功后,再次进入python命令测试:

(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
  File "F:\APP\Ides\Anaconda3\envs\CLOT\lib\site-packages\camelot\image_processing.py", line 5, in <module>
    import cv2
ModuleNotFoundError: No module named 'cv2'
>>>

报错:ModuleNotFoundError: No module named ‘cv2’,这是应为opencv库没有安装。 再次返回系统命令行,安装opencv库:

pip install opencv-python

执行完上述操作,就安装成功了。

  • 安装成功,测试一下

再次进入python,输入:

import camelot as cl

不再会报错了。 输出其版本号:

print(cl.__version__)

测试过程如下:

(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
>>> cl.__version__
'0.3.2'
>>>

安装完成了,后面就是开始使用,后面有机会,我也会把使用的心得更新上来。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何用Python解决最优化问题?

    现有5个广告投放渠道,分别是日间电视、夜间电视、网络媒体、平面媒体、户外广告,每个渠道的效果、费用及限制如下表所示:

    1480
  • 我用Python画了个“一拳超人”

    Turtle库是Python中一个非常好玩的画图小工具。可以想象一个小乌龟在纸上爬,爬出了一个有趣的图案。为了熟悉Turtle的使用,我用它画了个“一拳超人”!

    三猫
  • python 自动监测并拷贝U盘文件

    今天给大家介绍一个可以偷偷拷贝别人 U 盘里文件的 python 程序,没错,程序自动监测 U 盘插入并读取 U 盘内文件,拷贝到本地电脑。

    谭小谭
  • 中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP

    继续中文分词在线PK之旅,上文《五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP》我们选择了5个中文分词开...

    AINLP
  • 使用python发送邮件

    发送邮件这个功能非常实用,比如你写了一个爬虫,可以通过邮件来接收程序异常或者任务完成的通知,再比如你搭了一个网站,别人只需留下他的邮箱,你就可以自动给他发送邮件...

    谭小谭
  • 简易获取root密码技巧

    这个技巧一般用在什么地方呢,如授权的渗透下,或不能对应用系统造成破坏性攻击的时候。

    Jumbo
  • Flask框架使用

    我们在搭建一下接口测试平台或者管理一些脚本的时候,通常希望有一个web页面来维护,今天就介绍一款使用python编写的轻量级Web应用框架,自带开...

    用户5521279
  • 广告小程序后端开发(9.获取已发布的广告和店铺列表,获取已发布的广告和店铺详情)

    玩蛇的胖纸
  • python面试题精讲——逻辑运算and-or运算的本质

    python的and、or逻辑运算是非常基础的应用,但是你真的明白它们组合起来运算的本质吗,有的人说and-or是python里面的三元运算符,这种说法正确吗?...

    小草AI
  • 点开瞅瞅,再来几道Python面试题吧,Python面试题No20

    这个题就是面向对象设计和设计模式的开始。 你可能比较熟悉的模式叫做: MVC。说是 Model View Controller,而在 Django 中因为 T...

    梦想橡皮擦

扫码关注云+社区

领取腾讯云代金券