Camelot: 一个友好的PDF表格数据抽取工具
一个python命令行工具,使任何人都能很轻松的从PDF文件中抽取表格数据。
怎样使用Camelot
使用Camelot从PDF文档提取数据非常简单
.Camelot允许你通过调整设置项来精确控制数据的提取过程
.可以根据空白和精度指标来判断坏的表格,并丢弃,而不必手动检查
.每一个表格数据是一个panda的dataframe,从而可以很方便的集成到ETL和数据分析工作流中
.可以把数据导出为各种不同的格式比如 CSV、JSON、EXCEL、HTML
首先在电脑上安装python3.6,然后再命令行输入:
pip install camelot-py
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
......
import chardet # For str encoding detection in Py3
ModuleNotFoundError: No module named 'chardet'
>>>
如果如同上述情况报错:No module named ‘chardet’,返回系统命令行,执行:
pip install chardet
安装chardet成功后,再次进入python命令测试:
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
File "F:\APP\Ides\Anaconda3\envs\CLOT\lib\site-packages\camelot\image_processing.py", line 5, in <module>
import cv2
ModuleNotFoundError: No module named 'cv2'
>>>
报错:ModuleNotFoundError: No module named ‘cv2’,这是应为opencv库没有安装。 再次返回系统命令行,安装opencv库:
pip install opencv-python
执行完上述操作,就安装成功了。
再次进入python,输入:
import camelot as cl
不再会报错了。 输出其版本号:
print(cl.__version__)
测试过程如下:
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
>>> cl.__version__
'0.3.2'
>>>
安装完成了,后面就是开始使用,后面有机会,我也会把使用的心得更新上来。