专栏首页PHP-咪啪咪啪使用PDFParser解析PDF中的文字

使用PDFParser解析PDF中的文字

官方文档(文档很清晰,建议直接看官方文档) https://www.pdfparser.org/documentation

安装

composer require smalot/pdfparser

安装完成之后,在入口文件引入自动加载文件

include 'vendor/autoload.php';  //根据自己入口文件的路径合理配置

使用方法

<?php
 
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
 
// Parse pdf file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('document.pdf');
 
$text = $pdf->getText();
echo $text;
 
?>

如何获取指定页的内容

$parser = new \Smalot\PdfParser\Parser();       
// 调用解析方法,参数为pdf文件路径,返回结果为Document类对象
$document = $parser->parseFile('238.PDF');
// 获取所有的页
$pages = $document->getPages();
//$pages[0]->getText();  //提取第一页的内容,想提取多页,可以按照下面的方法,用$key来控制要获取的页数
// 逐页提取文本
foreach($pages as $key=>$page){
    if($key === 0){
        //提取第一页的内容
        echo $pages[$key]->getText();  
    }
}   

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • GuzzleHttp 异常信息为什么会被截取?

    当我们在使用这个扩展包的时候,发送一些请求,当请求出现问题,就要去获取他的异常,而当我们使用下面的代码时,会发现异常会被截断

    咪啪咪啪
  • linux下的小工具

    咪啪咪啪
  • Vuex中Action的解构赋值理解

    image.png 你可以理解为action中的函数会默认自动获取context这个对象为第一个参数。 而context这个对象拥有和store...

    咪啪咪啪
  • 打开性能大门,四大关键趋势加速NVMe应用

    NVMe是目前存储领域最热炒概念之一,因为它能够让全闪存阵列完全发挥闪存的性能优势。NVMe已经成为全闪存阵列控制器与后端固态硬盘之间的互联,帮助全闪存阵列解锁...

    大数据在线
  • 数据结构——无权图的路径问题(C++和java实现)

    好像又是接近半个月没有更新,这半个月忙着结婚的各项事情,本来预计的学习任务也拖拖拉拉,进度缓慢。吐槽一句,拍婚纱照真的是最非常非常累的一件事情,不想再有下次了。

    Originalee
  • 原 shell脚本介绍, shell脚本

    叶瑾
  • 聊聊dubbo的ClassLoaderFilter

    dubbo-2.7.2/dubbo-rpc/dubbo-rpc-api/src/main/java/org/apache/dubbo/rpc/filter/Cl...

    codecraft
  • 每天学点Linux命令之umask

    在进入今天的主题之前,我们先来回顾一下Linux文件权限的相关知识点。Linux里的文件权限可分为3组,分别是文件拥有者、同个群组的其他用户、不同群组的其他用户...

    黄泽杰
  • 聊聊dubbo的ClassLoaderFilter

    dubbo-2.7.2/dubbo-rpc/dubbo-rpc-api/src/main/java/org/apache/dubbo/rpc/filter/Cl...

    codecraft
  • 每天学点Linux命令之umask

    在进入今天的主题之前,我们先来回顾一下Linux文件权限的相关知识点。Linux里的文件权限可分为3组,分别是文件拥有者、同个群组的其他用户、不同群组的其他用户...

    黄泽杰

扫码关注云+社区

领取腾讯云代金券