首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用PHP提取PDF元数据字段

使用PHP提取PDF元数据字段
EN

Stack Overflow用户
提问于 2020-10-13 01:34:25
回答 2查看 475关注 0票数 2

我在我的共享主机网络服务器上有一系列的PDF文件,我正在为它们写一个PHP脚本,以便在屏幕上对它们进行分类。我已经在PDF文件中添加了元数据--文档标题、作者和主题。文件名由作者和标题组成,因此我可以从中构造目录文本。但是,我也想显示“Subject”元数据字段的内容。

因为我使用的是共享主机,所以我无法安装任何额外的PHP扩展。他们有PDFLib的免费版本,但不包括任何加载PDF文件或提取元数据的功能。

这是目前为止仅显示文件名列表的脚本...

代码语言:javascript
运行
复制
function catalogue($folder){
  $files = preg_grep('/^([^.])/', scandir($folder));
  foreach($files as $file){
    echo($file.'<br/>');
  }
}

所以,我没有取得太大的进展:

我尝试过PDF_open_pdi_document(),但这不是已安装的PDFLib扩展的一部分。我试过PDF_pcos_get_string()但我得到的..。

代码语言:javascript
运行
复制
PDF_pcos_get_string($file,0,'author');

...is...

代码语言:javascript
运行
复制
pdf_pcos_get_string(): supplied resource is not a valid pdf object resource

...and我可以在网上找到关于这个功能的帮助。从字面上看什么都没有!

我在共享主机上运行PHP 7.4。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-10-13 04:52:51

元数据不像PDF那样加密,所以你可以使用file_get_contents,找到主题的模式(<

票数 2
EN

Stack Overflow用户

发布于 2020-10-13 05:40:26

谢谢@drdlp。我已经使用file_get_contents()加载了PDF,并提取和显示元数据。

代码语言:javascript
运行
复制
function catalogue($folder){
  $files = preg_grep('/^([^.])/', scandir($folder));
  foreach($files as $file){
    $page = file_get_contents($file);
    $metadata = preg_match_all('/\/[^\(]*\(([^\/\)]*)/',$page,$matches);
    $author = $matches[1][0];
    $subject = $matches[1][4];
    $title = $matches[1][5];
    echo($title.'/'.$subject.'/'.$author.'<br>');
  }
}
/

然而,对于一个文件夹中的40多篇PDF文章来说,这是非常慢的。

我怎么才能加快速度呢?

我已经开始尝试使用pdf.js,我可以先加载文件中的所有基本细节(文件名等),然后在页面加载后使用Javascript对其进行更新。

然而,我显然对Javascript的了解还不够多,无法让它工作。这就是我到目前为止所拥有的,并且我被困住了。我已经从mozilla.github.io/pdf.js/build/pdf.js导入了pdf.js ...

代码语言:javascript
运行
复制
function pdf_metadata(file_url,id){
  var pdfjsLib = window['pdfjs-dist/build/pdf'];
  pdfjsLib.GlobalWorkerOptions.workerSrc = '//mozilla.github.io/pdf.js/build/pdf.worker.js';
  var loadingTask = pdfjsLib.getDocument(file_url);
  loadingTask.promise.then(function(pdf) {
    pdf.getMetadata().then(function(details) {
      console.log(details);
      document.getElementById(id).innerHTML=details;
    }).catch(function(err) {
       console.log('Error getting meta data');
       console.log(err);
       });
    });
}

console.log(details);行将一个对象输出到控制台。从那里我根本不知道如何提取任何数据。因此,document.getElementById(id).innerHTML=details;不显示任何内容。

这是输出到控制台的对象。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64322664

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档