我在我的共享主机网络服务器上有一系列的PDF文件,我正在为它们写一个PHP脚本,以便在屏幕上对它们进行分类。我已经在PDF文件中添加了元数据--文档标题、作者和主题。文件名由作者和标题组成,因此我可以从中构造目录文本。但是,我也想显示“Subject”元数据字段的内容。
因为我使用的是共享主机,所以我无法安装任何额外的PHP扩展。他们有PDFLib的免费版本,但不包括任何加载PDF文件或提取元数据的功能。
这是目前为止仅显示文件名列表的脚本...
function catalogue($folder){
$files = preg_grep('/^([^.])/', scandir($folder));
foreach($files as $file){
echo($file.'<br/>');
}
}
所以,我没有取得太大的进展:
我尝试过PDF_open_pdi_document()
,但这不是已安装的PDFLib扩展的一部分。我试过PDF_pcos_get_string()
但我得到的..。
PDF_pcos_get_string($file,0,'author');
...is...
pdf_pcos_get_string(): supplied resource is not a valid pdf object resource
...and我可以在网上找到关于这个功能的帮助。从字面上看什么都没有!
我在共享主机上运行PHP 7.4。
发布于 2020-10-13 04:52:51
元数据不像PDF那样加密,所以你可以使用file_get_contents,找到主题的模式(<
发布于 2020-10-13 05:40:26
谢谢@drdlp。我已经使用file_get_contents()
加载了PDF,并提取和显示元数据。
function catalogue($folder){
$files = preg_grep('/^([^.])/', scandir($folder));
foreach($files as $file){
$page = file_get_contents($file);
$metadata = preg_match_all('/\/[^\(]*\(([^\/\)]*)/',$page,$matches);
$author = $matches[1][0];
$subject = $matches[1][4];
$title = $matches[1][5];
echo($title.'/'.$subject.'/'.$author.'<br>');
}
}
/
然而,对于一个文件夹中的40多篇PDF文章来说,这是非常慢的。
我怎么才能加快速度呢?
我已经开始尝试使用pdf.js
,我可以先加载文件中的所有基本细节(文件名等),然后在页面加载后使用Javascript对其进行更新。
然而,我显然对Javascript的了解还不够多,无法让它工作。这就是我到目前为止所拥有的,并且我被困住了。我已经从mozilla.github.io/pdf.js/build/pdf.js
导入了pdf.js ...
function pdf_metadata(file_url,id){
var pdfjsLib = window['pdfjs-dist/build/pdf'];
pdfjsLib.GlobalWorkerOptions.workerSrc = '//mozilla.github.io/pdf.js/build/pdf.worker.js';
var loadingTask = pdfjsLib.getDocument(file_url);
loadingTask.promise.then(function(pdf) {
pdf.getMetadata().then(function(details) {
console.log(details);
document.getElementById(id).innerHTML=details;
}).catch(function(err) {
console.log('Error getting meta data');
console.log(err);
});
});
}
console.log(details);
行将一个对象输出到控制台。从那里我根本不知道如何提取任何数据。因此,document.getElementById(id).innerHTML=details;
不显示任何内容。
这是输出到控制台的对象。
https://stackoverflow.com/questions/64322664
复制相似问题