我有一套pdf文件,我需要将这些文件转换为excel。当我尝试转换那些我不能转换的东西时,它显示为失败。所以我试着把所有的数据都转换成HTML标签,但是它把整个文档变成了P标签。我已经附上了HTML标签的响应样本。请建议我一些转换pdf到excel在php的ides。
我用过this库
<p class="ft00" style="margin: 0; padding: 0; font-size: 11px; font-family: Times; color: #000000; position: absolute; top: 863px; left: 683px; white-space: nowrap;"><b>10</b></p>
<p class="ft01" style="margin: 0; padding: 0; font-size: 9px; font-family: Times; color: #000000; -moz-transform: matrix( 0, -1, 0.9999875, 0, 0, 0); -webkit-transform: matrix( 0, -1, 0.9999875, 0, 0, 0); -o-transform: matrix( 0, -1, 0.9999875, 0, 0, 0); -ms-transform: matrix( 0, -1, 0.9999875, 0, 0, 0); -moz-transform-origin: left 75%; -webkit-transform-origin: left 75%; -o-transform-origin: left 75%; -ms-transform-origin: left 75%; position: absolute; top: 207px; left: 63px; white-space: nowrap;"><b>THE</b></p>
Library: PdfToHtml
$pdf = new \TonchikTm\PdfToHtml\Pdf($pdf_file , [
'pdftohtml_path' => $bindir,
'pdfinfo_path' => $binexe,
'outputDir' => getcwd().'/excelfile/'.uniqid() // output dir
]);
$newpage = '';
foreach ($pdf->getHtml()->getAllPages() as $page) {
$newpage .= $page . '<br/>';
}
发布于 2020-06-22 05:29:23
我从来没有将PDF转换为Excel的用例,但您还尝试过其他库吗?
PDFTables看起来很有前途:
https://pdftables.com/pdf-to-excel-api#php
https://github.com/pdftables/php-pdftables-api
如果需要使用您正在使用的PDF to HTML库来完成此操作,我不知道有什么简单/干净的方法可以做到这一点。
根据问题,每个页面返回一个包含所有段落元素的字符串?
如果返回一个元素数组,您应该能够循环遍历每个段落,并使用strip_tags()来获取各个值。
如果它是一个字符串,请研究一下如何使用Simple HTML Dom从字符串格式解析HTML元素,这样您就可以更轻松地使用它。
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');
https://stackoverflow.com/questions/62496719
复制相似问题