我一直在想这件事,但我不能让它很好地工作。所以我在考虑用PHP“导入”(上传和预处理/标准化数据)一个PDF标准格式的时间表。
我已经尝试了几个库(smalot/pdfparser,gufy/pdftohtml-php,tecnickcom/tc-lib-pdf-parser和一些小类)来阅读PDF,但我得到的似乎都是简单的文本和至多X Y位置和段落内容。我目前正在尝试在a (x,y,content)中组织数据,但我真的在寻找一种在HTML / XML中获得类似于表的结构的方法。
将PDF转换为XLSX会导致时间表中的元素位置不一致。也许有一种更好的格式来转换它,然后在PHP中解释。
发布于 2018-06-19 05:39:23
但是PDF是这样构建的:文本的某些部分和(x,y)坐标。直线、矩形和(x,y)坐标。它不像html那样有表格、标题或任何逻辑结构。解析PDF更像是打印输出的OCR,没有结构。
https://stackoverflow.com/questions/50917724
复制相似问题