我们有一个Node.js应用程序。我们希望从AWS S3桶中提取PDF文件,在其中填充一些内容,然后将它们作为电子邮件附件发送。问题有两方面:
如何使用可以动态填充值的占位符创建PDF。
如何在从AWS S3中提取这些占位符后填充它们。
我的意思是,我们想要创建模板。例如,PDF模板可能包含以下内容:
Hello {name}, we would like to invite you to {address} for our Christmas party on {date}.
然后,我们希望将它上传到S3,当我们需要从Node.js中发送它时,我们从S3中提取它,用实际值填充
我正在使用pdfbox从这个中提取图像和文本。我有以下提取文本的代码:
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
它可以正确地提取文本。但是,当我尝试使用ExtractImages类从相同的pdf中提取图像时,生成的图像是pdf的所有页面,而不是实际的图像。这是因为pdf可能是扫描副本的原因吗?如果这是真的,为什么文本会被提取出来?
我使用Pymupdf模块中的“fitz”来提取数据,然后用熊猫将提取出来的数据转换成数据。
#从文件夹读取多个pdfs的代码:
from pathlib import Path
# returns all file paths that has .pdf as extension in the specified directory
pdf_search = Path("C:/Users/Ayesha.Gondekar/Eversana-CVs/").glob("*.pdf")
# convert the glob generator out put to li
目前正在做一个项目,这个项目提供了关于不同材料的信息,我正在试图弄清楚如何将各个swift文件组合成一个整体对象来处理。 MaterialOne.swift: struct MaterialOne {
let name = ("Material 1")
let otherData = 13.91
struct RelatedData {
let relatedData1 = 49.44
let relatedData2 = 0.0
...
let relatedData9 = 35.