我有几个PDF是用Microsoft生成的。我想:
使用regex在PDF文本中查找匹配项。
将匹配的文本转换为指向外部URL的链接。
保存PDF的新版本。
如果我用HTML进行此操作,它将如下所示:
<!-- before: -->
This is the text to match.
<!-- after: -->
This is the text to <a href="http://www.match.com/" target="_blank">match</a>.
我怎么才能对PDF
我有多个..pdf文件(存储在本地文件夹中),其中包含文本。我想在R中导入..pdf文件(即文本),我应用了函数'read_dir‘(R包:[textreadr][1])。
library ("textreadr")
Data <- read_dir("<MY PATH>")
功能运行良好。但。对于几个文件,包括特殊字符(即字母)在它们的名称(例如'ć';例如'filenameć.pdf')中,函数没有工作(错误消息:'The following files failed to read in a
我有一个问题,当添加字符时,如"Č“或"Ć”,而生成的PDF。我主要使用段落在我的PDF报表中插入一些静态文本。下面是我使用的一些示例代码:
var document = new Document();
document.Open();
Paragraph p1 = new Paragraph("Testing of letters Č,Ć,Š,Ž,Đ", new Font(Font.FontFamily.HELVETICA, 10));
document.Add(p1);
生成PDF文件时,我得到的输出如下所示:"Testing of letters,
我有一个生成JasperReports的Java应用程序。它将从单个报告创建多达三个JasperPrints :一个在打印机上打印,一个被序列化并保存到数据库,第三个使用Jasper的内置导出功能导出为PDF。
问题是,导出为PDF时,包含8位或更多位(即非7位ASCII)的字符显示为空方块,这意味着Acrobat Reader无法显示该字符。打印版本是正确的,加载数据库版本并将其打印出来是正确的。如果我将PDF导出版本更改为不同的格式,例如XML,该字符在web浏览器中显示良好。
根据证据,我认为这个问题是PDF中字体处理的特定问题,但我不确定是什么。
使用的字体是Lucida Sans T
我有一个用java编写的程序,它使用PDFBox 1.7.1,它是用maven-have-plugin2.0构建的。
下面是使用PDFBox api的代码:
public class PdfFile {
protected PDDocument document = null;
public boolean load(byte[] bytes) throws IOException {
InputStream is = new ByteArrayInputStream(bytes);
PDFParser parser = new PDFPar
如何从Adobe Distiller工具创建的pdf文件中读取文本?
我目前使用的是ABCPdf工具,我有一个读取pdf内容的代码示例,但它只能读取Adobe PDF Library创建的PDF文件中的文本:
public string ExtractTextsFromAllPages(string pdfFileName)
{
var sb = new StringBuilder();
using (var doc = new Doc())
{
doc.Read(p
我正在尝试使用下面的脚本在pdf文件中写入字符串列表。
pdf = fpdf.FPDF(format='letter')
pdf.add_page()
pdf.set_font("Arial", size=12)
for i in data:
pdf.write(5,str(i))
pdf.ln()
pdf.output("testings.pdf")
但是,我得到了错误
UnicodeEncodeError: 'latin-1' codec can't encode character '