是的,这似乎是一个奇怪的问题,但我无法在PDFBox中呈现彩色文本。 通常,生成文本的代码如下所示: //create some document and page...
PDDocument document = new PDDocument();
PDPage page = new PDPage(PDRectangle.A4);
//defined some font
PDFont helveticaRegular = PDType1Font.HELVETICA;
//content stream for writing the text
PDPageContentStream co
我正在使用PDFBox从几个PDF文档中提取文本,在运行我的单元测试套件(通过gradle)时,我得到了由NullPointerException引起的间歇性故障--我现在的基本假设是,它是由试图同时将字体加载到字体字典缓存的多个线程造成的。
我知道,,PDFBox并不是threadsafe --但我从它和中得到的印象是,这与同时访问文档的多个线程特别相关,而且评论似乎表明,字体盒缓存应该是线程安全。
我在单元测试中遇到的例外是:
WARNING: Using fallback font 'LiberationSans-Bold' for 'Arial-BoldItal
我有一个用java编写的程序,它使用PDFBox 1.7.1,它是用maven-have-plugin2.0构建的。
下面是使用PDFBox api的代码:
public class PdfFile {
protected PDDocument document = null;
public boolean load(byte[] bytes) throws IOException {
InputStream is = new ByteArrayInputStream(bytes);
PDFParser parser = new PDFPar
我从Matlab打电话给PDFBox,想知道在一个PDF中有多少页。所有的工作与Matlba,2016年b和以前都很好。我可以导入库并加载PDF,而不会出现问题:
import org.apache.pdfbox.pdmodel.PDDocument;
pdfFile = PDDocument.load(filename);
当我在207 a运行相同的东西时,我会得到以下错误:
No method 'load' with matching signature found for class
'org.apache.pdfbox.pdmodel.PDDocument&
我已经在以前的版本中看到了如何做到这一点,如下所示: How to extract font styles of text contents using pdfbox? 但是我认为getFonts()方法现在已经被移除了。我想在新版本的PDFBox中检索一个从文本到字体(Map<String, PDFont>)的映射,但我不知道如何检索。 谢谢 卡比尔
目前,我正在使用Selenium Webdriver for c#和PDFBox来自动化报告的PDF文本。现在,使用PDFBox,我们能够解析给定URL链接的pdf,其中URL = new URL("link of pdf");但是,这不需要任何前提条件就可以直接获取URL链接。
如果我使用直接URL地址访问PDF,则会出现“未找到资源”错误。我基本上需要登录到应用程序,并选择我需要的报告,以便加载实际的PDF。它具有相同的地址,只是它被加载到应用程序中,而不是直接加载。我如何链接Selenium和PDFbox?,这样代码就不会打开一个新的网址,直接转到拒绝许可的网址,而是转到
在尝试从Apache PDFBox命令行工具中定位版本类时,我收到以下错误: $ java org.apache.pdfbox.tools.Version -cp pdfbox-tools-3.0.0-RC1.jar
Error: Could not find or load main class org.apache.pdfbox.tools.Version
Caused by: java.lang.NoClassDefFoundError: picocli/CommandLine$IVersionProvider 当以不同的方式运行时,也会收到此错误: $ java -jar pdfbo
我正在从PDF文档中提取文本。此PDF是使用WS从AS400读取数据生成的。因此,在打印文本时,输出如下:
orem ipsum dolor sit amet, **«VS123»** In eros risus, «VS124» sed felis quis, commodo interdum tellus. Donec vitae massa
is 123、is 124是is 400中的变量。Java APi无法从变量及其打印变量名中读取值,而不能读取变量值。
我使用PDFBox 提取文本。代码源代码类似于:
import java.io.File;
import java.io.IOE
我将PDFBox用于C# .NET项目。我得到了一个"TypeInitializationException“( 'java.lang.Throwable‘的类型初始化程序抛出了一个异常)。执行下列代码块时:
FileStream stream = new FileStream(@"C:\1.pdf",FileMode.Open);
//retrieve the pdf bytes from the stream.
byte[] pdfbytes=new byte[65000];
stream.Read(pdfbytes, 0, 65000)
我是java编程的新手....我需要提取每个tables and images as per source,我试图提取文本使用pdfbox,但我只得到文本和文本属性。如何识别表格、图像、列表等。使用java程序。
是否可以在pdf文件中识别...?
我使用的模块是PDFbox,如果有任何想法进一步处理...,