我的工作是删除PDF中的水印。我在PDF中发现了一些带有一定角度的文本水印。因此,我可以根据文本的角度来判断该文本是否为可能的水印。现在我有一个问题来获得文本的旋转角度。 我试着调用TextPositon.getRation(),TextPositon.getDir(),我也引用了Rotate text in pdfbox with java。 mkl在PDFBox text extraction, rotation and font name, size上说“你的getDir只返回90°的倍数,但文本可以从任意角度绘制”,但我仍然感到困惑。
我尝试从这个页面运行Pdfbox示例:,并从一个PDF文件中提取文本。当我尝试运行它时,我有错误:
org.apache.pdfbox.exceptions.WrappedIOException
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:245)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1192)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.jav
我正在从PDF文档中提取文本。此PDF是使用WS从AS400读取数据生成的。因此,在打印文本时,输出如下:
orem ipsum dolor sit amet, **«VS123»** In eros risus, «VS124» sed felis quis, commodo interdum tellus. Donec vitae massa
is 123、is 124是is 400中的变量。Java APi无法从变量及其打印变量名中读取值,而不能读取变量值。
我使用PDFBox 提取文本。代码源代码类似于:
import java.io.File;
import java.io.IOE
我有一些pdf需要提取到文本,只有一个pdf是真实的类型,它会导致以下错误:
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.fontbox.ttf.TrueTypeFont.getAdvanceWidth(I)I
at org.apache.pdfbox.pdmodel.font.PDTrueTypeFont.getFontWidth(PDTrueTypeFont.java:677)
at org.apache.pdfbox.pdmodel.font.PDSimpleFont.getFont
我是java编程的新手....我需要提取每个tables and images as per source,我试图提取文本使用pdfbox,但我只得到文本和文本属性。如何识别表格、图像、列表等。使用java程序。
是否可以在pdf文件中识别...?
我使用的模块是PDFbox,如果有任何想法进一步处理...,
我使用pdfbox - 2.0.6创建pdf,导入自定义字体,并使用西里尔字符完成文档。当我在3台计算机(2台基于2xWindows,1台基于Linux ubunto )上测试时,一切正常。但是当我将我的代码部署到服务器(基于CentOS)时,代码抛出了这个异常:
java.lang.IllegalArgumentException: No glyph for U+0448 in font FontSans-BoldCyr
我试着用pdfbox的默认字体(PDType1Font.TIMES_ROMAN , PDType1Font.HELVETICA),但我得到
java.lang.Illega
我正在使用PDFBox从几个PDF文档中提取文本,在运行我的单元测试套件(通过gradle)时,我得到了由NullPointerException引起的间歇性故障--我现在的基本假设是,它是由试图同时将字体加载到字体字典缓存的多个线程造成的。
我知道,,PDFBox并不是threadsafe --但我从它和中得到的印象是,这与同时访问文档的多个线程特别相关,而且评论似乎表明,字体盒缓存应该是线程安全。
我在单元测试中遇到的例外是:
WARNING: Using fallback font 'LiberationSans-Bold' for 'Arial-BoldItal
我正在试着把PdfBox (我最喜欢的书,如果重要的话)转换成文本,我检查了iText和Apache pdf。我看到了一个非常大的性能差异:使用iText需要2:521,而使用PdfBox: 6:117。这是我的PdfBOx代码
PDFTextStripper stripper = new PDFTextStripper();
BUFFER.append(stripper.getText(PDDocument.load(pdf)));
这是给iText的
PdfReader reader = new PdfReader(pdf);
for (int i = 1; i <= reader.
是的,这似乎是一个奇怪的问题,但我无法在PDFBox中呈现彩色文本。 通常,生成文本的代码如下所示: //create some document and page...
PDDocument document = new PDDocument();
PDPage page = new PDPage(PDRectangle.A4);
//defined some font
PDFont helveticaRegular = PDType1Font.HELVETICA;
//content stream for writing the text
PDPageContentStream co
我使用下面的代码来使用.NET版本的PDFBox解析PDF中的文本。
Imports org.apache.pdfbox.pdmodel
Imports org.apache.pdfbox.util
Private Shared Function parseUsingPDFBox(ByVal input As String) As String
Dim doc As PDDocument = Nothing
Try
doc = PDDocument.load(input)
Dim stripper As New PDFTextStri
我使用PDFBox从表单中提取文本,并且我有一个PDF,它不是用密码加密的,但是PDFBox说是加密的。我怀疑某种Adobe“特性”,因为当我打开它时,它说(安全),而其他我没有问题的PDF没有问题。isEncrypted()返回true,所以尽管没有密码,但它似乎是安全的。
我怀疑它没有正确地解密,因为它能够提取表单的文本提示,而不是响应本身。在下面的代码中,它从样例中提取Address (Street Name and Number)和City,而不是它们之间的响应。
我正在使用PDFBox 2.0,但我也尝试了1.8。
我已经尝试过为PDFBox找到的每一种解密方法,包括不推荐的解密方法