我正在使用pdfbox从这个中提取图像和文本。我有以下提取文本的代码:
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
它可以正确地提取文本。但是,当我尝试使用ExtractImages类从相同的pdf中提取图像时,生成的图像是pdf的所有页面,而不是实际的图像。这是因为pdf可能是扫描副本的原因吗?如果这是真的,为什么文本会被提取出来?
我目前正在做一个项目,以提取PDF的内容。代码运行平稳,我可以提取文本,但提取的文本没有正确的顺序。代码以一种奇怪的方式提取文本。课文的顺序到处都是。它不会自上而下,而且真的令人困惑。
我在网上查了一下,但在如何排序文本提取方面几乎没有什么帮助。大多数教程得出了同样的结果。作为参考,这是我目前正在测试的PDF文件(第5页):
import PyPDF2
with open('pdftest2.pdf', 'rb') as pdfTest:
reader = PyPDF2.PdfFileReader(pdfTest)
page5 = re
我正在尝试从XML中提取类似于以下内容的文本:
<p>This is a paragraph <a href='http://link.com'>with an embedded link</a> with more text afterwards</p>
我希望提取的文本保持段落中的URL,如下所示:
This is a paragraph with an embedded link (http://link.com) with more text afterwards
提取文本相当简单:
XSLT和URL:<xsl:va
我已经成功地从图像中提取了文本,但现在我不知道如何从提取的文本中提取名称、位置、电话和单元格号。
下面是一些已提取的示例文本。
Comsats Institute of Information technology,Abbottabad.
Dr Usama Ijaz bajwa
Assistant Professor
Phone:+92 321 6647911
我应该以这种方式从文本结构中提取多语种内容:
一些意大利文本/it英语文本/en bla bla bla
其他文本其他意大利语/it其他英语文本/en bla bla bla
我将摘取所有不附在beetwen多语种方括号内的案文和附在beetwen当前语文方括号内的案文。
例如,如果当前语言为"en“,我将提取以下文本:
一些文本英语文本bla
其他英文文本
如何使用正则表达式正确提取文本?
<li class="actualPrice price fakeLink " data-automation="actual-price">
<span class="visuallyhidden">Hello world</span>
Some text I want to extract
</li>
这里有一些HTML。我想提取文本“一些文本我想要提取”,我不想提取哈罗世界。
我尝试过像find('span')和使用next_sibling之类的东西,但是没有。