如何使用R提取PDF中每个单词的字体_提取R中每个单词的第一个字母_我如何获得字体文件或PDFont文件中的每个单词？ - 腾讯云开发者社区

r、pdf、fonts

我需要提取每个单词的字体类型。我一直在尝试提取pdf的内容，并使用它们所使用的字体对它们进行分类。谁能帮帮我。提前感谢我尝试使用pdftool，但pdf_font函数只提供字体类型。但我希望它与单词相对应。pdf_fonts("D:\\12342903.pdf&q

浏览 30提问于2019-06-07得票数 2

1回答

使用iText从pdf文件中获取文本字体

itext

我一直在尝试提取属性(字体、字体大小、颜色等)。使用iText库对pdf文档中的每个单词进行编码。我可以从每个页面提取文本，但不能提取属性。此外，我也没有找到任何可以提供相同功能的东西。请帮帮我。

浏览 0提问于2012-02-06得票数 1

回答已采纳

1回答

我如何获得字体文件或PDFont文件中的每个单词？

java、pdfbox

有没有办法获得字体的每一个字的PDF文件使用PDFBox？我已经尝试过了，但它只列出了该页面上使用的所有字体。PDDocument pdfDocument = PDDocument.load(new File("xxofd.pdf"));

浏览 77提问于2021-09-09得票数 0

回答已采纳

1回答

解析PDF文件并输出单个字符位置

parsing、pdf、svg、pdftotext

我试图通过识别每个字符和每个单词的内容和位置，从(数字) PDF中提取文本信息。我试过什么虽然上述方法适用于大多数“基本”字体，但有两种(主要)情况下这种方法失败：在脚本字体(或一些极端斜体字体)<

浏览 1提问于2019-05-16得票数 0

回答已采纳

2回答

如何使用itext读取pdf？

java、pdf、itext

现在我有错误了:2018年5月8日12:27:47下午toUnicode 和空洞的结果

浏览 0提问于2018-05-08得票数 0

回答已采纳

1回答

如何计算锁定pdf中的特定字数

pdf、word-count

如何计算锁定的pdf文件中的特定字数？我用谷歌搜索了很久，还是没有找到解决方案。

浏览 0提问于2013-03-24得票数 1

1回答

在python中读取基于联机的pdf文件，并将数据分离到列-OSError中

python

我与python有一个问题，在获得一个基于网络的pdf文件到python。下面是我写的代码import pandas as pdreader = PdfReader(r"http://www.meteo.gov.lk/images/mergepdf/20221004MERGED.pdf")for page

浏览 10提问于2022-10-05得票数 -2

1回答

如何在PDF中找到一个单词的页码和字体大小？

java、pdf、itext

我想在PDF中搜索一个单词，我想要它停留在哪个页面，以及由java代码显示单词的字体大小。我使用的是itext，所以可以使用itext吗？如果不是，有什么库可以用于此目的？

浏览 2提问于2016-06-16得票数 0

1回答

Microsoft Word中哈希值的不同结果

file、hash、ms-word

我有一个Microsoft文档，我正在尝试获取它的散列值，问题是当我再次保存该文档时，它将产生不同的散列值。示例：我的文档的第一个哈希值是"abc"，当我打开该文档并保存它时，不作任何更改，然后再次尝试获取它的散列值，它将生成"def"哈希值。是否有任何方法在我的文档中产生相同的散列值？不做任何改动就把它保存起来？因为我正在创建重复的文件查找程序，这是我遇到的问题，我无法解决。

浏览 0提问于2014-01-13得票数 0

2回答

如何从文本字段中提取特定字段

python-3.x

我正在尝试从文本字段中提取经验域。但转换PDF为文本文件后，出现了几个额外的行，因为我不能正确提取数据。下面是转换后生成的文本字段。有人能告诉我如何从这个文件中提取经验域吗？下面的代码可以很好地处理那些没有空行的文本文件。with open('E:/cvparser/sampath.txt', 'r', encoding = 'utf-8') as f:

浏览 0提问于2019-07-23得票数 1

1回答

iText PDF错误字符转换

java、pdf、itext

我有一份PDF文件要读，这让我很崩溃。现在问题来了。当我将粘贴文本从pdf复制到记事本时，我会得到一堆难以理解的字符.经过大量的研究，我找到了答案。pdf包含所有字体，但不包含对应的cmap，以允许输出文本。我找到了，它引用了旧版本的itext(我使用的是5.5.5版本)。如果可能的话，我想要实

浏览 19提问于2015-03-27得票数 2

回答已采纳

1回答

如何使用pdfbox获得pdf的最大fontsize

object、font-size、pdfbox、pdf-extraction

我使用pdfbox从pdf中提取一些信息，但是如何提取每个对象的信息？如果其中一个包含流，我如何解码该流以显示？我能从一个pdf框中得到最大字体大小的吗？我想如果我能得到每个对象的字体大小并对它们进行排序，那么我就得到了具有最大字体大小的对象？

浏览 8提问于2015-03-23得票数 1

2回答

PDF阅读器-查找单词的算法

algorithm、pdf

当输入Ctrl+F时，pdf阅读器如何找到特定的单词/表达式？有比线性搜索更快的算法来执行这样的任务吗？

浏览 3提问于2017-10-14得票数 1

回答已采纳

1回答

如何使用jTessBoxEditor提高文本识别的准确性？

python、ocr、tesseract、python-tesseract、pdf-extraction

我一直在尝试从扫描的pdf文档中提取数据。我已经将pdf文件转换为jpeg文件(我在下面附上了图像链接)，裁剪具有不同字体的单词和数字，合并为tiff文件，并使用jTessBoxEditor训练字体生成新的语言，我使用该语言在Tesseract-OCR中提取文件中的数据。但我无法提取准确的数据。tesserac

浏览 21提问于2020-08-31得票数 1

5回答

使用一些实用程序或脚本将嵌入的PDF字体提取到外部ttf文件中

pdf、fonts、scripting、flash、extract

是否可以使用某些实用程序或脚本将嵌入到PDF文件中的字体提取到外部ttf文件？如果系统中存在嵌入(或未嵌入)到PDF文件的字体。使用pdf2swf和从swftools提取工具，我能够确定在PDF文件中使用的字体的名称。然后我可以在运行时编译相应的系统<

浏览 10提问于2009-12-17得票数 2

回答已采纳

1回答

从PDF的每一页中提取标题？

pdf

我面临的第一个挑战是如何提取中每个页面的标题。这PDF是每一篇论文的第一页的汇编。因此，每一页都有一个论文标题，与传统的学者论文略有不同。有人知道这件事吗？

浏览 15提问于2013-08-06得票数 2

回答已采纳

1回答

我需要使用itext7或itextsharp从pdf文件中提取文本，并在使用粗体字体的所有单词周围放置html标记以表示粗体。

itext、itext7、text-extraction

我使用的是iText7，我想从pdf中提取所有文本，并将html标记为粗体(.)围绕使用粗体字体的所有单词并将其保存在文本文件中。有什么指示吗？我能够独立提取文本，也能提取所有的粗体单词，但不能相互关联。下面是我用于提取文本的代码片段： PdfDocument MyDocument = new PdfDocument(new PdfReader(

浏览 4提问于2020-07-17得票数 3

1回答

基于Python中的头文本提取PDF页面

python、pdf、ocr、finance、pypdf

我有一份“亚洲涂料有限公司”的年度报告。我想提取“综合资产负债表页”(这是PDF中的216页)。我使用了PyPDF并创建了一个函数，该函数提取所有文本，搜索关键术语“综合资产负债表”，并返回找到它的页码。但是，我希望我的功能能够识别包含‘综合资产负债表’这个词的页面为一个头和所需的表(也就是这个pdf中的216页)。这是我的代码

浏览 10提问于2022-01-21得票数 2

1回答

将特殊字符字节从PDF读取到unichar或NSString

ios、pdf、text、nsstring、ligature

首先，这个解决方案不适用于结扎：因此，为了简单起见，让我们说我有这个字符：最后，我想将它转换为这个( "fi“结扎的<

浏览 4提问于2014-07-18得票数 0

回答已采纳

1回答

将PDF文档中的文本提取为单独的新文件名文档

pdf、c++、c#、c

我有大量的PDF文件(>2k文件)，它们看起来类似于这个(PDF样本图像)提取将类似于以下内容： samplepdf_A.pdf -缩进A中的文本(lorem ipsum)

浏览 0提问于2022-05-09得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云