如何提取pdf中的文字和符号 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

pdf.js获取有关嵌入式字体的信息

、

我正在使用pdf.js。获取带有字体信息的块的文本 str: "blabla", width: 191.433141, transform: Array[6], } 是否有可能以某种方式获得更多关于g_d0_f2的信息。

浏览 2提问于2016-11-17得票数 2

回答已采纳

1回答

我在使用Android中的PDFBox从文档中提取文本时遇到了一些问题。但是解析器似乎工作得很好(或者至少，我把它解释为这个意思；谷歌"parsed=COSObject“没有给出相关的结果，不幸的是(对于某些文档，logcat是垃圾邮件，似乎没有办法关闭这个putput))getCharactersByArticle返回该文档的空输出，即。向量列表是空的。对于我尝试过的大多数其他文档，文本提取工作得很

浏览 4提问于2017-11-14得票数 0

回答已采纳

1回答

将置乱的PDF字符重映射为可读的文本

、、、

我确实有一个问题，因为cups-PDF创建PDF文档，其中字符映射到奇怪的符号[在Ubuntu 14.04和16.04}。我认为这是某种unicode，即使Python告诉我它的字符串类型。因此，它的真实，PDF有破坏文本信息，这是正确的PDF文档本身。我不知道，但文字，和PDF文件上的文字图形似乎没有很紧的捆

浏览 1提问于2017-04-18得票数 0

回答已采纳

1回答

为什么python要从pdf中提取符号而不是文本？

、

我试图在一组文件夹中循环一组pdfs (都是OCR'd)，并在pdf中搜索关键术语，如果pdf包含某个术语，则保存文件夹名、文件名等。此代码在一定程度上起作用。但是，它在搜索项中缺少了一些pdfs。原因是当我在几个pdfs中阅读时，它会在几页上显示一些有趣的内容(至少对我来说是这样)。例如，假设我在一个名为“theone.pdf”的pdf中阅读过。它有278页。出于保密的

浏览 0提问于2018-05-15得票数 1

回答已采纳

1回答

Python读取pdf文件

、

如何使用jupyter实验室从pdf文件中读取和提取表格？一个典型的pdf文件与文本之间的文字字幕和表格。我需要编码来提取特定标题下的表格，并清理一些不需要的文本，比如页码。

浏览 3提问于2022-09-19得票数 -1

1回答

如何使用VB.NET从带有标识-H字体的PDF文件中提取文本

、

我有PDF文件。我的问题是如何使用VB.Net从pdf文件中读取标识-H文本。下面是我的代码： Dim sbPDFText As New StringBuilder() 'StringBuilderrende

浏览 3提问于2014-08-15得票数 1

回答已采纳

1回答

Aspose pdf查看器中的俄文字母链接问题

、、、

在我的java项目中使用嵌入式aspose pdf-previewer和doc-to-pdf转换器时，我遇到了一个编码问题。当我尝试使用com.aspose.words.Document.saveToPdf(...)方法将带有包含俄罗斯符号的可点击链接的.doc文件转换为pdf文件时，我得到了一个很好的pdf文件。但是当我尝试用标准的aspose pdf-previewer打开这个

浏览 0提问于2013-08-19得票数 1

1回答

将特殊字符字节从PDF读取到unichar或NSString

、、、、

首先，这个解决方案不适用于结扎：因此，为了简单起见，让我们说我有这个字符：最后，我想将它转换为这个( "fi“结扎的unico

浏览 4提问于2014-07-18得票数 0

回答已采纳

1回答

谷歌云视觉API - OCR不返回符号条目

我们正在使用用亚洲语言(如日语和中文)创建的科学PDF文档。我们使用Cloud的DOCUMENT_TEXT_DETECTION特性类型从这些文档中获取文本，正如文档中所建议的那样。我们有要求突出显示块，文字和字符(符号)在我们的网络应用程序，并让用户进一步处理在pdf预览的高亮区域。由于在响应boundingBox时缺少属性，所以不能总是显示符号的</em

浏览 3提问于2021-06-04得票数 1

1回答

Rails:具有文本和表情符号的HTML和respond_to

、

我正在尝试创建和下载一个pdf格式的html文件，其中包含文字和表情符号(表情符号)的段落。在输出中，我能够获得正确的文本，但不能获得表情符号。我有一个包含以下函数的dashboard_controller.rb。def download_dashboard format.html format.pdf

浏览 22提问于2018-12-27得票数 0

8回答

如何在Perl中从PDF文件中提取文本？

、、、

我正在尝试使用Perl从PDF文件中提取文本。我一直在命令行中使用pdftotext.exe (即使用Perl函数)从system文件中提取文本，这种方法工作得很好。问题是我们有像α，β和其他特殊字符中的符号，这些符号不会显示在生成的txt文件中。此外，在文本中随机添加的额外空格也很少。有没有一种更好、更可靠的方法来从PDF文件中提取</

浏览 11提问于2009-07-16得票数 23

1回答

有没有可能基于现有的PDF生成Telerik报告？

、、、

我有一个很长的PDF时间跟踪文档，它被打印出来，并在纸质流程中用于安排约会。现在，此纸质流程正在转换为一个在线应用程序，并且此应用程序需要生成与PDF文档相同格式的报告(这一次是通过编程将值插入到行中，而不是让人将它们写在纸片上)。我的问题是，有没有可能以某种方式将PDF文档的布局导入到Telerik reporter的设计器中？否则，有没有什么中介工具可以让布局更具可输出性呢？只是为了澄清，我并不是要将我的

浏览 3提问于2012-02-09得票数 0

回答已采纳

1回答

使用pyPDF读取时不能从PDF中获取正确格式的文本

、

我试图使用Python中的pyPDF包读取下面链接上的PDF文档。我使用了以下代码来读取PDF： import os from pyPdfPdfFileReader filename = os.path.abspath('F:/KG/per/Entr/equity research Text mining tool&

浏览 3提问于2015-08-03得票数 0

回答已采纳

1回答

如何在C#中提取Apache FOP创建的PDF？

、、、

我想提取Apache FOP生成的PDF文件编程没有任何第三方应用程序。我尝试使用许多库，如PDFBox，IKVM，PDF2Text，ITextSharp，PDFSharp来提取PDF文件，但都失败了。当我将FOP生成的PDF提取到文本文件中时，我得到了许多正方形符号和其他纠缠在一起的字符。我的问题是，如何在C#中提取

浏览 0提问于2011-10-01得票数 0

1回答

仅针对某些pdfs的C#从PDF中提取文本的问题

、

我需要从PDF文件中提取一些数据。我正在用iTextSharp来做这件事。我使用的代码是我在网上创建的：using System.IO;{ ///它对某些pdf-s很好，但是对于我真正需要使用的pdf文件，txt文件始终是空的。我没有收到错误，但出于某种原因，它没有写任何东西，虽

浏览 2提问于2018-02-15得票数 0

回答已采纳

1回答

将俄语文本保存为pdf

、、、

我尝试通过将文本保存为pdf。但我在保存俄语文本时遇到了问题。在创建的pdf中，我看到了所有的拉丁字母和符号。但我没看到俄文字母。如果像这样写文本："dfыва-:"，在pdf中我看到："df-:“。我使用有俄文字母的字体。如果有人有同样的问题，请帮助。代码：PdfWriter.getIn

浏览 0提问于2013-09-08得票数 1

1回答

PdfBox从pdf中提取具有相同字体的文本

、、、

我需要从pdf中提取一段文字。本文具有与特征相同的字体族。有什么想法吗？干杯编辑：，让我用另一种方式问这个问题:我如何才能从pdf页面中提取出“粗体”文本？

浏览 1提问于2013-09-18得票数 1

3回答

对虾带有一些ttf的表情符号-字体不能正确地呈现文本

、、、

我有一个红宝石脚本，以生成一个pdf文件与一些文字。文本中包含表情符号。第一行文字的问题在于，当三个表情符号是一个单一的表情符号(由三个成员组成的家庭)时，它会打印出三个表情符号，这些表情符号由一个看起来像十字架的符号隔开。第二行的问题是，它只是打印一个正方形而不是预期的表情符号(嘘脸)。我试

浏览 2提问于2018-09-14得票数 8

回答已采纳

2回答

使用java从pdf中识别和提取表格

、、、

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。我使用iText java来读取和提取。没有得到任何线索，以确定哪些表格存在

浏览 12提问于2017-03-31得票数 1

2回答

这是一个有效的字体名称吗？- #82l#82r#82o#83S#83V#83b#83N

、、

我正在使用PDF转换库在PDF文件中嵌入字体。/FontName /#82l#82r#82o#83S#83V#83b#83N如果是-谁能给我一个推荐人？

浏览 2提问于2010-02-06得票数 0

回答已采纳

点击加载更多

pdf.js获取有关嵌入式字体的信息

PDFBox解析器似乎解析，但是来自文本剥离器的空输出。

将置乱的PDF字符重映射为可读的文本

为什么python要从pdf中提取符号而不是文本？

Python读取pdf文件

如何使用VB.NET从带有标识-H字体的PDF文件中提取文本

Aspose pdf查看器中的俄文字母链接问题

将特殊字符字节从PDF读取到unichar或NSString

谷歌云视觉API - OCR不返回符号条目

Rails:具有文本和表情符号的HTML和respond_to

如何在Perl中从PDF文件中提取文本？

有没有可能基于现有的PDF生成Telerik报告？

使用pyPDF读取时不能从PDF中获取正确格式的文本

如何在C#中提取Apache FOP创建的PDF？

仅针对某些pdfs的C#从PDF中提取文本的问题

将俄语文本保存为pdf

PdfBox从pdf中提取具有相同字体的文本

对虾带有一些ttf的表情符号-字体不能正确地呈现文本

使用java从pdf中识别和提取表格

这是一个有效的字体名称吗？- #82l#82r#82o#83S#83V#83b#83N

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐