使用iText7 + C#从pdf读取文本，无法识别文本

文章/答案/技术大牛

发布

1回答

、、

我想从pdf文档中读取数据。我使用iText7： var src = "<file location>";var strategyEncoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));pdfDocument.Close(); 它可以工作，但不能识别字母所有文本看

浏览 83提问于2020-03-20得票数 4

1回答

如何在Android中从印地语PDF文件中提取文本

、、、、

我正在尝试阅读印地语PDF的内容。我已经使用库读取了该文件。d d d daaaah h eeh h ee aaaa

浏览 10提问于2021-01-17得票数 0

1回答

有没有可能使用C#根据文本将PDF分割成单独的文件？

、

我有一个由多个记录组成的大型单个pdf文档。每条记录通常占用一页，但有些记录使用两页。记录以定义的文本开始，总是相同的。我的目标是将这个pdf分割成单独的pdf，并且分割应该总是在"header text“被找到之前发生。

浏览 1提问于2019-12-03得票数 0

1回答

iTextsharp/itext7 7-在矩形上悬停时无法弹出注释

、、

我正在使用iText7 c#库来突出显示文本，并在鼠标悬停在突出显示的文本上时添加注释。当我在给定矩形内的任何位置悬停时，您能告诉我如何使注释出现吗？PDFSharp输出 iText7输出只有当

浏览 4提问于2021-09-16得票数 0

回答已采纳

1回答

使用c#识别从pdf文档中提取的文本的段落和页面边界

我正在开发应用程序，我需要从pdf中识别段落。是否有任何方法提取文本和识别段落和页面边界提取的文本从pdf文档使用c#？

浏览 2提问于2015-03-25得票数 3

回答已采纳

1回答

我正在用C#和.NET开发一个小应用程序来自动化一个目前是手动完成的过程。该应用程序正在寻找PDF文档中的特定模式，并根据该模式将其上传到任何需要的位置。它与PDF没有任何问题，PDF是用数字方式编写的(Word、Nodepad等)。然后转换成PDF格式。后来我发现，将来使用的文件将是90%的扫描文件。事实证明，这是一个比我预期的更大的问题。我找到了多个第三方库，它们可以处理这个任务-> iText7、LeadTools、ABBYY、WhatsMate

浏览 18提问于2021-01-05得票数 0

2回答

将pdf文件转换为excel表格

、、、

我是.net的新手，我有一个包含三个表的pdf (与购买细节)我的任务是提取所有的3个表从pdf和转换成一个excel表(三个excel表)使用c#代码。，我谷歌了3天，所有我能找到的是从pdf中提取文本的代码(但没有任何格式)，我不能购买任何第三方工具，我需要一种方法，至少提取文本在适当的表格格式，然后我会转换成excel使用互操作，或一个代码直接转换成

浏览 5提问于2013-09-29得票数 1

1回答

使用IText从PDF中读取复选框

、、、

我试图使用Visual中的C#和IText7自动读取具有交互式字段的PDF表单。我正在使用IText，但由于某种原因，我的文本框字段读得很好，但是复选框字段没有。| On | False我在文本框上执行一个using iText; using iText.Kernal.Pdf

浏览 8提问于2022-08-31得票数 0

2回答

文本提取库不返回非空页的文本。

、

我编写了一个从PDF文档中提取文本的程序。但一份PDF文件给了我空的短信。我可以在Acrobat中打开PDF文件，它可以正常工作。我的代码可以很好地处理其他PDF文件，所以我想知道是什么导致了这个问题。我用了PyPDF2和PyPDF2，但结果是一样的。所以这个文件一定有问题： from PyPDF2 import PdfReader for page in reade

浏览 12提问于2022-06-27得票数 0

2回答

iText7在VB.Net中可用还是只在C#中可用？

、、、、

我想从pdf文件中提取文本字段内容，这些文件中有我需要引入到Winforms项目中的文本字段。搜索时，我找到了对iTextSharp的引用，但是看到它被iText7替换了，但是我所读到的所有内容都只提到了它在C#中的使用。我的winforms项目是vb。

浏览 1提问于2021-08-26得票数 0

回答已采纳

1回答

如何在蟒蛇的景观方向上阅读pdf？

、、、

我有一个pdf文件，是在肖像方向，但在一些页面，文本是在景观方向。当使用PyPDF2读取上面的页面时，我从extractText()函数获得以下文本：Out24："U ~ 00 w.T.-O.O.O.mó00 woNN p 00 a+ -fl n~n a O ;~ 0 ~^ o a. ~… 下面是我试图提取文本的页面示例：

浏览 1提问于2018-04-03得票数 0

回答已采纳

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

、、、、

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

1回答

PyPDF2从扫描的pdf中提取垂直文本

、、、、

我正在尝试提取文本从扫描的pdf使用PyPDF2。有些pdf包含垂直排列的文本。但页面的方向是肖像。是否有任何方法可以识别文本是否垂直对齐并使用pdfminer或PyPDF2读取PDF中的垂直行？

浏览 1提问于2018-09-27得票数 6

1回答

如何在pdf文件中搜索文本？

我运行的是ubuntu 22.0.4我试过evince，但它找不到我尝试过的文本，但是它找不到我尝试过的pdfgrep文本，但是它找不到文本

浏览 0提问于2023-04-14得票数 -1

1回答

用c#编程编辑PDF* (非固定PDF)*

、、、、

是否可以编辑在C#中不可填充的PDF格式所需经费：必须编辑以编程方式填写的

浏览 6提问于2012-06-28得票数 1

3回答

C#如何从PDF页面url获取PDF文本

、、、、

C#如何从PDF页面url获取pdf文本例如，网页包含PDF文本，我想读取该页面中的所有文本

浏览 1提问于2016-08-22得票数 1

1回答

是否可以使用java FileReader从pdf中读取文本，或者使用java的替代方法？

、

更普遍地说，发现java是否可以从pdf文件中解释文本是很有用的。谷歌在上面没有提到任何东西，所以我想也许不是？如果没有，为什么？

浏览 5提问于2013-01-13得票数 0

1回答

从不同格式的pdf发票中提取数据

、、

目的是以pdf格式从发票中提取数据。迄今已尝试或考虑的办法：使用库(如iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDFExtractor、Sautinsoft.pdffocus、Spire.PDF等)在C#中编写自定义算法。缺点:必须修改或

浏览 4提问于2020-05-15得票数 3

1回答

用iText7* C#区分PDF文件中的空白页和X-交叉页*

、

我使用IText7将一个PDF文档分割成多个PDF文档。例如，我有一个PDF文档，它包含多个页面组合。Page 1-页面X-交叉符号 Page 2-空白页 Page 3-带有文本页面4-带有X-交叉符号>H 19</代码>页5-空白页</代码>H 210</代码><代码>H 111<//代码>第6页-文本<<代码>H 212<&#x

浏览 5提问于2021-03-22得票数 0

2回答

使用Itext从pdf中提取图像

、

我一直使用ITEXT函数从pdf文件中读取简单的文本，但是否可以在C#中使用ITEXT从PDF文件中读取图像？

浏览 0提问于2011-10-22得票数 1

回答已采纳

点击加载更多