如何在python-3中分析PDF中的特定文本字符串？_分析多行中的特定文本_统计文本中特定刺痛点的程序，如“气候金融” - 腾讯云开发者社区

python、python-3.x、text、nltk、text-classification

我正在编写一些代码来标识PDF文档中的命名实体(NER)。我当前的代码分三个步骤工作。首先，它将PDF转换为文本字符串。其次，它将文本标记化。第三，对文本进行分类。现在，此代码对文本字符串中的每个标记(单词)进行分类。但是，我希望程序只对文本的某一部分进行分类。该部分始终位于单词"Body"和"Cl

浏览 12提问于2020-01-28得票数 0

1回答

转换PDF文件为XML文件，最好使用ITextSharp

c#、xml、pdf、itext

我有一个PDF文档，我需要从中读取数据。我发现，当我将上述PDF转换为XML文档时，可以从其中读取方便的标记，因此我需要一种方法来在代码中将我的文件转换为xml，这样我就可以使用映射文件将数据内容读取到数据库中。

浏览 2提问于2012-06-22得票数 3

1回答

pdf的x，y窗口内的OCR

pdf、ocr

我需要找到一个开放源码或基于linux的实用程序，它允许我在设置文件中设置x，y坐标。然后我想按顺序打开pdf，在文件中查找名字、姓氏和账号，并用由姓氏和文件号组成的文件名保存文件。

浏览 0提问于2011-01-08得票数 3

1回答

字符串拆分，用于检测PDF中的文本页更改

vb.net、pdf、split、itext

我试图分析一个PDF文档与itextsharp library...the的最终意图是阅读所有的文本，并分割它的每一行。拆分函数工作良好，我获得了一个字符串数组，<e

浏览 12提问于2021-09-16得票数 0

回答已采纳

1回答

如何在iTextSharp中识别PDF的一部分？

c#、loops、pdf、itextsharp、sections

我想知道是否有可能通过部分(页眉、正文、页脚等)检索PDF中的文本。我可以获取文本及其特定坐标，但我不想为这些部分定义自己的x和y坐标。我想知道是否有一种更有活力的方式来解决这个问题。也许在XrefObjects中循环。任何帮助都将不胜感激。在进阶时谢谢。

浏览 0提问于2016-03-02得票数 0

2回答

在C#中从PDF中提取格式信息

c#、.net

我需要制定一个程序，可以分析和理解在某些PDF中的特定结构和格式的内容的上下文和语义关系。下面是一个示例，其中显示了这种PDF的一段内容：因此，我需要一个PDF阅读库，它不仅可以提取文本，还可以提取PDF中的流星数据，如字体大小、字体样式(粗体、塔利)、背景色、表及其子元素、表格单元格背景颜色是否有任何免费的</

浏览 11提问于2016-11-18得票数 4

回答已采纳

1回答

在字符串中查找第一次约会

php、date-parsing

我有一个pdf文件，我分析了使用“pdf解析器”插件。从页面文本中，我需要在特定字符串(搜索字符串)之后找到第一次约会。我可以找到搜索字符串和我使用的日期提取。date_parse($string) 它提取日期，月份的罚款，但我认为由于大字符串(有更多的日期，数字)，它没有填充正确的年份，它提供了一个随机数，甚至没有出现在文档中

浏览 2提问于2018-01-04得票数 1

回答已采纳

1回答

如何使用VB.NET从带有标识-H字体的PDF文件中提取文本

vb.net、pdf

我有PDF文件。我的问题是如何使用VB.Net从pdf文件中读取标识-H文本。下面是我的代码： Dim sbPDFText As New Stri

浏览 3提问于2014-08-15得票数 1

回答已采纳

2回答

Java文本提取

java、pdfbox

我一直使用pdfbox从PDF中提取文本信息。我成功地分析了文本的所有属性，如字号、字体、大小、位置等。例句：“你好吗？”被解析为“you”和"u“(两个单独的字符串)

浏览 2提问于2010-07-28得票数 5

3回答

如何在pdf.js中从用户选择中检索文本？

javascript、pdf、pdf.js

这个问题是特定于pdf.js，一个基于javascript的pdf渲染器。我正在构建一个自定义版本，在这里我需要提取我在pdf中选择的文本。在其他文章中，您可以从一个页面或整个pdf文档(如one )中获取文本，但我希望获取用户选择的特定文本，并警告它或在控制台中打印它。

浏览 11提问于2018-02-23得票数 8

回答已采纳

1回答

当我尝试读取PDF时，PDFBox读取空字符串

c#、.net、parsing、pdf、pdfbox

我正在尝试使用pdf box从文件中读取文本，以便在文件系统中对其进行排序。我正在使用C#。我可以从互联网上读取示例pdf，但出于某种原因，我试图读取的pdf只返回一个没有实际字符的字符串。string[] args) string fileName = @"C:\Users\Development\Desktop\purchaseOrder.pdfdoc.clo

浏览 5提问于2018-08-09得票数 0

1回答

PDF批注突出显示和搜索文本

ios、objective-c、iphone

如何在ios中处理PDF文档？如何才能做到这一点？

浏览 2提问于2015-08-25得票数 0

1回答

Elasticsearch标准令牌器不处理"a.b“条目？

elasticsearch、tokenize

我使用的是ElasticSearch 0.90.7，所以我认为的答案不适用(不过我看到的是类似的)。}}'curl -XPUT "http://localhost:9200/testindex/article/1" -d'{}' curl -XPUT "http://l

浏览 4提问于2014-01-17得票数 2

回答已采纳

1回答

iTextSharp提取每个字符和getRectangle

itextsharp、pdf-extraction

我想分析一个完整的PDF字符的字符，并能够得到ASCII值，字体和该字符的矩形上的PDF文档，我可以使用以后保存为一个位图。我尝试使用PdfTextExtractor.GetTextFromPage，但这使PDF中的整个文本成为字符串。

浏览 2提问于2016-01-21得票数 0

回答已采纳

2回答

可选择文本的PDF查看器

pdf

在Ubuntu源代码中有一个很好的PDF查看器可以让我选择和复制文本吗？Okular是一个很好的应用程序，因为它拥有比Document更多的工具。我看到repos有Okular，但我想避免安装它附带的所有KDE依赖项。然而，我真正需要做的就是从pdf中选择和复制文本。有什么能让我这么做？

浏览 0提问于2015-12-15得票数 7

回答已采纳

1回答

PDF Store文本如何

pdf、pdf-generation、text-extraction

我试图更好地理解PDF是如何存储文本的。一般来说，当从MS Word (在我的例子中是SQL Server Reporting Services)之类的应用程序创建PDF时，PDF如何存储文本？我希望在这种特定场景中，生成的文档不会像从图像创建原始PDF文档那样经过OCR处理。为了获得更多的细节，我正在尝试了解PDF的

浏览 2提问于2013-03-26得票数 9

回答已采纳

3回答

有没有用objective-c或c编写的PDF解析器？

iphone、objective-c、c、pdf

我正在写一个pdf阅读器iPhone应用程序。我现在要做的是在pdf文件中搜索文本，并突出显示搜索到的文本。因此，我需要一个能够检测文本在什么位置的库。此外，我希望这个库能够处理unicode和中文字符。我试过xpdf，但它是用c++写的</em

浏览 1提问于2011-01-03得票数 4

1回答

我们应该使用什么python库来从PDF中提取包含复杂标题的表？

python、pdf、ocr、data-extraction、tabula

我尝试使用很多库来从PDF中提取表格，比如: camelot，tabula，PDFPlumber，PDFTabExtract…但是他们不会给出一个好的结果。主要的问题是头部是复杂的格式，而我有不同格式的头部。使用camelot，我不能有一个适用于我PDF中所有页面的脚本。使用Tabula时，当表格有一个旋转的文本标题时，我得到了一个令人困惑的数据帧。使用PDFPlumber时，我遇到了流表的问题(它只适用于晶格表)

浏览 13提问于2019-06-10得票数 0

8回答

PDF中的Copy+pasting文本导致垃圾

pdf、pdfbox

它从PDF文件中提取纯文本。有几个PDF文件无法正确提取。提取器(PDFBox库)返回如下字符串：我是检查每个文件，使这个提取的问题，所有这些文件的文本也不能复制粘贴从PDF (Adobe和FoxIt阅读器)。在这个阅读器

浏览 5提问于2010-05-28得票数 15

1回答

在注释的PDF文件中搜索文本字符串

command-line、18.04、software-recommendation、pdf、pdfgrep

需要搜索文本字符串不仅在PDF文件正文中，而且在注释中，我已经在Ubuntu18.04LTS上安装了Acrobat。它的搜索功能正常工作，但我想知道是否还有其他方法来完成这个任务(pdfgrep?)

浏览 0提问于2018-12-18得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云