删除从pdf文件中提取的文本中的空行

文章/答案/技术大牛

发布

1回答

批量重命名pdf文件，其名称来自linux中其内容的特定行。

linux、bash、pdf、rename、batch-rename

我有多个要重命名的pdf文件。新的名称应该从pdf的文件内容的特定(比如说第5行)中取下来。例如，如果文件的第5行有内容some string <--这个字符串应该是文件名。其他文件也是一样的。每个文件都应该用内容的第5行重命名。我在终端机上试过这个 for pdf i

浏览 2提问于2017-10-13得票数 4

回答已采纳

1回答

python-3.x

我正在使用pdfminer将PDF文件转换为文本文件，然后尝试提取内容。但是当我这样做的时候，文本文件中会有一些空行。我需要删除这些空行。谁能告诉我怎样才能做到这一点。转换后的文本文件：

浏览 23提问于2019-07-24得票数 0

1回答

iText:从现有的PDF导入样式的文本和信息

java、html、pdf、itext

我正在使用iText生成PDF，它工作得很好。但我需要一种方法，从一个现有的PDF导入html样式的信息在某个时间点。我知道我可以使用XMLWorker类直接从我自己文档中的html生成文本。因此，使用XSLT从html生成PDF。此PDF的内容应复制到我的文件。书中描述了两种方法("iText in Action")。一个解析PDF<

浏览 2提问于2015-08-13得票数 0

回答已采纳

2回答

有没有办法在使用Ghostscript将PDF转换为TIFF时忽略水印

pdf、tiff、ghostscript

我使用的是gs9.10，并使用以下命令行成功地将我的PDF转换为TIFF： -dBATCH-sCompression=lzw -dFirstPage=1 -dLastPage=5 \ TEST.PDF但是，我不希望TIFF在PDF的每一页上都有水印。在写入TIFF时，是否有忽略水印层

浏览 1提问于2014-04-30得票数 1

2回答

如何使用python从变量中编写文本文件？

python、python-3.x、file、variables、text

我正在研究NLP项目，并使用PyPDF2从pdf中提取文本。此外，我删除了空白行。现在，我的输出将显示在控制台上，但我希望使用存储在变量( file )中的相同数据填充文本文件。下面是从文本文件中删除空行的代码。 for line in open('resume1.txt'

浏览 4提问于2020-12-27得票数 0

回答已采纳

5回答

一个Java库，用于从保留空格和行的PDF文档中提取文本

java、pdf、text

使用它，我可以将PDF文档的文本提取为字符串，并且还可以保留原始文档中的所有空行和空格(就像它们在pdf文档中出现的那样)？我现在使用的是PDFBox-0.7.3库中的PDFTextStripper类，我还使用了getText()方法，该方法确实将文档作为字符串返回，但是它也删除了所有空行、制表符和文本之间的空

浏览 3提问于2009-10-22得票数 2

1回答

如何从文件中提取服务名称并将其保存在文件中的干净版本中？

command-line

我试图找出如何从/etc/services中提取出所有服务名称，并将它们发送到文本文件中，按字母顺序排序，删除任何重复项，去掉任何空行和不必要的空格，并进行行计数。

浏览 0提问于2018-03-10得票数 0

2回答

如何在一个庞大的PDF中删除页面顶部不包含特定单词的页面？希望在C#

c#、pdf

所以我有这个2300+ pdf PDF，我需要处理。第一步必须删除我不需要的页面。例如，1到24页不包含我需要的任何信息，然后25到28页我确实需要，29到54页我不需要，等等。每一页我需要的页数和我不需要的页数随每一节而不同。但我需要保留的每一页上都有"5天M.A.R.“在页面的顶部，所以任何不包含该内容的页面都需要删除。理想情况下，如果有一种方法可以创建一个C# (或类似的)应用程序，那么我可以触发它自

浏览 6提问于2014-11-11得票数 0

1回答

PDFtotext -命令行上显示为急性的空格

python、character-encoding、removing-whitespace、pdftotext

我使用python从使用pdftotext的pdf创建的文本文件中提取文本。它是2000个文件之一，在这个特定的文件中，一行关键字在EU中结束。对肉眼而言，行的其余部分是空白的，下面的行也是空白的。程序通常会删除行尾的任何尾随空格，并忽略随后的空行<

浏览 1提问于2011-04-16得票数 2

1回答

使用pdfbox从PDF文件中提取文本

java、pdf、jsoup、pdfbox

我试图使用pdfbox从PDF文件中提取文本，但不是作为命令行工具，而是在我的Java应用程序中。我正在下载pdf使用jsoup。= new PDDocument();PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(pdf

浏览 1提问于2013-01-16得票数 4

1回答

如何从头开始制作python中的pdf解析器

python、pdf

我希望从零开始制作PDF解析器，使用Python (或)任何导致调整现有库/算法的方法。

浏览 1提问于2016-06-12得票数 0

1回答

将PDFpage下载为字符串

android、eclipse、string、pdf、download

在做了一些基本的教程之后，我开始在eclipse中制作我的第一个真正的android应用程序。我想让这个应用程序检查EditText中的文本是否与PDFpage上的文本匹配(这个： (它包含我学校的课程表更改))。我已经了解了如何让应用程序检查EditText中的文本是否与字符串匹配(使用方法PDFpage ())，所以现在我唯一需要做的就是将该

浏览 4提问于2012-07-22得票数 0

回答已采纳

6回答

从pdf和word文件中提取文本

c#、pdf、ms-word

如何在C#中从pdf或word文件中提取文本(删除粗体、图像和其他富文本格式化媒体)？

浏览 3提问于2010-09-07得票数 8

回答已采纳

1回答

转换/编译从数据库中提取的多个.pdf文件为一个.pdf/文本文件/html的程序

language-agnostic、text、automation

我的朋友在当地政府工作，他说他的办公室浪费了很多时间来执行标题中描述的过程，即: 1。在数据库中查询姓名。所讨论的数据库更像是ebscohost而不是mysql。2.从一系列.pdfs中单独移除文本。3.将这些结果粘贴/输出到单个文件中。我有限的背景是php，javascript，html，等等，我只是不认为他们有能力读取这样的文件类型，如果我错了，请纠正我。所以我猜我

浏览 0提问于2011-11-29得票数 0

回答已采纳

1回答

使用bash读取pdf内容

bash

我有几本电子书，它们并不总是以书名命名的。是否可以使用bash命令读取pdf的第一页(并执行一个琐碎的grep等)并相应地重命名文件？-a

浏览 2提问于2014-07-08得票数 1

回答已采纳

1回答

如何修复‘短语’不能是空字符串。参数名称:短语？

每当我开始调试时，gramList.Add(GrammarFile)上就会出现此错误； { gramList.Add(grammarFile); {

浏览 0提问于2019-05-12得票数 1

1回答

如何避免PyPDF中裁剪部分的文本？

python、pypdf2

我对python非常陌生，我正在做一个ML项目，从PDF(已发布的年度报告)中提取披露信息。PyPDF提取了我的项目所需的信息，但它也包含了我想要删除的文本中的页脚文本。我浏览了堆栈溢出，并找到了一个解决方案，成功地通过PyPDF裁剪出页脚部分，并将文件保存为一个新的pdf。但是，当我在原始代码中</e

浏览 5提问于2022-10-14得票数 1

回答已采纳

1回答

如何将编码文本转换为正文(不使用编码创建的特殊字符)

python、encoding、utf-8、nlp

我将从一系列PDF文件中提取文本来进行主题建模。从PdF文件中提取文本后，我将把每个PDF文件的文本保存到一个.txt文件或.doc文件中。为此，我遇到了一个错误，即我应该添加.encode('utf-8')来将提取的文本保存到.txt<

浏览 21提问于2021-06-30得票数 1

回答已采纳

1回答

波斯文件的PDFBOX

java、pdf、pdfbox、arabic、persian

我想使用pdfBox从波斯语pdf文件中提取测试，但是它返回所有波斯字符的"?" (它正确地返回同一文档中的拉丁单词)。我怎么才能修好它？有什么建议吗？

浏览 3提问于2018-08-29得票数 3

点击加载更多

批量重命名pdf文件，其名称来自linux中其内容的特定行。