使用Javascript序列从PDF中提取特定值到TXT_使用Javascript从pdf中提取文本的特定部分？_如何使用javascript从PDF中选择和提取特定文本？ - 腾讯云开发者社区

javascript、ocr、acrobat、pdf.js

我找不到一个合适的javascript解决方案来在Adobe Acrobat中创建一个序列，它将根据某些标准将文本提取到.txt文件中。我有超过500个pdf的图像和财务数据。我需要从这些页面中提取特定的值。包括以下值:支票号、支票日期、支票金额。PDF，但它不起作用。在我的PDF中，我有以下数据： ProcDate: 2019/01

浏览 22提问于2019-09-26得票数 0

1回答

使用Python仅从PDF中提取特定文本

python、dataframe、pdfminer、pypdf

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。试图解决这个问题，但不能只提取特定的文本值。需要提取发票ID，发行日期，主题，金额从整个PDF文

浏览 8提问于2020-10-04得票数 1

回答已采纳

1回答

使用python从PDF文件中提取相关文本

python、pandas、dataframe、tesseract

使用python只从整个PDF文件中提取相关文本，并将输出数据存储到Excel的特定列中。我试图解决它，但不能提取特定的文本值。下面是需要提取的示例输出的屏幕截图：我想提取excel.不同列中的发票号、订单号和总价值。到目前为止，我已经尝试过：pdf = pdfplumber.open('

浏览 8提问于2020-09-30得票数 0

2回答

如何使用python从PDF文件中只提取特定的文本

python、dataframe、tesseract、python-tesseract

如何使用python从PDF文件中提取一些特定的文本，并将输出数据存储到Excel的特定列中。这里是样例输入PDF文件(File.pdf) 我们需要从整个文件中提取发票号、到期日和总到期的值。到目前为止我使用的脚本： from pdfminer.conve

浏览 2提问于2020-09-30得票数 0

1回答

如何从提交的PDF表格中提取徒手书写？

javascript、pdf

我需要从提交的PDF表单中提取徒手书写，或者以Base64字符串的形式提交(在这种情况下，表单将以XML的形式提交)。我需要使用PDF JavaScript访问写作，序列化它，并将它与其他字段值一起提交。如何访问写入-PDF格式的JavaScript ()？谢谢

浏览 3提问于2017-02-22得票数 0

回答已采纳

1回答

如何使用PYPDF2从pdf中提取表值？

python、text、pypdf2

我正在尝试搜索pdf文件，以查找与"Unit of Issue“或UI相关联的值。我有很多可能不同格式的pdf文件要看。下面是一个示例，下面是带有表格的页面顶部的屏幕截图：我想提取在第6页。有什么方法可以做到这一点吗？这是我用来打开文件的代码 pdfFileObj = open('test.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader

浏览 0提问于2019-09-05得票数 1

1回答

从Tika提取文本内容，而不指定文件头

apache-tika

有没有一种方法可以在没有显式定义头的情况下从Tika服务器的文件中提取内容？例如，对于一个名为"file.pdf“的特定文件，如果我这样做的话我在"file.txt

浏览 7提问于2015-06-02得票数 2

回答已采纳

2回答

使用重定向时，UnicodeEncodeError在python3中

python、decode、encode、io-redirection

我要做的是:从pdf文件中提取文本信息并将其重定向到txt文件。我所做的：我得到的是： \u2022是重点，•。pdf2txt</em

浏览 2提问于2020-01-17得票数 3

1回答

根据标题抓取PDF表格

r、tabulizer

我正在尝试从31个pdf中分别提取一个表。这些表的标题都以相同的方式开头，但结尾因地区而异。我使用tabulizer根据我需要的特定文本行手动抓取第一个表，但考虑到类似的命名约定，我希望自动执行此过程。 txt2 <- pdf_text(PATH2) %>%`

浏览 2提问于2020-08-06得票数 1

1回答

根据lat/lon从.txt中提取时间序列

r、coordinates

以前曾回答过类似的问题，但我无法找到解决我的具体问题的办法：NCOLS 839XLLCORNER 112.025CELLSIZE 0.05 NODATA_VALUE -999该文件没有lon列和lat列(这将是提取数据的简单方法)。但是它有一个标题，比如: NCOLS

浏览 1提问于2016-05-11得票数 0

回答已采纳

1回答

Azure机器学习无法将PDF作为web服务的输入

azure、azure-machine-learning-studio

这些文档是PDF格式的。当我将这个实验部署为web服务时，它不允许我输入PDF。有没有一种方法可以将PDF输入到web服务？

浏览 0提问于2017-02-06得票数 1

1回答

提取pdf内容在python中不起作用。

python、python-3.x、pdf、unicode、ocr

我正在使用python请求库从等urls中收集数百万可公开使用的pdfs。然后我试着提取pdf中的表格，然后用熊猫把这些摘录的文本写进csv。到目前为止我使用的代码-pdf_txt = '' with io.BytesIO(response.content因此，很难从该pdf</e

浏览 6提问于2022-07-22得票数 -1

1回答

文本的PDFMiner条件提取

python、python-2.7、python-3.x

因此，我刚刚玩了PDFMiner，现在可以从PDF中提取文本，并将其扔到html或文本文件中。pdf2txt.py -o outputfile.txt -t txt inputfile.pdfwith open('output.txt', 'r') as searchfile: for l

浏览 2提问于2016-08-07得票数 0

1回答

在uipath中不工作的锚基用于pdf提取

ocr、uipath、rpa、uipath-studio、pdf-extraction

我希望从PDF发票中提取特定的文本和数字，其中之一是总金额。事情是，的总金额的立场不断变化从pdf到pdf的是根据有多少个项目。如果有很多项目，那么总金额字段将在pdf中较低，如果项目的数量较少，那么总金额将更高在pdf中。参考图见下图。发票中只有两个项目，所以总字段位于较高的位置。但我也有发票，在发票中有15项，总字段在页面中较低或在下一页。

浏览 18提问于2022-03-02得票数 0

回答已采纳

1回答

使用Python，如何从输出txt文件中提取PDF* +颜色字符串和数字中的文本和图像*

python、image、pdf、extract、txt

使用Python，我想 pip inst

浏览 8提问于2022-07-27得票数 1

1回答

为什么我得到的是"ق“而不是"fi"？

python、python-2.7、pdf、character-encoding

我从文档中提取了文本，并注意到该文本包含一些未知字符，例如：很明显，ق不是真正的字符，应该用"fi“代替--我可以使用python将这些字符替换为正确的英文字符吗？import zlib file = open ("PDF_File.pdf&quo

浏览 0提问于2015-01-12得票数 2

1回答

如何登录wkhtmltopdf转换需要登录的网站页面

windows、powershell、command-prompt、wkhtmltopdf

我希望你能在这个问题上提供帮助，我正在尝试使用wkhtmltopdf工具，它在常规网站上运行良好，但我尝试使用edx，它出现了错误，我怀疑问题是它需要使用电子邮件和密码登录，我确实有电子邮件和密码，但wkhtmltopdf我尝试先在浏览器中登录并使用wkhtmltopdf工具我尝试首先使用edx-dl工具登录并使用wkhtmltopdf谢谢

浏览 175提问于2019-07-19得票数 0

1回答

用python从pdf中提取特定文本

python

是否可以使用python从pdf中提取特定的文本。测试用例:我有一个超过10页的PDF文件，我需要提取特定的文本和与它们相关联的值。示例：用户:value用户id:value。需要提取这些值。

浏览 3提问于2020-05-10得票数 0

1回答

如何将文件的特定列的值粘贴到另一个命令中？

awk、paste、fasta、protein-database

我想使用fastacmd来提取fasta序列的特定区域。为此，我需要将fasta文件-d的名称、序列-s的名称以及提取-L的序列的位置。例如：但问题是，我有数百个文件(每个文件都有一个文件名相同的序列)，要提取的每个序列的位置信息都在一个蛋白质数据库(info_sequences.txt)中

浏览 0提问于2018-01-29得票数 1

回答已采纳

1回答

使用PDFminer : Python从发票PDF中提取特定数据值

python、dataframe、pdf、data-extraction、pdfminer

如果只从具有不同结构的多个PDF中提取特定数据， text21 = '' text

浏览 0提问于2021-01-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云