Python同时处理来自多个位置的多个PDF文件

可以通过以下步骤实现：

导入所需的库：

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

定义一个函数来合并多个PDF文件：

def merge_pdfs(input_paths, output_path):
    pdf_writer = PdfFileWriter()

    for path in input_paths:
        with open(path, 'rb') as pdf_file:
            pdf_reader = PdfFileReader(pdf_file)
            for page_num in range(pdf_reader.getNumPages()):
                page = pdf_reader.getPage(page_num)
                pdf_writer.addPage(page)

    with open(output_path, 'wb') as output_file:
        pdf_writer.write(output_file)

定义一个函数来拆分PDF文件：

def split_pdf(input_path, output_dir):
    with open(input_path, 'rb') as pdf_file:
        pdf_reader = PdfFileReader(pdf_file)
        for page_num in range(pdf_reader.getNumPages()):
            pdf_writer = PdfFileWriter()
            page = pdf_reader.getPage(page_num)
            pdf_writer.addPage(page)

            output_path = os.path.join(output_dir, f'page_{page_num + 1}.pdf')
            with open(output_path, 'wb') as output_file:
                pdf_writer.write(output_file)

定义一个函数来提取PDF文件中的文本：

def extract_text(input_path):
    with open(input_path, 'rb') as pdf_file:
        pdf_reader = PdfFileReader(pdf_file)
        text = ''
        for page_num in range(pdf_reader.getNumPages()):
            page = pdf_reader.getPage(page_num)
            text += page.extract_text()

    return text

定义一个函数来加密PDF文件：

def encrypt_pdf(input_path, output_path, password):
    with open(input_path, 'rb') as pdf_file:
        pdf_reader = PdfFileReader(pdf_file)
        pdf_writer = PdfFileWriter()

        for page_num in range(pdf_reader.getNumPages()):
            page = pdf_reader.getPage(page_num)
            pdf_writer.addPage(page)

        pdf_writer.encrypt(password)

        with open(output_path, 'wb') as output_file:
            pdf_writer.write(output_file)

定义一个函数来解密PDF文件：

def decrypt_pdf(input_path, output_path, password):
    with open(input_path, 'rb') as pdf_file:
        pdf_reader = PdfFileReader(pdf_file)
        if pdf_reader.isEncrypted:
            pdf_reader.decrypt(password)

        pdf_writer = PdfFileWriter()

        for page_num in range(pdf_reader.getNumPages()):
            page = pdf_reader.getPage(page_num)
            pdf_writer.addPage(page)

        with open(output_path, 'wb') as output_file:
            pdf_writer.write(output_file)

调用相应的函数来处理PDF文件：

# 合并多个PDF文件
input_paths = ['path/to/file1.pdf', 'path/to/file2.pdf', 'path/to/file3.pdf']
output_path = 'path/to/merged.pdf'
merge_pdfs(input_paths, output_path)

# 拆分PDF文件
input_path = 'path/to/file.pdf'
output_dir = 'path/to/output'
split_pdf(input_path, output_dir)

# 提取PDF文件中的文本
input_path = 'path/to/file.pdf'
text = extract_text(input_path)
print(text)

# 加密PDF文件
input_path = 'path/to/file.pdf'
output_path = 'path/to/encrypted.pdf'
password = 'password'
encrypt_pdf(input_path, output_path, password)

# 解密PDF文件
input_path = 'path/to/encrypted.pdf'
output_path = 'path/to/decrypted.pdf'
password = 'password'
decrypt_pdf(input_path, output_path, password)

以上是使用Python同时处理来自多个位置的多个PDF文件的方法。对于更复杂的PDF操作，可以使用其他库或工具来实现，如PDFMiner、ReportLab等。腾讯云提供了多种与PDF相关的产品和服务，具体可以参考腾讯云文档中的相关内容。

PHP Curl下载PDF文件

使用PHP下载类似50+ PDF文件的正确方法是什么？下面是我使用的代码： $fp = fopen("test.pdf", 'w'); $ch = curl_init(); curl_setopt($ch,CURLOPT_PROXY,"http://test:123"); curl_setopt($ch,CURLOPT_PROXYPORT,123); curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 0); curl_setopt ($ch, CURLOPT_TIMEO

浏览 1提问于2013-02-19得票数 1

3回答

Tesseract批处理将图像转换为可搜索的PDF和多个相应的文本文件

、、、

我使用tesseract批量将图像列表转换为可搜索的PDF以及包含OCRd文本的TXT文件。 tesseract infile outfile -l eng myconfig infile包含要处理的图像路径列表。 myconfig包含tesseract首选项以指定输出类型(tessedit_create_text 1和tessedit_create_pdf 1) 这给我留下了outfile.pdf和outfile.txt，后者包含用于分隔图像之间文本的页面分隔符。然而，我真正想要做的是在每个映像的基础上输出多个TXT文件，使用相同的图像名称。比如Image1.jpg.txt

浏览 1提问于2019-08-01得票数 0

回答已采纳

3回答

解析python中的非结构化文本

、、、

我对python很陌生，我正在尝试读取一个PDF文件来提取ID No.。到目前为止，我已经成功地使用pdfplumber从PDF文件中提取文本。下面是代码块： import pdfplumber with pdfplumber.open('ABC.pdf') as pdf_file: firstpage = pdf_file.pages[0] raw_text = firstpage.extract_text() print (raw_text) 以下是文本输出： Welcome to ABC 01 January, 1991 ID No. : 101

浏览 8提问于2020-08-20得票数 1

回答已采纳

1回答

从Visual代码(macOS)中直接以浏览方式打开PDF文件

、、、、

我试图用Visual代码中的撇除打开我的PDF文档。我希望View LaTeX PDF file命令在浏览我的PDF文档中打开并自动更新它。不幸的是，当我点击视图LaTeX PDF文件按钮时，它不会打开浏览。我被迫：打开浏览我自己；然后打开PDF文件；当我这么做的时候，一切都很好。每次保存LaTeX文件时，该文件都会正确更新。因此，我希望能够直接从Visual代码打开PDF文档。就像我在视频开始时所做的那样。请注意，我已经阅读了这些问题，和。我的配置如下： macOS (12.1) 代码(1.63.0) LaTeX工作室插件(v8.

浏览 14提问于2021-12-21得票数 2

1回答

tabula要求我在已安装最新版本的情况下更新java

、、、

我已经对我的代码进行了几次测试，每次都运行得很好，但现在由于某种原因，它引发了一个奇怪的错误，我很快就会记下它。我正在使用tabula来读取一些pdf文件，下面是出现错误的代码： for it_page,page in enumerate(pages_id, start=0): print("page : ", page) tables = tabula.read_pdf(hermes_pdf_dir + "/" + pdf_name, pages = page) for i,table in enumerate(ta

浏览 39提问于2021-03-05得票数 0

1回答

找不到源-pdf？

、、、、

我想用格拉姆普df将一些pdf文件从图片转换成可读的pdf- 尝试使用以下简单代码：( invoice.pdf当然可以在与python相同的路径上使用，并且应该生成output.pdf ) import ocrmypdf if __name__ == '__main__': fn = r"C:\Users\Polzi\Documents\DEV\Python-Diverses\PDFOCR\invoice.pdf" ocrmypdf.ocr(fn, 'output.pdf', deskew=True) 但不幸的是，我收到了这样的错误消息：

浏览 0提问于2022-01-14得票数 1

回答已采纳

1回答

Python中的可重入子进程？

、

我有一个Python模块，它用subprocess模块卸载一些处理。该模块通过subprocess.communicate方法通过stdin和stdout上的管道读取和写入数据。其中一个子进程重新进入Python模块并生成另一个子进程。这会使应用程序死锁，因为父进程正在使用stdin和stdout文件描述符。有没有一种避免这种死锁而不必到处创建和清理临时文件的方法？下面是我更详细的场景:它是一个运行在FastCGI服务器中的web应用程序。当请求PDF文件时，生成一个子进程来启动第三方应用程序(wkhtmltopdf)来创建PDF。然后，这个应用程序开始通过我的FastCGI模块下载图像-

浏览 4提问于2011-12-15得票数 2

1回答

部署Python应用程序后出现应用程序引擎错误- BlockingIOError：[Errno 11]资源暂时不可用

、、、、

我在Python3.7上的标准环境上运行我的web应用程序，当我在本地测试它时，一切都很好。但是，在部署我的应用程序之后，当应用程序试图将文件保存到我指定的/tmp位置时，我会收到以下错误： BlockingIOError: [Errno 11] Resource temporarily unavailable 这是我如何指定保存路径以及文件名。 file_num = os.urandom(10).hex() handle, path = tempfile.mkstemp() ytdl_format_options = {'format': 'bestaudio/b

浏览 0提问于2019-02-28得票数 2

1回答

当多个容器在AWS批处理上并行运行时，带有Selenium和Chrome webdriver的Docker容器崩溃

、、、、

我们正在运行AWS批处理作业，它通过python 3.6启动Docker容器来运行Selenium和Chrome。当我们将其设置为每个服务器运行多个容器时，作业通常会启动，运行几分钟，然后使用chrome not reachable崩溃。 File "/home/seluser/.local/lib/python3.6/site-packages/selenium/webdriver/remote/webdriver.py", line 597, in find_element_by_css_selector return self.find_element(by=

浏览 1提问于2020-01-17得票数 0

4回答

使用太多的公开电话。如何关闭所有文件？

、

我在试着修改很多pdf文件。因为这个，我必须打开很多文件。我多次使用这种方法。因此，python为错误提供了太多打开的文件。我希望我的代码是grace.writer很多太相似了 readerbanner = PyPDF2.pdf.PdfFileReader(open('transafe.pdf', 'rb')) readertestpages = PyPDF2.pdf.PdfFileReader(open(os.path.join(Cache_path, cache_file_name), 'rb')) writeroutput.write(o

浏览 6提问于2015-06-11得票数 1

1回答

系统python版本活动而不是本地pyenv版本

、、、

如何检查激活虚拟环境后是否使用了正确的python版本？我尝试了哪个python3和哪个python，但这两个输出都指示系统python版本，而不是本地pyenv版本。它是否仍在使用我的本地版本，还是我的安装有问题？这是命令行的输出。 Documents/DataStuff/pdf_tools via v3.9.5 ❯ python --version zsh: command not found: python Documents/DataStuff/pdf_tools via v3.9.5 ❯ python3 --version Python 3.9.5 Documents/Da

浏览 1提问于2021-05-10得票数 0

回答已采纳

4回答

如何使用Amazon Textract处理PDF文件

、、、

我已经可以对JPEG文件使用textract了。我想在PDF文件中使用它。我的代码如下： import boto3 # Document documentName = "Path to document in JPEG" # Read document content with open(documentName, 'rb') as document: imageBytes = bytearray(document.read()) # Amazon Textract client textract = boto3.client('text

浏览 0提问于2019-11-26得票数 6

1回答

PHP while循环使用TCPDF输出多个单个PDF

、、、、

我想创建多个单页pdf的使用TCPDF库在一个php while循环，从一个MySQL表中拉出信息。我的代码发布在下面。它可以正确地处理一条记录，并输出一条pdf文件，但是会提前结束while循环，而另一条pdf文件永远不会输出。我很感谢你的见解。提前谢谢你。 require_once('tcpdf/tcpdf.php'); require_once('connection.php'); $sql = "SELECT * FROM tbl_names"; $result = mysql_query($sql, $conn);

浏览 3提问于2020-05-10得票数 0

1回答

有没有办法使本地硬盘文件夹与s3同步？

、、、

我试图将本地硬盘文件夹同步到s3桶，问题是本地文件夹与少数驱动程序分离，如C:\、D:\等等. 例如，S3桶中的文件包括“RD1”到“RD80”目录，以及本地文件C:\持有“RD1”到“RD1 12”，“D：”包含“RD12”到“RD20”等. 无论如何，要使用aws同步命令来满足我的需要？我编写了python脚本来主持这两个备份，但我更喜欢使用sync命令并永久控制同步。非常感谢，致以最诚挚的问候。

浏览 12提问于2022-08-01得票数 0

1回答

路径库relative_to远程共享边缘的案例？

、、

在pathlib中，远程共享路径(例如//server/file.ext)不会为远程共享根目录中的文件计算合理的相对路径。是否有一种方法来检查服务器路径是否相对于网络共享根目录中的文件是健壮的？下面的三个例子显示了我所期望的“正确”行为，然后是第四个似乎不正确的例子。这是正确的/预期的： >>> path_a = pathlib.Path('C:\\bar\myfile.pdf') >>> path_b = pathlib.Path('C:\\bar') >>> path_a.relative_to(

浏览 14提问于2022-02-28得票数 1

回答已采纳

2回答

处理大量的文件

、、、、

我目前正在从事一个研究项目，其中涉及索引大量文件(240 K)；它们主要是html、xml、doc、xls、zip、rar、pdf和文件大小从几KB到超过100 MB的文本。在提取了所有zip和rar文件之后，我最终得到了100万个文件。我使用Visual 2010、C#和.NET 4.0，支持TPL数据流和异步CTP V3。为了从这些文件中提取文本，我使用Apache (用ikvm转换)，并使用Lucene.net 2.9.4作为索引器。我希望使用新的TPL数据流库和异步编程。我有几个问题：如果我使用TPL，我会得到性能好处吗？这主要是一个I/O过程，据我所知，当您大量使用I/O

浏览 2提问于2012-05-05得票数 9

1回答

在python中给出没有找到错误的文件

、

我使用qpdf来解压缩pdf文件(加密，但没有密码)，因为pypdf2解密不起作用。它在命令行上工作，但使用python提供FileNotFoundError。 qpdf --decrypt --replace-input test.pdf # it's working; replacing test.pdf with the absolute path 但对于蟒蛇来说 inp_file = open(self.path, "rb") inp_pdf = PdfFileReader(inp_file) if inp_pdf.isEncrypted: try

浏览 6提问于2020-04-13得票数 0

回答已采纳

1回答

生成多页PDF而不重复每个页面上的模板？

、、

我正在开发一个应用程序，它生成用于打印的多页(有时是数百页或数千页) PDF文档。每个页面都包含一个通用模板，其中包含一些特定于页面的内容(请考虑:自动填写纸张表单的“名称”字段)。但是，问题是模板相当大(大约100 of /页)，并且在每个页面上复制它会产生非常大的PDF文件(目前，这个PDF是通过使用rsvg-convert将一个满是SVG文件的目录转换成一个PDF文件生成的)。是否可以通过引用静态模板来减少重复，以便每个PDF页面只包含自定义内容？理想情况下，我想知道如何使用Python或Ghostscript来完成这一任务，但是任何起点都会很感激。

浏览 4提问于2013-12-13得票数 2

回答已采纳

2回答

使用字节数组而不是文件目录的Ghostscript包装器

、

在用户上传文件后，我使用从PDF渲染图像，我想知道是否有可能将包装器配置为使用字节数组，而不是磁盘上的实际文件，因为这将节省我的额外行程并提高应用程序的性能。理想情况下，我希望传递PDF的字节数组，并让它返回一个字节数组。我看了包装器代码，但我不知道我到底会怎么做(如果可能的话)。那么这是可能的吗？如果是这样的话，我应该从哪里开始呢？谢谢。

浏览 0提问于2012-12-05得票数 1

回答已采纳

2回答

将PDF关联到业务流程BizTalk中

我需要使用BizTalk中的PDF文件名和值来关联PDF和XML文件。我如何将PDF文件读取到编排中？我得用XML来处理它..。这种关联的原因是，我必须同时拥有来自发送系统的PDF和XML，然后才能将它们以特定的顺序写入接收系统(在发送XML文件之前，必须先将文件传递给)。

浏览 1提问于2009-01-09得票数 1

回答已采纳

1回答

如何在WebWorker上使用React组件

、、、、

我正在创建一个PDF生成器使用的react软件包。将react-pdf组件转换为pdf的过程会阻塞主线程，所以我想在一个单独的工作线程上转换它们。我使用和工人加载程序来识别WebWorker文件。我很难想出一种将react组件导入Webworker并使用react提供的pdf(Component).toBlob()方法来转换它们的方法。pdf( component ).toBlob()将一个react组件作为输入并输出blob文件，这意味着工作人员必须能够以某种方式加载React组件。当不包含任何React组件时，WebWorker将按预期工作。我天真地尝试将React组件导入到WebWo

浏览 3提问于2019-11-04得票数 1

回答已采纳

1回答

从网页提取嵌入的pdf文档

、、

我正在尝试写一个Python程序，能够提取嵌入在网站中的PDF文件，例如，在PDF查看器中。然而，我还没有找到一种健壮的方法来实现这一点。有没有一种方法或最佳实践来识别基于MIME类型的PDF？

浏览 11提问于2018-01-08得票数 1

5回答

重二进制文件不应该存储在数据库中吗？

、

有人问我一个有趣的问题:数据库应该包含所有数据吗？还是重二进制文件应该存储在文件系统中？重二进制文件示例:视频或重pdf文件(+200 MB) 使用一个旧的aspx应用程序(1.1)，我试图打开一个200 of的pdf文件，该文件存储在Oracle 11g数据库中的blob中，内存刚刚用完。但是，相同的asp.net web应用程序在打开存储在服务器文件系统中的相同pdf文件时没有问题。这可能是，也许有一些适当的方式打开沉重的波包字段与asp.net。出于完整性的原因，我说所有的数据都应该存储在数据库中，但是我描述的案例告诉我，也许不是这样的。我曾经读过，如果您的web应用程序进入云，

浏览 0提问于2013-01-28得票数 2

1回答

Dockerfile中的Docker编译python文件不要创建pyc

、、、

我将编译我的python (.py)在Dockerfile中创建pyc文件，然后删除所有的*.py。我创建了一个类似tisone的Dockerfile： FROM python:3.6-alpine EXPOSE 8000 RUN apk update RUN apk add --no-cache make linux-headers libffi-dev jpeg-dev zlib-dev RUN apk add postgresql-dev gcc python3-dev musl-dev VOLUME /var/lib/cathstudio/data WORKDIR /var/lib

浏览 0提问于2019-10-29得票数 0

1回答

在Windows Server 2008上使用wkhtmltopdf和IIS从Django html视图间歇性地生成pdf挂起

、、

我使用以下代码从Django中的html页面返回带有wkhtmltopdf的pdf文件： currentSite = request.META['HTTP_HOST'] params = { 'idOrganisation': idOrganisation, 'idMunicipalite' : idMunicipalite, 'nomMunicipalite' : nomMunicipalite, 'idUe': idUe, 'dateEvenement': dateEvenem

浏览 7提问于2013-11-21得票数 0

1回答

Rails 7从二进制字符串下载PDF

、

在我的Rails 7应用程序到PDF创建中，我使用的是外部服务。要获得PDF，我必须发送一个get请求，并在响应中接收编码的字符串。现在，我想让您可以下载此文件，而不必将其保存在服务器上。如何做到这一点？所有搜索到的主题都有将近10岁的历史，是某种现代的方式(或者说是一种宝石)吗？我发现的所有东西实际上都归结为下面的代码： # service which I'm using to create generate pdf from string class PdfGenerator def initialize(binary_pdf) @binary_pdf = bina

浏览 0提问于2022-09-22得票数 0

回答已采纳

2回答

LibreOffice绘图:使Makro编辑文本字段

、、、

我想做一些代码，以编辑日期的pdf表格。(目标是一次性完成所有表单) PDF表单通常是不可编辑的，但是使用LibreOffice绘图可以轻松编辑它。问题在于LibreOffice绘图不可能记录宏，而且这种语言对我来说非常复杂。我想使用python之类的，但是我不知道如何开始。一种选择是让所有的东西都由鼠标和键盘命令控制，这对我来说不是问题。但我认为可以有更优雅的解决方案，直接与文件交互。有小费吗？更新:这是一个pdf文件的链接，只有相关的文本框直接从我想要编辑的PDF文件中复制：

浏览 12提问于2022-04-09得票数 1

2回答

使用多线程实现慢Ms互操作

、、、、

我有一个程序，创建两个pdf文件时，一个按钮被点击。它在WinForms中使用，文件创建如下；用户在程序中处理某些内容。点击按钮程序基于带有书签的模板创建一个word文件。写入书签及其表中。将其保存为pdf 关闭活动文档关闭单词应用程序关闭子窗体并切换到另一个窗体。 *用户看不到应用程序这个词它本身工作正常，但需要8秒才能完成这两个文件，所以我尝试使用多线程，这样用户就不必等待，可以处理其他事情，或者继续执行步骤1。但是，它会抛出各种错误；COM、RPC等等，甚至在数据库连接中也是如此，我认为原因在于，由于有两个独立的线程工作，并且使用

浏览 4提问于2020-05-29得票数 1

1回答

分发Python模块- Spark与进程池

、、、、

我制作了一个从PDF中提取手写文本的Python模块。提取有时会相当慢(每个文件20-30秒)。我有大约100,000个PDF(有些有很多页)，我想在所有这些文件上运行文本提取。本质上是这样的： fileNameList = ['file1.pdf','file2.pdf',...,'file100000.pdf'] for pdf in fileList: text = myModule.extractText(pdf) # Distribute this function # Do stuff with text 我们以前使

浏览 10提问于2018-01-08得票数 0

回答已采纳

1回答

检查/验证PDF文件是否符合PDF/A或PDF/UA等标准

、、、、

有各种PDF标准： PDF/A: PDF/A-1a、PDF/A-2a或PDF/A-3a PDF/UA 潜在更多我想使用Python来检查给定的PDF文件是否遵循其中的任何一个。我已经看到了veraPDF，它似乎可以满足我的需要，但是我在一个复杂的目录结构中有数千个PDF文件，我想获得其中一个子集的统计信息。因此，我想用Python来执行这个检查。

浏览 0提问于2020-08-19得票数 1

3回答

使用python打开(和维护)远程连接

、、、

我正在使用Python传输(通过scp)和数据库中的大量文件。我将文件传输到的其中一台服务器具有奇怪的ssh配置规则，以阻止来自单个位置的过多ssh请求。这样做的结果是，我的python脚本在传输了几个文件后挂起，该脚本目前正在循环文件并通过os.system进行复制。有没有一种方法可以让Python打开到服务器的ssh或其他连接，以便传输的每个文件不需要ssh登录实例？谢谢,

浏览 1提问于2011-10-14得票数 1

回答已采纳

1回答

如何从PDF::Table获得表高？

、

我想在Perl中创建一个pdf文件，其中包括表前后的表和文本。为此，我使用和模块。我的问题是我无法计算插入表的高度。所以我不知道从什么地方开始在桌子下面写课文。 use PDF::API2; use PDF::Table; my $pdf = PDF::API2->new(); $pdf->mediabox('A4'); my $page = $pdf->page(); my $font = $pdf->corefont('Helvetica'); my $fontsize = 12; my $x = 20/mm; # left an

浏览 1提问于2022-01-04得票数 2

回答已采纳

1回答

使用for循环来"read_pickle“和"to_pickle”许多数据文件

、

我使用Linux和。我有一个包含日期、('/home/jayaramdas/anaconda3/pdf/senate_bills')和sponsor_id (每个保荐人多个账单)的泡菜数据文件目录(位于：'/home/jayaramdas/anaconda3/pdf/sbcommittee_id_pdf')中，列有所有赞助商ids sbsponsor_id_pdf )。我需要进入目录‘/home/./ then _bills’，打开每个被腌制的文件，创建一个单独的文件，收集sbsponsor_id_pdf文件中每个sponsor_id的所有sponsor_id，

浏览 2提问于2016-03-06得票数 1

回答已采纳

3回答

在多个实例中运行Ghostscript错误

、

我有一个应用程序，可以同时将多个Postscript文件转换为PDF。要做到这一点，我叫ps2pdf input.ps output.pdf。有时，当我有许多需要转换的文件(假设>4)时，我只得到一个pdf，而其他的转换失败。问题是，失败的转换不会导致除0以外的ps2pdf的退出代码。我的Ghostscript版本是9.16 for Windows x64。我在bugzilla中找不到任何可以解释这种行为的bug。是否有更好的解决方案比检查output.pdf是否存在，如果不存在则重试？

浏览 4提问于2015-10-16得票数 0

回答已采纳

1回答

尝试在ontonotes上训练AllenNLP共参解析模型:从内存中提取数据自动化系统

、、

我试图在一个16 GPU的GPU上训练AllenNLP共同参考模型，使用这个配置文件：我使用以下脚本创建了培训、测试和开发文件：我几乎立刻就把CUDA从内存中拿出来了，所以我尝试将"spans_per_word“和"max_antecedents”改为更低的值。当spans_per_words设置为0.1而不是0.4时，我可以运行更长的时间，但不是一个完整的时代。16 Is的GPU不够吗？或者还有其他参数我可以尝试改变？ "/home/ubuntu/anaconda3/envs/allennlp/bin/allennlp"，跟踪(最近一次调用)：文件"

浏览 4提问于2021-04-16得票数 0

1回答

超时后从ServletContext中删除属性

、、

我正在实现一个由java rest services (jersey)支持的web应用程序。使用javascript，我在localhost中调用由用户必须安装的第三方应用程序创建的服务。该应用程序在同一个webapp中调用一个用于对PDF文件进行数字签名的服务，但该调用没有我的页面所具有的会话id，因此我无法访问会话属性。为了避免这一点，在调用第三方应用程序之前，我使用javascript在我的PDF应用程序中调用了一个服务，该服务在ServletContext中创建了一个属性，然后我从用于签署PDF文件的服务中访问该属性。如果调用成功，我可以很容易地删除该属性，但如果某个调用出错，该

浏览 0提问于2017-08-30得票数 0

2回答

使用批处理文件查找具有部分匹配的完整文件名，然后移动它们

、、、、

我需要一个批处理文件，它将找到一个文件夹中的所有文件与设置变量在那里的名称，然后移动他们到一个不同的文件夹。这必须在windows XP计算机上运行。示例：文件夹中包含以下文件 abc123abc.pdf efg123eft.pdf hig456hig.pdf 如果我们搜索包含"123“的文件名，那么它会将abc123abc.pdf和efg123eft.pdf都移动到一个设定的文件夹中。

浏览 1提问于2012-08-08得票数 1

1回答

Grails从pdf文件中查找/读取文本

、、

我们使用grails2.1.1，我们希望从上传的pdf文件中搜索联系人号码。我们已经做了这与文档文件，但现在我们想要搜索和提取联系从pdf文件以及。是否有任何方法搜索和提取pdf文件中的灰度文本。

浏览 1提问于2012-11-17得票数 0

1回答

使用ImageMagick裁剪pdf文件

、、

我有一个pdf文件(发票)，我需要分割成更小的图像为每个部分的发票。我试过了，但我只知道如何使用以下命令将其分成两部分或四部分： convert -density 200 -resize 100% -crop 2x1@ +repage INVOICE.pdf INVOICEOut.pdf 以下是我希望取得的成果：

浏览 4提问于2019-10-07得票数 0

回答已采纳

1回答

pdf转换python网页

、、、

总的来说，我对python和编程非常陌生，所以请原谅我的天真。我想把这个网页转换成pdf：我正在通过终端在我的Mac上使用pdfkit和wkhtmltopdf。它可以完成这项工作，但是生成的pdf是无用的，因为pdf最终看起来像。是否有任何方法/我可以添加任何设置，将其转换成某种形式的可读格式，如果每页有合理数量的问题？谢谢你的帮助！

浏览 3提问于2017-09-05得票数 0

回答已采纳

1回答

为什么文件对象在python中是它们自己的迭代器？

、、

我正在学习python，这个东西把我搞糊涂了。如果文件迭代器和文件对象是不同的，那不是更好吗?这样我们就可以在文件中支持多次迭代。那么为什么python文件对象是它们自己的迭代器呢？

浏览 0提问于2015-02-24得票数 1

1回答

删除包含`time.sleep()的脚本

、、

我在课堂上在电脑上做笔记，并通过dropbox上的公用文件夹分享这些笔记。当我在课堂上做笔记时，我会在生成PDF之前创建许多不必要的文件(我在LaTeX中做笔记)。我不想把我的dropbox空间和不必要的文件弄得乱七八糟，我宁愿只将PDF发布到dropbox。为了方便这一切，我在每个类(每周一次)之后设置了一个运行python脚本(下面)的cron作业。有时，在导出PDF之前，我会在注释中修复一些东西，因此python脚本中有一堆sleep，等待生成PDF。我今天不小心手动运行了那个脚本，需要帮助阻止它。 import os import subprocess from sys impor

浏览 2提问于2013-10-03得票数 0

回答已采纳

1回答

PDFBox PDFMergerUtility不稳定在JavaFX上的应用

、、

我的JavaFX应用程序从服务器下载PDF，如果PDF是横向的，则旋转到纵向，然后将所有PDF文件合并到一个PDF文件中打印出来。一切都进行得很好，除了程序会随机地输出合并的PDF或将其中一个PDF文件添加到PDFMergerUtility(我正在使用PDFBox 2.0.11并尝试了2.0.9 )。因为我的应用程序需要一个ProgressBar和TextArea来显示当前的操作或状态，所以我在控制器页面中使用了一个任务。当程序挂起时，它没有输入任何异常或打印任何消息，而是完全停止后台操作。我尝试过少量的文件(<50个文件)和大型文件测试(>1000)，但它们都有相同的结果，绝对

浏览 0提问于2018-07-06得票数 0

回答已采纳

2回答

从大量客户端接收文件的Java服务器

、、

我正在设计一个java服务器，需要能够保持与大量的客户端(可能是几千)的连接，并从每个这些客户端接收单个PDF文件。这些PDF将相对较短(最多10-15页)，但所有的转移将在很短的时间内发生。据我所知，套接字编程是可行的。哪种技术最适合用于服务器？到目前为止，java.nio似乎是最好的选择，可能是通过米娜或Netty。我是不是遗漏了什么？

浏览 1提问于2012-06-11得票数 0

1回答

Python TimedRotatingFileHandler -日志丢失

我在apache环境中运行我的python应用程序，并使用timedRotatingFileHandler进行日志记录。我有一个设置记录器的方式，它应该是轮换每天午夜。我的所有进程都写入到同一个记录器文件中。不知何故，记录器有时会丢失以记录信息。有时我看到记录器同时写入两个文件(旧文件和轮换文件)。我不能理解为什么会发生这种情况？TimedrotatingFileHandler不能在多进程环境中工作吗？如果不是，为什么会这样？请帮我理解一下..

浏览 1提问于2012-04-02得票数 6

1回答

从多个Asciidoc文件生成单个PDF

、、

我正在尝试将我现有的asciidoc文档转换成pdf。Asciidoctor-pdf看起来很简单，我可以将单个文件转换成pdf。 asciidoctor-pdf -a pdf-theme='./theme/styles.yml' -a pdf-fontsdir='GEM_FONTS_DIR, theme/fonts/' 01-intro.adoc 但我的文档分散在许多文件中。我想从所有这些文件创建一个单一的pdf。有人知道怎么做吗？其次，我不希望生成的pdf位于您的adoc文件旁边。我想指定一个目标路径。我会感谢你的每一个提示。谢谢并致以最良好的问候。塞巴

浏览 39提问于2020-10-20得票数 1

1回答

如何通过python在ms word中打开pdf文件

、、

我可以很容易地点击一个字文件，然后说打开字。Ms自动将pdf转换为docx，不需要格式化(我不需要格式化)。我想自动打开一批pdf文件，并将它们作为docx类型保存到另一个文件夹(最好通过python)。对如何做到这一点有什么建议吗？我尝试过像pypdf2这样的python库，但是它们没有获得文档的所有内容。我目前必须手动打开ms中的pdf文件，然后保存它，然后使用python打开并处理它。

浏览 4提问于2020-08-05得票数 0

回答已采纳

1回答

如何同时将文件转换为PDF？

、、

我有一个node.js web应用程序，我希望能够将许多文档(在同一时间)转换为PDF。此时，我使用带有队列的libreoffice (队列的目的是为了避免文件的无限转换--如果libreoffice无法在特定时间段内转换文件，那么我将终止该进程)。问题是，如果我有两个上传文件的用户，并且他们都上传了大文件，那么第二个用户必须等待第一个用户完成。有没有办法同时转换这些文件？我愿意用另一个PDF转换器取代libreoffice。提前谢谢你。

浏览 1提问于2015-10-26得票数 0

2回答

Dask仪表板是空的

、、、

我有几个python脚本，它们从不同的数据库运行不同的Dask任务，我使用Python多处理模块同时运行所有Python脚本。我与任务管理器检查了脚本是否并行运行，并且能够访问我的dask仪表板。然而，我的达斯克仪表盘没有显示任何东西。这是我的dask仪表盘的截图。这是我的Python代码片段示例(简化)： if __name__ == '__main__': # Setup Dask Distributed Client client = Client(n_workers=4, threads_per_worker=4) ""

浏览 7提问于2022-03-01得票数 0

回答已采纳

2回答

上传任意文件到具有正确内容类型的s3

、

我需要能够上传任何类型的文件，例如，pdf和jpeg。S3要求在上载时设置内容类型，否则将无法正确提供文件是否可以在onSelect回调或其他地方动态分配内容类型？ content-type在postData参数中设置为uploadify (在较早的uploadify版本中为scriptData)。现在，在选择一个文件之前，我没有办法设置它。选择文件后，我可以(基本上准确地)从文件扩展名确定内容类型。现在所有的文件都以application/octet-stream的形式提供，这使得它们变得非常无用。

浏览 1提问于2011-03-08得票数 0