文章/答案/技术大牛

发布

社区首页 >问答首页 >wget和PDFFileReader -无法读取格式错误的PDF文件

问wget和PDFFileReader -无法读取格式错误的PDF文件
EN

Stack Overflow用户

提问于 2021-01-21 02:37:19

回答 1查看 151关注 0票数 0

我正在尝试从希腊卫生部的每日报告中抓取新冠肺炎的数据，这些数据以PDF格式发布在网上。我使用wget下载它们，然后使用PyPDF2从它们抓取数据：

import wget
import PyPDF2

wget.download('https://eody.gov.gr/wp-content/uploads/2020/09/covid-gr-daily-report-23-09-2020.pdf')
reader = PyPDF2.PdfFileReader('covid-gr-daily-report-23-09-2020.pdf')

但它返回以下错误：

PyPDF2.utils.PdfReadError: Could not read malformed PDF file

保存在目录中的PDF也不会打开。

如何保存PDF，使其不会变形？

python

pdf

web-scraping

wget

pypdf2

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-21 03:02:39

您尝试下载的内容受Google reCAPTCHA保护。如果您查看响应文本，您应该会看到：

import requests

r = requests.get('https://eody.gov.gr/wp-content/uploads/2020/09/covid-gr-daily-report-23-09-2020.pdf')

print(r.text)

这就是回应。你得先克服我不是机器人保安的问题：

<html>
<head>
<META NAME="robots" CONTENT="noindex,nofollow">
<script src="/_Incapsula_Resource?SWJIYLWA=5074a744e2e3d891814e9a2dace20bd4,719d34d31c8e3a6e6fffd425f7e032f3">
</script>
<body>
</body></html>

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65815599

复制

相似问题

问wget和PDFFileReader -无法读取格式错误的PDF文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wget和PDFFileReader -无法读取格式错误的PDF文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问wget和PDFFileReader -无法读取格式错误的PDF文件
EN