web抓取，python，请求，下载pdf文件，身份验证_如何使用python请求库从web下载PDF文件_Python请求Cookie问题(Web抓取) - 腾讯云开发者社区

python-3.x、authentication、python-requests

我是新手，我正在尝试抓取一个网站。一些html文本可以被公开访问。但是我需要在网站上下载一些pdf文件。我也有登录详细信息。所以我尝试了这些方法。Member-Login.php',data = form) # check the pdflink is changed from 'signupdirect' t

浏览 8提问于2019-02-22得票数 1

回答已采纳

1回答

使用Scrapy下载PDF文件

python、session、cookies、scrapy

我正在使用一个Python web抓取框架Scrapy从一个网站抓取pdf文件。为什么会这样&你知道如何克服这个问题吗？

浏览 1提问于2011-11-13得票数 0

1回答

从Python的https://xxxx/ShowDocument?id=yyyy下载pdf

python、pdf、web-scraping

我刚开始使用web抓取，但非常熟悉Python。我正试图找到一种使用Python下载pdf (或类似于Python)的方法：我见过在线代码()，用于下载一个已知格式的文件，例如。我猜想这种格式是指向存储文件的网站上的文件结构的指针，但我不知道如何访问/下载这些文件。其他人见过这个，知道怎么处理吗？

浏览 1提问于2017-04-07得票数 0

回答已采纳

1回答

Python请求库的上限下载大小

python、python-2.7、python-requests

我正在使用Python的请求库抓取一大堆网页，但偶尔爬虫会偶然发现一个绝对巨大的页面，无论是PDF、视频还是其他巨大的文件。有没有一个好方法来限制它将下载的文件的最大大小？

浏览 0提问于2013-04-09得票数 0

回答已采纳

1回答

Python，Selenium，Firefox: Force PDF下载

python、selenium、firefox

在我的浏览器中，会打开pdf的一个新选项卡。在硒中，似乎什么都没有发生。 profile.set_preference("plugin.disable_full_page_plugin_for_types", "application/pdflink.click() pdfs = glob.glob(os.path.join(base_dir, 'scraper/*.<em

浏览 2提问于2020-09-06得票数 1

回答已采纳

1回答

瓶子如何返回二进制文件

python、nginx、uwsgi、bottle

我想让bottle python web服务来提供二进制文件，如pdf，图片和带身份验证的exe。那performance呢？bottle python能同时处理数十万次下载吗？我计划在nginx uwsgi中使用它。

浏览 3提问于2013-03-08得票数 5

回答已采纳

1回答

Selenium + python + Googledriver

python、selenium、selenium-chromedriver

我使用python和selenium进行web抓取，同时在无头模式下使用chrome驱动(没有ui)。问题是，我点击了一个href按钮，但该操作没有下载我想要的pdf文件。但问题是，它可能会下载，但我不知道在哪里。它什么都不做，没有错误，什么都没有。同样的操作在gui模式下也能完美地工作。有什么建议吗？提前谢谢你！

浏览 10提问于2019-02-27得票数 0

1回答

未显示我网站非使用者的pdf档案

php

我在我的主机上有一个目录，在这个目录中我保存我的PDF文件。我只希望我的成员访问这些PDF文件。但是，由于路径是已知的，我如何才能强迫非用户不下载pdfs。有没有办法解决这个问题。例如，如果路径是在浏览器中输入的，比如www.mysite.com/pdfs/sample.pdf，如果此人不是站点的成员，我想将他/她引导到注册页面。İ在php中有这样的方法吗？

浏览 2提问于2013-08-17得票数 0

回答已采纳

1回答

不可书签安全下载链接

asp.net、asp.net-mvc、web

我打算这样做：对有效的http post请求(ntlm身份验证令牌、有效http引用等)返回一个pdf文件(内容处理:附件；.pdf和mime类型: application/pdf)。链接和下载端点托管在两个不同的web<

浏览 2提问于2012-02-04得票数 2

回答已采纳

1回答

httphandler拦截IIS 6.0中的所有请求

c#、asp.net、httphandler

我已经编写了一个httphandler，通过URL从一个特定的文件夹拦截pdf文件请求，并将用户重定向到登录页面。如果用户经过身份验证，则可以下载该文件。我的web.config有下面的拦截条目 <add verb="*" path="/calderdale/*.pdf" type="NES.HiLo

浏览 0提问于2013-05-08得票数 0

2回答

对音乐播放器使用亚马逊S3查询字符串身份验证

php、javascript、security、amazon-s3

我有一个音乐家客户，几年前我主要用javascript为他创建了一个音乐播放器web应用程序/站点。我对AmazonS3的查询字符串身份验证很熟悉，并且正在考虑使用它。我的计划是提前3秒设置请求的过期时间，以便播放器应用程序有时间开始下载，但如果用户试图获取URL并在稍后发出相同的请求，他们的尝试将被

浏览 1提问于2013-05-15得票数 1

回答已采纳

2回答

我的老师有一个网站，他在网站上为他的课堂张贴幻灯片和练习，事实是，有超过100个文件，我正在寻找一个更快和更容易的方式下载所有一次，这是一个网站：，它是必要的登录。这个页面有一些pdf的链接，比如：，我意识到pdfs目录只在T1部分中改变。所以我试着用这种方式下载： curl --user USERNAME:PASSWORD -L -k -O 'http://aprender.ead.unb.br/pluginfile.php/215602/mod_resour

浏览 4提问于2016-03-13得票数 1

回答已采纳

0回答

是否使用Excel VBA从当前的Internet Explorer浏览器会话中下载PDF？

vba、excel、internet-explorer、pdf、download

我希望自动从我们的公司网站下载多个PDF。此站点仅在我们的内部公司网络/VPN上工作，并需要身份验证(也是https )。在

浏览 3提问于2018-07-09得票数 3

3回答

如何编写httphandler仅拦截特定文件夹中的文件

c#、asp.net、.net、iis-6、httphandler

我已经编写了一个httphandler来拦截所有pdf文件请求通过URL从一个特定的文件夹，并重定向用户登录页面。如果用户经过身份验证，则可以下载该文件。我的web.config有下面的拦截条目 <add verb="*" path="/calderdale/*.pdf" type="NES.HiLo.Secu

浏览 10提问于2014-04-17得票数 6

5回答

从网站下载所有.pdf文件的Python/Java脚本

java、python、html、download

我想知道是否可以编写一个脚本，以编程方式遍历网页并自动下载所有.pdf文件链接。在我开始尝试之前，我想知道这是否可能。问候

浏览 5提问于2014-02-15得票数 12

回答已采纳

1回答

可以完全下载pdf文件吗？

python、pdf、stream、scrapy

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=T

浏览 19提问于2019-07-11得票数 0

5回答

如何从其他网站获取数据？

python、database、parsing、web-scraping

我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

1回答

如何从网站池中自动下载pdf文件，因为它们是实时上传的？

api、web-scraping、download

我想从像这样的站点池中自动下载pdf文件： https://www.wfp.org/publications?我可以使用Python来构建此函数的脚本吗？我需要定期抓取网站，这样，一旦上传了新文件，文件就会自动下载到我的服务器上。最后，假设我是为了非盈利目的在自己的网站上分享这些内容，这合法吗？

浏览 21提问于2020-12-28得票数 0

2回答

如何将cookies从WebViewClient持久化到URLConnection、浏览器或其他安卓文件下载技术

java、android、asp.net-mvc、cookies、forms-authentication

我们有一个支持.net表单身份验证的网站，用户可以通过我们安卓应用程序中的WebViewClient访问该网站。该网站的功能之一是能够登录和下载一些PDF文件，但是您需要登录才能下载PDF文件。我们目前正在实现shouldOverrideUrlLoading，并在满足正确条件的情况下通过以下代码下载pdf。"));fos.flush();从IIS日志中可以明

浏览 0提问于2011-03-09得票数 6

回答已采纳

3回答

使用javascript通过浏览器身份验证下载PDF

javascript、authentication、browser

我知道我可以使用Javascript进行浏览器身份验证，然后使用该javascript抓取XML文件。我的用例有点不同:网页上有一个指向不同服务器上的PDF的链接。该服务器执行浏览器身份验证。用户名和密码不是秘密，事实上，我们现在这样发布链接：有什么想法吗？

浏览 3提问于2009-01-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云