网页抓取pdf链接-不返回结果

网页抓取PDF链接是指通过程序自动访问网页，并提取其中的PDF文件链接。这个过程通常涉及到前端开发、后端开发、网络通信和数据处理等多个领域。

前端开发方面，可以使用HTML、CSS和JavaScript来构建一个简单的网页抓取工具界面，以便用户输入需要抓取的网页地址。

后端开发方面，可以使用一种后端编程语言（如Python、Java、Node.js等）来编写抓取程序。通过发送HTTP请求，获取网页的HTML内容，并使用相关的库或框架解析HTML文档，提取其中的PDF链接。

网络通信方面，可以使用HTTP协议进行网页请求和响应的传输。通过发送GET请求，获取网页内容，并将其作为响应返回给用户。

数据处理方面，可以使用正则表达式、XPath或HTML解析库等工具来提取PDF链接。根据网页的结构和特点，使用相应的方法来定位和提取PDF链接。

网页抓取PDF链接的应用场景包括但不限于以下几个方面：

学术研究：研究人员可以通过抓取学术网站上的论文链接，快速获取所需的PDF文件，方便阅读和引用。
数据分析：在进行数据分析时，可能需要获取某些网站上的PDF报告或数据文件。通过抓取PDF链接，可以自动化地获取这些文件，减少人工操作的时间和工作量。
网络爬虫：抓取PDF链接是构建网络爬虫的重要一步。通过抓取PDF链接，可以获取网站上的PDF文件，进一步进行数据分析、信息提取等操作。
网页备份：有时候需要对某些网页进行备份，以防止网页内容的丢失或更改。抓取PDF链接可以帮助保存网页中的PDF文件，以便后续的查阅和还原。

腾讯云提供了一系列与网页抓取相关的产品和服务，包括但不限于：

腾讯云CDN（内容分发网络）：通过加速网页的访问，提高网页抓取的效率和速度。详情请参考：腾讯云CDN产品介绍
腾讯云API网关：提供API管理和发布的功能，可以用于构建网页抓取的接口。详情请参考：腾讯云API网关产品介绍
腾讯云函数计算：通过编写函数代码，实现网页抓取的自动化任务。详情请参考：腾讯云函数计算产品介绍
腾讯云数据库：存储抓取到的PDF链接和相关数据。详情请参考：腾讯云数据库产品介绍

以上是关于网页抓取PDF链接的简要介绍和相关腾讯云产品的推荐。具体的实现方式和技术选型还需要根据具体需求和情况进行进一步的评估和选择。

使用javascript通过浏览器身份验证下载PDF

、、

我知道我可以使用Javascript进行浏览器身份验证，然后使用该javascript抓取XML文件。我的用例有点不同:网页上有一个指向不同服务器上的PDF的链接。该服务器执行浏览器身份验证。用户名和密码不是秘密，事实上，我们现在这样发布链接： “下载PDF (使用访客/访客作为用户名/密码)”。我需要的是:用户点击链接，但不必填写用户名/密码，因为我们看到许多用户对此感到困惑(在可用性测试中)。我们无法访问托管PDF的其他服务器。有什么想法吗？

浏览 3提问于2009-01-02得票数 1

1回答

用Crawler4j抓取PDF

、、、、

我目前使用crawler4j抓取一个网站，并返回网页的网址和该网页的父网页的网址。我使用的是基本的爬虫，这是工作良好，除了它没有返回的pdf的。我知道它爬行的pdf的，因为我已经检查了它爬行前添加的过滤器和pdf的显示。PDF似乎在进入时消失/跳过公共无效访问(页面){ 我不知道为什么它会这样做。有人能帮我吗？非常感谢！谢谢

浏览 4提问于2014-08-14得票数 4

1回答

可以完全下载pdf文件吗？

、、、

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所有的pdf文件，但它太慢了。我想知道scrapy filespipelines是否有类似的方法？

浏览 19提问于2019-07-11得票数 0

1回答

在python中使用urljoin连接urls

、、

我正在尝试做一些web抓取，但我在连接相对urls和根urls时遇到了一些问题例如，根url是：http://www.jmlr.org/proceedings/papers/v2 而相对的url是：../v2/meila07a/meila07a.pdf 当我在urlparse中使用urljoin时:结果很奇怪： http://www.jmlr.org/proceedings/v2/meila07a/meila07a.pdf 这不是有效的链接。有人能帮我吗？

浏览 0提问于2015-03-03得票数 0

2回答

使用Python & lxml抓取时如何选择“加载更多的结果”按钮

、、

我在刮网页。该网页由50个条目组成。在50条条目之后，它提供了一个加载更多的结果按钮。我需要自动选择它。我该怎么做呢。为了抓取，我使用Python，Lxml。

浏览 0提问于2014-06-19得票数 3

回答已采纳

1回答

从HTML中，有没有办法知道是哪个网页将我定向到了特定的网页(重定向之后)？

如果我已经抓取了一个网页的代码，有没有办法从它的HTML中知道哪些网站重定向到了那个页面？

浏览 0提问于2020-01-17得票数 0

1回答

如何获得网络抓取瓶应用程序，以显示新的网页刮除结果，每次烧瓶应用的网页在浏览器中重新加载？

、、、

我的烧瓶应用程序进行了一些网络抓取(使用请求库)，然后在html模板(info.html)上显示结果。烧瓶应用程序可以工作，但它只做一次网络抓取(当烧瓶应用程序启动)，这意味着如果我刷新网页后，它仍然显示相同的旧的网络抓取结果与第一次。，我希望网页每次在浏览器中重新加载页面时，都会刷新网页抓取的结果。现在，结果不会刷新，除非我杀死烧瓶进程并再次运行它-这对烧瓶正常吗，如果是，我如何让应用程序再次运行刮擦，每次我重新加载标签？我用的是服务员，基本上代码看起来是这样的： from waitress import serve from flask import Flask, render_te

浏览 0提问于2019-08-30得票数 2

2回答

url的正则表达式模式，不带结束斜杠并排除url中的某些文本

我正在寻找preg_match_all模式，以找到一个网页上的所有网址，没有尾部斜杠。例如:如果我有 a href="/testing/abc/">end with slash a href="/testing/test/mnl">no ending slash 结果将是#2。解决方案发布在上我试图修改提供的模式，以排除具有“图像”或“.pdf”的urls，但还没有成功。谢谢。

浏览 1提问于2013-03-20得票数 0

回答已采纳

2回答

如何从shtml链接集合中抓取或下载pdf？

、、、、

我抓取了一个shtml链接列表。它们现在保存在.xlsx文件中。我已经尝试过寻找excel宏、r代码、python代码、chrome扩展和桌面程序。我找不到任何对我有帮助的研究。每个.shtml链接都指向一个网页，该网页的中心至少有一个我需要下载的.pdf。感谢任何人的帮助！

浏览 0提问于2019-07-27得票数 0

1回答

YQL抓取:跟随链接向下一级？

、

YQl有没有一种好的方法来抓取网页，同时也可以通过该网页的链接来获取更多的详细信息？例如，在博客中，索引页面显示每个新闻条目的标题，但您需要单击该标题链接来获取新闻故事和相关图片等。我需要从每个新闻条目页面抓取数据，并在索引页面上处理分页结果。如果YQL能够做到这一点，有人能提供一些例子吗？如果不是，有没有人能推荐一个好的替代方案？

浏览 0提问于2013-03-14得票数 0

2回答

wget“镜像”pdf链接到不同的域

、、、、

包含一个 (注意不同的域)。我可以使用wget直接下载pdf，但似乎无法确定正确的wget命令行选项，以“镜像”网页，包括这个链接的pdf。我尝试使用以下选项的组合 -p -跨度-主机 -D -接受但没有成功。 wget (或其他命令行工具)可以用来下载链接的pdf-s吗？谢谢

浏览 4提问于2011-09-21得票数 1

回答已采纳

1回答

如何找到链接到pdf的网页？

、

我发现了一个有趣的PDF与我最近的谷歌研究，通过一个直接链接到它(谷歌的结果是类似于"http://example.com/somefolder/interesting.pdf“)。我想把pdf放在上下文中，也就是说找到一个链接到它的网页。我怎么能找到它？我试图谷歌http://example.com/somefolder/interesting.pdf，但我只有一个结果(当然，pdf本身)。如果我在google上搜索“example.com/somefolder/趣味性”，我就没有结果了。这是否意味着原始pdf是“孤儿”附件？在高级搜索中有我错过的选择吗？也许还有另一个具有这个

浏览 0提问于2013-01-10得票数 5

回答已采纳

3回答

如何在没有pdf文件名的情况下保存/下载嵌入网页的pdf

、、

我正在用C#编写一个网络抓取程序。到目前为止，我已经能够登录到网站，保存cookie，并返回另一个页面的源代码。从这个源代码中，我得到了一个指向pdf的链接，但是页面并没有以.pdf扩展结束。在浏览器中，此页面显示pdf图像，浏览器中有包含保存按钮的控件。我相信这个pdf页面是用ColdFusion创建的，因为它在网址中包含了.cfm、CFID和CFTOKEN。如何以编程方式保存此pdf文件？有两个答案建议我将二进制流保存为pdf。首先，如何获得二进制数据？我尝试了以下几点： byte[] result; byte[] buffer = new byte[

浏览 1提问于2012-03-29得票数 1

回答已采纳

4回答

程序化表单提交

、、、

我想要抓取网页的内容。内容是在填写并提交该网站上的表单后生成的。我已经阅读了如何抓取最终结果内容/网页-但是如何以编程方式提交表单呢？我正在使用python，并且已经读到我可能需要获取表单的原始网页，解析它，获取表单参数，然后执行X？谁能给我指出正确的方向？

浏览 0提问于2008-12-26得票数 3

5回答

关于嵌入式PDF的用户界面问题

、、、

Q.1.从可用性的角度来看，在网页中嵌入PDF有哪些优点和缺点？ Q.2.一般情况下，对于普通计算机用户来说，哪种场景提供了最“流线型”的体验？ Q.3.会使用cookies来记住方案2中的选项吗？设想方案1 用户设置选项。用户单击Report按钮。PDF作为附件发送(以保存或打开)。<>G 215</code> 优势选项不会被重置。缺点 performance). 可阻塞网页。用户可能会打开过多的PDF窗口(减慢系统)。设想方案2 options.User设置用户单击报表按钮。PDF嵌入页面。用户单击后退，选项将被重置(AJAX，没有cookies)。优势

浏览 10提问于2010-07-09得票数 4

回答已采纳

1回答

运行apache Nutch 2.2.1

、、、

我想用Apache Nutch 2.2.1来抓取网页。它只有src文件。我该怎么运行它。有没有什么教程可以教你。我想要的结果是Json。Apache1.6在我的系统中运行良好。有谁能帮我吗？

浏览 0提问于2013-07-08得票数 1

回答已采纳

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是我的代码是： library("xml2") library("rvest") url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") tbls_ls <- url %>% html_nodes("table") %>% html_table(fill = TRUE)%>% gsub("^

浏览 13提问于2017-12-22得票数 1

1回答

在perl的新选项卡/窗口中打开生成的PDF

、

请帮帮忙。我想在perl的新窗口/ Tab中打开生成的PDF。用户需要填写的表格，如名字，姓氏，电子邮件在网页上。表单内容将使用PDF生成器以PDF格式填写。PDF将被动态生成。就我而言， PDF生成没有问题。生成的PDF在同一个窗口中打开。这应该在新的选项卡/窗口中打开。我试过在表单级别上使用"_blank“。该表格具有一定的有效性。因此，当表单出现验证错误时，它将在新选项卡中打开。下面是我在pdf页面中使用的内容类型。 content_type :应用程序/pdf 内容-配置:内联

浏览 2提问于2014-01-20得票数 0

回答已采纳

1回答

列出所有请求python的网页加载的媒体和文档文件

、、

我正在寻找一种方法来列出所有加载的文件与请求模块。就像在chrome的Inspector Network选项卡中一样，你可以看到网页加载的各种文件。问题是我要抓取的文件(在这里是.pdf文件)没有特定的标签，我猜网页是通过javascript和AJAX加载的，因为即使页面完全加载后，我也找不到有到.pdf文件或类似文件的链接的标记，所以每次我都应该转到网络选项卡，重新加载页面，并在加载的资源列表中找到文件。有没有办法捕获所有加载的文件并使用Requests模块列出它们？

浏览 0提问于2020-10-10得票数 2

4回答

PHP :如何抓取XPath的内容和html标签？

、、、、

我正在尝试抓取一个网页，我想抓取div标记内的文本和所有HTML标记。该网页如下所示： <div class="class"> <p>A little paragraph</p> <a href="#"><img src="/test.jpg"/></a> <p>Another paragraph</p> <ul> <li>1</li> <li>2</li>

浏览 3提问于2015-05-10得票数 1

2回答

如何使IE打开一个PDF只需一次点击？

、、

我正在创建一个带有PDF文件链接的网页。我已经被要求设置该链接，以便用户可以单击该链接一次并查看PDF。到目前为止，我尝试过的是：一种方法是简单地将<a href="XXX.pdf" target="_self">PDF</a>放在HTML中。另一个是使链接触发Javascript：window.open("XXX.pdf", "_self"); 无论哪种方式，IE总是显示一个提示，上面写着“您想打开还是保存XXX.pdf"，所以用户必须再次单击才能打开文件。我在Chrome和Firefox中

浏览 0提问于2018-05-10得票数 0

回答已采纳

2回答

如何在一个动作结果中返回两个pdf文件？

、、、

我需要在MVC中回发时返回两个PDF文件，但操作结果仅返回一个文件。有没有其他方法可以在一个操作结果中返回多个文件？ return File(stream, "application/pdf", Summary.pdf); 像这样，我需要返回多个文件。

浏览 1提问于2015-10-06得票数 3

1回答

Python:从html的href标签中获取javascript文件

、、、、

考虑一个类似以下内容的网站：可以看到，该网站包含由页面源代码中的href标记引用的pdf文件的链接，例如： <a href="javascript:$('form_cofo_pdf_view_B000114563.PDF').submit();">B000114563.PDF</a> 我想用python打开底层文件，有效地抓取结果。 req = urllib2.Request("link.com") page = urllib2.urlopen(req) soup = BeautifulSoup(page) link

浏览 6提问于2016-09-09得票数 1

2回答

有没有一种方法可以提取日期和链接？

、、、

我正在从这个中抓取excel链接有没有一种方法可以提取日期连同网页链接？ import requests from bs4 import BeautifulSoup from pprint import pprint base_url = 'https://usda.library.cornell.edu' url = 'https://usda.library.cornell.edu/concern/publications/3t945q76s?locale=en#release-items' soup = BeautifulSoup(requests

浏览 5提问于2020-08-25得票数 0

回答已采纳

1回答

从网页中抓取svg内容

、、

我试图从这个链接：中抓取安全数据表的pdf文件 pdf链接似乎是网页上SVG内容的一部分。我找到了链接，并试图使用这个答案获取SVG内容。但是，代码似乎没有提取SVG内容。 base_url = 'https://www.sigmaaldrich.com/PK/en/search/2127-03-9?focus=products&page=1&perpage=30&sort=relevance&term=2127-03-9&type=cas_number' headers = {"User-Agent": "Mo

浏览 8提问于2022-07-25得票数 0

2回答

使用BeautifulSoup4从网站获取要抓取的pdf文件

、、

网页的html源代码如下所示 <html> <body> <embed name= "random for each page" type = "application/pdf" src = "somesrc" internalid = "random"> </body> </html> 我需要从pdf文件中抓取具有不同数据的多个页面的数据(它们具有不同的名称和内部I)。我试着用find_all嵌入标签，但不起作用

浏览 34提问于2020-07-20得票数 0

回答已采纳

1回答

HEAD请求与只获取网页`<head>`的对比

、、

我正在写一些链接抓取代码，我希望只抓取给定网页的<head>部分。显然，我对HEAD请求是什么感到困惑，因为我认为它应该做到这一点。相反，它只返回HTTP标头。有没有一种方法可以只获取给定页面的<head>部分，而不获取整个文档？

浏览 0提问于2012-03-04得票数 0

回答已采纳

1回答

爬行覆盖率和网页排名效果，如果很少的网站网页有损坏的链接

、、、、

我们有数百万页在我们的网站和大多数网页已经被谷歌索引。几天前，我们生成了少数几个页面，很少有坏链接(显示404页)。例如，如果页面有20-50个链接，那么一个或两个链接就会中断。这会影响页面和搜索结果的排名吗？有断链接的网页很少是用户看不到的(我只能通过检查页面的查看源来查看链接)，但是他们每天都会被google抓取。

浏览 0提问于2015-12-09得票数 2

3回答

在c#中查看pdf文件并禁止保存和打印选项

、、

我想在网页中加载我的pdf文件。用户不应拥有保存或打印文件的条件。下面的代码以附件的形式打开pdf文件，但我想直接在页面中打开它。也请提供任何可以禁用pdf菜单栏的javascript。 Response.ContentType = "Application/pdf"; Response.AppendHeader("content-disposition", "attachment; filename=" + old_filename + ".pdf"); Response.TransmitFile(Server.M

浏览 23提问于2012-05-26得票数 0

2回答

使用Java从特定的URL获取整个web页面

、

我能用Java获取整个网页，包括CSS和图片吗？这基本上就是在浏览器中使用“另存为”操作时发生的事情。我可以使用任何免费的第三方库。编辑： HtmlUnit库似乎正在做我需要的事情。这就是我用它抓取整个网页的方法： WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage(new URL("...")); page.save(new File("..."));

浏览 1提问于2011-06-24得票数 1

2回答

如何阻止Scrapy CrawlSpider访问超过要求的URL？

、

我想写一个抓取pdfs从网站。到目前为止，爬虫在下载pdf方面运行良好。然而，它遵循许多链接的方式，即使我已经尝试了几件事来防止它这样做。据我所知，我可以限制scrapy的Crawlspider使用LinkExtractor的规则来跟踪链接。我已经构建了一个自定义的Linkextractor (也尝试在没有自定义LinkExtractor的情况下直接构建规则，但结果是相同的。) 基本上我只想从页面上拉.pdf，任何链接，这不是以.pdf结束不应该被抓取。到目前为止，下面的代码工作正常，只有pdf使用parse_docs()方法保存，然而，我希望非pdf链接永远不会被发送到parse_d

浏览 28提问于2019-10-08得票数 1

5回答

如何获取域上的所有网页

、、、

我正在做一个简单的网络蜘蛛，我想知道是否有一种方式可以触发在我的PHP代码，我可以得到所有的网页在一个领域. 让我说我想在Stackoverflow.com上得到所有的网页。这意味着它将得到：还有所有的联系。我怎么才能拿到呢。或者有一个API或目录可以让我得到它吗？还有什么方法我可以得到所有的子域顺便说一句，爬虫如何抓取没有或的网站？干杯。

浏览 7提问于2012-12-17得票数 2

回答已采纳

1回答

用于抓取的Nutch正则表达式

、、

我正在使用Apache Nutch来抓取网页。当我搜索特定的名字时，我想抓取网页，例如，如果我搜索比尔盖茨，我想获得该搜索结果的结果链接。我有像这样的网址 www.mysite.com/search?name=bill+gates 但在爬行时，它不再显示要获取的url。实际上，它不会获取任何结果。有没有抓取该页面的选项？我在regex-urlfilter.txt中添加了接受所有内容的代码。我该如何抓取链接？提前谢谢。

浏览 1提问于2013-05-23得票数 0

回答已采纳

2回答

有没有一种Python方法可以从URL链接的数据集中选择那些只有200个状态代码的链接？

我已经抓取了一个网页，以收集网页上的所有网址链接。终于让它工作了，但回头看了一下说明，我需要确保URL实际上是链接，这意味着状态代码200。那么有没有办法只过滤200个呢?我是Python的新手。

浏览 25提问于2019-05-11得票数 0

1回答

如何用sfref解析标签中的链接url？

、

我试图刮网站的数据，我可以寻找一个标签，我想探索。但是，这个标记与<a title="Annex" href="https://www.myite.com/d…-3.pdf?sfvrsn=b3a84558_2" sfref="[documents|librariesProv…-4ef8-8b90-ae20b6b7590d">类似。获取a.href只返回https://www.myite.com/d…-3.pdf?sfvrsn=b3a84558_2，结果是404页。然而，当我点击标签在网页上，它打开pdf -网址是轻微修改。如何

浏览 2提问于2020-03-26得票数 0

1回答

如何强制facebook读取元数据？

当你从一个网站上获取一个链接，然后在你的facebook状态下发布它时，它似乎是从该页面抓取了元数据。我看到的是，如果网页有一个规范的链接到另一个网站，它似乎从另一个网站抓取元数据，有没有什么办法迫使facebook从你在facebook feed上发布的链接中读取元数据？

浏览 9提问于2012-08-14得票数 0

回答已采纳

1回答

如何将本地pdf文件连接到html文件上- html文件显示在UIWebView上。

、

我使用以下代码在我的UiWebView上显示了一个本地html文件。 NSString *path = [[NSBundle mainBundle] pathForResource:@"test.html"]; NSString* htmlString = [NSString stringWithContentsOfFile:path encoding:NSUTF8StringEncoding error:nil]; NSString *bundlePath = [[NSBundle mainBundle] bundlePath]; NSURL *baseURL

浏览 0提问于2012-05-11得票数 2

回答已采纳

1回答

如何做网页抓取使用php，curl的网页，无限滚动和ajax调用？

、、、、

一些网站有无限的滚动条，并使用AJAX分页加载信息。我想用我在PHP和curl中使用的代码抓取web数据。我是个从网页上抓取数据的新手。下面是我用来抓取网页并获取数据的代码： <?php function curlUrl($url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE); curl_setopt($ch, CURLOPT_URL, $url); $results = cur

浏览 12提问于2016-07-22得票数 0

1回答

我是否可以在MVC视图中嵌入PDF，并使用javascript将填写好的表单回发到服务器？

、

我的目标是将一个可填写的PDF表单放到网页中，允许用户填写它，并将结果发送回服务器。有没有人知道这是否可能？

浏览 0提问于2015-01-21得票数 0

1回答

ASP.NET:在服务器端，创建HTML，CSS和Javascript网页的PDF副本，就像它在Google Chrome中显示的一样

、、、、

有没有可能使用C#在服务器端渲染ASP.NET视图并将其保存为PDF，同时保留所有涉及CSS和Javascript的视觉元素，就像它在Chrome中渲染的一样？Javascript包括标准Bootstrap和SVG库的最新版本，以及使用d3绘制d3图表的代码。页面的CSS大量使用Bootstrap。我尝试了一些方法，包括IronPdf，但无论我尝试了什么选项，它都会完全破坏格式。我能得到的唯一好的结果就是在Chrome中实际查看网页，尝试打印它，并以这种方式将其保存为PDF。我试图得到完全相同的结果使用后端C#代码生成的PDF，而不需要任何用户交互。这可以做到吗？如果它不可能完美地呈现为PD

浏览 1提问于2018-06-29得票数 2

2回答

如何在网站上提供文件，而不是通过Google直接访问？

、

我想有一个网站的目的是提供PDF。我想从网站上收取广告收入的网页上，用户将不得不访问下载/查看PDF之前的广告。我不希望直接链接到的PDF出现在谷歌搜索结果，这将允许用户绕过包含广告的页面。如果没有显示在Google上的PDF的直接链接，我如何为PDF提供服务？

浏览 2提问于2012-01-14得票数 0

1回答

Python从网站抓取PDF为什么它们都损坏了，而且大小相同？

、、、

希望这将是一个简单的问题。我正在尝试做一些网页抓取，我从一个页面下载所有的pdf文件。目前，我正在从一个体育页面上抓取文件进行练习。我使用了Automatetheboringstuff +来自另一个用户()的帖子来编写这段代码。 import requests import time from bs4 import BeautifulSoup, SoupStrainer r = requests.get('http://secsports.go.com/media/baseball') soup = BeautifulSoup(r.content) for link in

浏览 0提问于2017-05-03得票数 1

2回答

Requests.get结果中的时区支持

、

我正在使用Python抓取一个简单的网页。当我使用Chrome查看网页时，我得到：下午8/13 2:20 -这是我所在时区的正确时间在其中一个日期字符串上(以字符串形式返回) 我在调用中使用了requests.get (与urllib2的结果相同)： thepage = requests.get('http://fakepage.com') 当我把所有东西都解码后，我得到的是: 8/13 4:20 PM --因为它正好差了两个小时，所以我假设是服务器端检测到了我的时区。有没有办法在requests.get呼叫中发送我的时区？也许我看错了。

浏览 1提问于2014-08-14得票数 1

2回答

将pdf显示到网站内的链接Xamarin android的pdf视图中。

、、、、

在我的应用程序中，我已经实现了一个网页视图，以显示到该网页视图的网站链接。现在，该网站有一个按钮，其中包含一个pdf文件链接。如果我在网站上点击那个按钮，它会在网上显示一个pdf文件。但是如果我试图打开我的应用程序中的app视图，什么都不会发生。我是Xamarin android系统的新手。我找不到合适的方法去做那件事。这是我的代码，以显示该网站的网页视图。我想重新下载的pdf时，点击从网站链接。但结果与之前相同。修改代码 namespace Xamarin.PDFView { [Activity (Label = "PDFView", MainLaunch

浏览 2提问于2018-02-13得票数 0

1回答

PHP

、、、、

因此，我有一个使用AJAX显示在网页上填充的表，并能够从数据库结果中实时生成它，尽管我希望更多地创建一个友好的web前端，并能够从数据库中删除，但我想要的是实时更新的内容，并且我想知道如何才能将类似的内容转换成这样的内容。 <a href="hostRemove.php?host=10.72.0.154">Delete</a> 变成一个XMLHttpRequest删除。上面的工作方式是将唯一的IP添加到URL中，然后PHP抓取它并将其引用回数据库，然后删除它。我知道上面的方法是不安全的，但这是一个大学项目来证明我们能做到的。任何帮助都将不胜感激！

浏览 0提问于2018-04-26得票数 0

回答已采纳

1回答

KeyError 'href‘- Python / Selenium /漂亮汤

、

我遇到了一个问题，当我的网页-刮一个大网页，我的刮工作良好的前30个href链接，但运行到KeyError：'href‘在25%左右的网页内容。对于整个网页，元素保持不变，也就是说，最后一次抓取的元素和停止脚本的下一个元素之间没有区别。这是由于驱动程序没有及时加载整个网页以使刮除完成或仅部分加载网页吗？ import re from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import O

浏览 5提问于2022-10-13得票数 -1

1回答

如何在找到的页面上抓取外部链接？

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/nutch，我能找回它找到的所有外部链接，并创建一个新的爬网列表来再次运行吗？你怎么做？

浏览 1提问于2010-10-26得票数 2

回答已采纳

2回答

有没有一种简单的方法可以让Mechanize获得一个网页的所有组件？

、

我的理解是，当我这样做的时候： agent = Mechanize.New page = agent.get("http://www.stackoverflow.com/") Mechanize将对text/html发出HTTP GET请求。然而，当我在一个完整的网络浏览器(如Chrome/Firefox)中导航到一个网页时，浏览器会读取Stackoverflow.com页面，并对相关的CSS、图像、JavaScript等进行后续的GET请求。我可以想象解析Mechanize返回的初始HTML并识别任何CSS、图像等，然后发出后续请求，但是有没有一种更简单的方法让Mechan

浏览 1提问于2013-05-03得票数 0

2回答

网站/自定义登录页面的密码保护部分

、、

我有一个1页是密码保护的公共网站。在这个页面上有几个pdf文件和一些文本的链接。此页面和文件当前使用.htaccess和.htpasswd文件进行保护。当用户试图访问它时，会弹出一个窗口，要求您输入登录名和密码。它可以工作，但我不喜欢它的外观。我想在网站上有一个页面，人们可以登录，具有与其他页面相同的外观。(就像大多数网站一样) 我看了一段时间，发现这是这样的：在摆弄了一小段时间后，我让它工作了，我成功地保护了一个页面。然而，问题出在页面上的pdf文件。我不知道该怎么处理这些东西。因此，对于我的问题，我想要以下几点： 1)一个漂亮的页面，人们可以在这里登录。 2)此登录后有1个受密码保护的

浏览 0提问于2014-05-13得票数 0

1回答

Scrapy用规则爬行所有链接吗？

、

代码来源：是python和scrapy的新手。我搜索递归蜘蛛并找到了这个。我有几个问题：接下来是怎么做的？它只是从页面中获取href链接并将其添加到请求队列中吗？抓取是从网页的哪一部分抓取的？下面的代码会刮掉网页上的所有链接吗？让我说我想从这个网站抓取和下载每一个文件我可能会这样做的方式是刮刮这个网站上的每一个链接，并检查URL的内容标题和下载，如果它是一个文件。这可行吗？抱歉，如果这是个糟糕的问题..。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.

浏览 0提问于2016-03-24得票数 0