跳过URL抓取

是指在网络爬虫中，不通过访问网页的URL来获取数据，而是直接从其他来源获取所需的信息。这种方法可以节省时间和资源，并且可以避免访问一些可能会导致安全风险的网站。

跳过URL抓取的方法有多种，以下是其中几种常见的方法：

API接口：许多网站提供了API接口，通过调用这些接口可以直接获取所需的数据，而无需访问网页。API接口通常以JSON或XML格式返回数据，开发人员可以根据接口文档进行调用。
数据库直接查询：有些网站将数据存储在数据库中，可以直接连接数据库并执行查询语句来获取数据。这种方法需要了解数据库的结构和查询语言，如SQL。
RSS订阅：一些网站提供了RSS订阅功能，可以通过订阅相关的RSS源来获取更新的内容。开发人员可以使用相应的库或工具来解析和提取所需的信息。
文件导出：有些网站提供了将数据导出为文件（如CSV、Excel等）的功能，开发人员可以下载这些文件并进行解析和处理。

跳过URL抓取在以下情况下可能会被使用：

网站反爬虫机制较为严格，访问网页的URL可能会被封禁或限制访问。
需要获取的数据不在网页中，而是通过其他方式提供，如API接口、数据库等。
需要获取的数据量较大，通过URL抓取的方式效率较低。

腾讯云提供了一系列与云计算相关的产品和服务，包括云服务器、云数据库、云存储、人工智能等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用方式。

页面内容是否对你有帮助？

有帮助

没帮助

Nutch与crwaling网站的问题，其中url仅在参数传递的术语上有所不同

我正在使用Nutch抓取网站，奇怪的是，对于我的一个网站用户，Nutch抓取只返回两个url，主页url ()和另一个。我的webiste上的urls基本上是这种格式也就是说，url仅在附加到url的参数方面不同(部分"?“对所有urls都是通用的) Nutch不能抓取这样的网站吗？我应该做什么Nutch设置才能抓取这样的网站？

浏览 0提问于2009-11-10得票数 0

回答已采纳

1回答

Nutch:在一定深度内抓取每个URL

我的问题是从某个种子列表开始抓取每个页面和每个文档。我已经安装了nutch，并使其使用以下命令运行： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5 我预计nutch进程会抓取大约100个url，但它说只找到了11个文档。因此，我尝试使用以下命令运行nutch： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4 它找到了23个文档。我从测试种子开始运行进程为什么nutch会有这种行为？如何设置nutc

浏览 1提问于2012-07-16得票数 3

回答已采纳

1回答

抓取Url并将其用于LWP Perl

、

好了，我知道如何在循环中使用Perl发出LWP get请求。但我想知道，是否有可能从一个网站抓取一个网址，并自动地把它放在网址访问也在循环中？？ #!usr/bin/perl for ($i=0;$i<200;$i++) { use strict; use LWP::UserAgent; use warnings; my $ua = new LWP::UserAgent(agent => 'USER AGENT'); my $response = $ua->get("http://example.com"); print $resp

浏览 0提问于2013-03-19得票数 0

1回答

如果需要太长时间或连接已超时问题，如何跳过URL导航

我正在抓取一个网站，收集一个URL列表，然后导航这些URL，然后再收集一些数据。一切都很完美，直到我浏览一个URL，也就是死亡。我的整个抓取过程都被打破了，丢失了收集到的数据。如果需要很长时间或连接超时问题(如 )，他们是否可以跳过导航该页面？ for (let i = 0, n= listURL.length; i < n; i++) { await page.goto(listURL[i], { waitUntil: 'networkidle2' }); //<--- crash here console.log(`navigate ${UR

浏览 2提问于2020-07-31得票数 0

回答已采纳

1回答

如何跳过从网站中抓取pdfs的错误url以避免重新运行刮取任务？

、、、

我对网络刮擦很陌生。我已经成功地编写了一段对我的任务和需求有效的代码。以下是可复制的代码： library(tidyverse) library(rvest) library(stringr) library(dplyr) library(xml2) ## scraping hyperlinks page <- read_html("https://www.annualreports.com/Companies?exch=9") raw_list <- page %>% html_nodes(".companyName a") %&g

浏览 5提问于2021-07-27得票数 2

1回答

用R从csv文件中刮取多个urls

、、

我有一个CSV文件，其中包含了一组文章的信息，第9卷引用了URL。我已经用下面的代码成功地用一个URL抓取了标题和摘要： library('rvest') url <- 'https://link.springer.com/article/10.1007/s10734-019-00404-5' webpage <- read_html(url) title_data_html <- html_nodes(webpage,'.u-h1') title_data <- html_text(title_data_html) h

浏览 2提问于2020-04-20得票数 1

回答已采纳

1回答

无法纠正- ValueError:未知url类型:链接

、、、、

我目前正在运行这段代码，以便将文章url链接刮到csv文件中，并访问这些url(在csv文件中)，将各自的信息抓取到文本文件中。我能够抓取到csv文件的链接，但是我无法访问csv文件来抓取更多信息(文本文件也没有创建)，并且遇到了一个ValueError。 import csv from lxml import html from time import sleep import requests from bs4 import BeautifulSoup import urllib import urllib2 from random import randint outputFile

浏览 1提问于2017-08-07得票数 1

回答已采纳

3回答

正则表达式:在背景图像CSS中查找URL，遇到问题

、、

下面是我的正则表达式代码： preg_match_all('/background[-image]*:[\s]*url$["|\']+(.*)["|\']+$/', $css, $matches, PREG_SET_ORDER); 它查找如下所示的CSS： background:url('../blah.jpg'); 我的问题是我抓取的一些CSS看起来像这样： background:transparent url('../blah.jpg'); background:transparent no-repeat

浏览 2提问于2012-03-27得票数 6

回答已采纳

1回答

Python BS4抓取脚本计时器

、、、

我一直在尝试让这个网络抓取脚本正常工作，不确定下一步该怎么做。希望这里有人知道我该怎么做。我使用的是BS4，问题是，每当一个网址需要很长时间加载时，它就会跳过该网址(在页面加载时间较高的时候，输出文件只有较少的输入)。我一直在尝试添加一个计时器，以便只有在x秒内没有加载url时，它才会跳过url。有谁能给我指个方向吗？谢谢!

浏览 0提问于2016-11-29得票数 0

2回答

如何为scrapy编写规则以添加访问过的urls

、、

当scrapy关闭时，它会忘记所有的urls。我想给scrapy一组网址，已抓取，当它是开始。如何向爬虫添加规则，让爬虫知道哪些urls被访问过？当前函数： SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫抓取哪个

浏览 0提问于2012-11-28得票数 3

2回答

我如何计算一个页面有多少出站链接？

、、

使用Ruby学习抓取。我正在尝试计算给定页面的出站链接数量，但我不确定如何告诉Ruby我只想要计算出站链接。我当前的代码： require "open-uri" # Collect info puts "What is your URL?" url = gets.chomp puts "Your URL is #{url}" puts "Loading..." # Check keyword count page = open(url).read link_total = page.scan("</a>&

浏览 2提问于2012-04-11得票数 1

回答已采纳

3回答

Python BeautifulSoup剪贴表

、、、、

我正在尝试用BeautifulSoup创建一个表格抓取。我写了这段Python代码： import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = BeautifulSoup(page) for i in soup.find_all('form'): print i.attrs[

浏览 0提问于2013-09-24得票数 27

回答已采纳

1回答

从一个页面动态创建多个动态页面

、、、、

我正在构建一个视频站点，在这个问题上，facebook似乎“缓存”了我页面的抓取，因为我的所有视频实际上都在同一个动态页面上呈现，使用的是查询字符串。我正在动态地构建我的元标记，从服务器端，和facebook抓取调试，获得所有正确的信息.但是每一个新的视频，似乎都不会被刮掉。Facebook共享没有看到正确的标签。我在文档中读到，FB每24小时刮一次，但它将继续只刮这一页。(videos.aspx)？当我发现facebook共享没有看到信息时，我会对该url (带有查询字符串的videos.aspx)进行调试，在此之后，会出现明显的问题，并且共享函数获得了正确的信息。然而，faceboo

浏览 3提问于2014-02-19得票数 1

回答已采纳

1回答

如何将回发发送到网站？

、、

我试着从一个网站上抓取这个网格：显然这将是困难的，因为网格是分页的。使用firebug，将鼠标悬停在其中一个数字上将显示以下javascript： "javascript:__doPostBack('ctl00$ctl00$ctl00$CMSGMainContentPlaceHolder$ToolContentPlaceHolder$MCDContentPlaceHolder$ncdControl1$ncdGridView','Page$2')" 有没有什么方法可以触发回发，并将HTML取回？编辑:网格位于更新面板中，因此当您循环浏览分页时，

浏览 0提问于2012-06-14得票数 0

回答已采纳

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。请参阅：当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！请参阅：页面上实际存在的og:url标记如下所示：我怀疑这是FB缓存页面的问题，因为在我的About页面上，我进行了快速代码更改，更

浏览 3提问于2011-10-10得票数 0

回答已采纳

2回答

如何在python中抓取分散在多行上的html标签？

、、

我正在尝试用python抓取网页。我可以轻松地获取单行标记的结果，但是对于分布在多行上的标记，我的代码无法检索任何内容。在HTML源代码中，单行标记表示为： <td><span class="facultyName">John Matthew Falletta, MD</span> 和多个行标记表示为： <td><span class="label">Division:</span>    &l

浏览 0提问于2013-02-15得票数 2

回答已采纳

1回答

从r中的多个urls中进行from抓取

、

我正在尝试从多个urls中抓取表。我使用以下代码从单个url中抓取表： library(tidyverse) library(rvest) url='https://uboat.net/allies/commanders/1.html' read_html(url) %>% html_element('table.table_subtle') %>% html_table 然而，我想这样做的50个urls，编号顺序从1-50。有什么快捷的方法吗？

浏览 4提问于2022-08-05得票数 0

回答已采纳

1回答

我无法在CSV中导出抓取的数据

、、、、

我不能获取CSV中的所有数据，只能最后一次。当抓取只做了最后一个抓取是保存CSV文件，但我想从所有页面保存。 import requests from bs4 import BeautifulSoup from selenium import webdriver import time import pandas as pd from selenium.common.exceptions import NoSuchElementException from selenium.webdriver.common.by import By driver = webdriver.Chrome() m

浏览 11提问于2020-05-04得票数 0

1回答

如何提取相似模式的有效urls？

、、

我正在抓取一个存储数千篇文章的完整的文章管理系统。我的脚本很有效，但问题是beautifulsoup和requests都需要很长时间才能确定页面是实际的文章还是没有找到的文章。我有大约4000篇文章，通过计算，脚本将运行的时间将在几天内完成。 for article_url in edit_article_list: article_edit_page = s.get(article_url, data=payload).text article_edit_soup = BeautifulSoup(article_edit_page, 'lxml')

浏览 1提问于2017-11-20得票数 0

回答已采纳

2回答

Python web抓取:如何跳过url错误

、、、

我正在尝试抓取一个网页("coinmarketcap")。我收集了2013年至2019年10月所有加密货币的数据(开盘、高位、低位、收盘、市值、成交量)。 for j in range (0,name_size): url = ("https://coinmarketcap.com/currencies/" + str(name[j]) + "/historical-data/?start=20130429&end=20191016") page = urllib.request.urlopen(url) soup =

浏览 2提问于2019-10-19得票数 1

1回答

在python中创建一个新的生成器实例

、、

我试图刮一个页面，其中有许多链接的网页，其中包含广告。我目前正在做的导航它是转到第一页与广告列表，并获得个别广告的链接。在那之后，我会检查以确保我没有通过从数据库中提取数据来抓取任何链接。下面的代码基本上获取了所有的href属性，并将它们连接为一个列表。之后，我将它与我存储在数据库中的链接列表进行交叉检查，这些链接是我已经抓取的页面。所以基本上它会返回一个我还没有抓取的链接列表。 @staticmethod def _scrape_home_urls(driver): home_url_list = list(home_tab.find_element_by_tag_name('

浏览 9提问于2016-10-16得票数 0

1回答

如何在从网页写入文件时跳过行？

、

我有一个脚本，从许多不同的页面抓取网页数据，并将数据写入txt文件。但是，从每个网页，前1200行的HTML我不需要，所以我想跳过这些行，并将其余的写入到我的txt文件中。有没有办法做到这一点，或者当我检索URL时，我应该跳过首先读取它们吗？谢谢 import requests from requests import session payload = { 'action': 'login', 'username': '', 'password': '' } wit

浏览 4提问于2014-09-11得票数 1

1回答

如果需要太长时间，跳过selenium Webdriver.get()在for循环中调用

、、

嘿，伙计们，我很难理解如何在范围内循环中添加异常。现在，我正在从excel工作表中提取URL，并在页面中移动到200页之前对信息进行抓取。问题是，并不是所有的URL都有高达200页的页面，所以需要很长时间才能完成循环，程序可以继续使用另一个URL。这里有实现代码异常的方法吗？ from selenium import webdriver import pandas as pd import time driver = webdriver.Chrome("C:/Users/Acer/Desktop/chromedriver.exe") companies = [] df =

浏览 2提问于2020-10-26得票数 1

回答已采纳

1回答

如何从webscraping中解析空的数据帧？NoneType错误

、、、

解析数据帧中所有抓取结果的代码如下： class GameData: def __init__(self): self.date = [] self.time = [] self.game = [] self.score = [] self.home_odds = [] self.draw_odds = [] self.away_odds = [] self.country = [] self.league = [] .....

浏览 5提问于2021-03-09得票数 0

回答已采纳

1回答

Rselenium web-用R抓取

、、

例如，我想要从该网页(空间、便利设施、Prices...and评论 )中抓取数据为此，我想使用rselenium包。这是我的代码： url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd" library('RSelenium') pJS <- phantom() library('XML') shell.exec(paste0("C:\\Users\\Daniil\\Desktop\\R-language,Python\\file.bat&#

浏览 2提问于2016-06-01得票数 1

1回答

如何抓取无限滚动生成的数据？

、

如何使用scrapy从抓取产品列表？我已经尝试了浏览器发送的ajax请求url： https://www.amazon.cn/gp/profile/A34PAP6LGJIN6N/more?next_batch_params%5Breview_offset%5D=10&_=1469081762384 但它返回404。

浏览 5提问于2016-07-21得票数 0

回答已采纳

2回答

Python -用BeautifulSoup迭代页面

、

我使用BeautifulSoup4从几个网页中抓取数据。例如，在下面的例子中，url是，有96页。我的问题是脚本在几页之后抛出了一个错误。通常，当代码到达第15-20页时。错误信息：追溯(最近一次调用)：文件"main.py"，第34行，在if next_page.text != 'Next'：AttributeError：'NoneType‘对象中没有属性'text’ 谢谢你提前提供帮助！ import requests import os import csv from itertools import count from bs4 imp

浏览 1提问于2018-12-06得票数 1

回答已采纳

1回答

prometheus未抓取kubernetes cadvisor端点

、、

我安装了一个minikube kubernetes集群，它是通过prometheus监控的。kubernetes版本是v1.13.4，直接在vm主机上运行(--vm-driver=none)。我在Prometheus配置文件中添加了一个特定的任务，以便抓取cadvisor容器指标。问题是Prometheus无法从cadvisor端点抓取指标。我在我的prometheus.yml中包含了以下配置 <code>A0</code> 但在prometheus targets web UI (<code>C1</code>)中，我看到"kuber

浏览 199提问于2019-03-27得票数 1

1回答

避免在使用简单HTML Dom时重复执行

、、、

我使用来为个人项目抓取EPG数据。当前，代码会抓取每个通道的数据，并将其转储到一个json文件中，我将通过添加自己的$Channels来过滤所有的数据，这将数据刮除限制为仅限于我特别请求的项，同时使用以下方法添加我自己的流链接. $channels = array( "ITV1 London" => "URL 1", ); 我无法找到避免在输出的json文件中复制每个通道数据的方法。因为我需要请求$channels，所以我可以过滤最终输出中显示的数据，并将自己的链接添加到最终输出中。 if ($channels[$channel_nam

浏览 6提问于2017-10-02得票数 0

1回答

用抓取器提取Json数据？

、、、

我正在尝试刮掉恰好在XHR请求中的产品数据。如果我绝对引用XHR url，我就能够抓取所需的数据。但是，我试图抓取的网站有一个不同的XHR请求，为每个产品页面爬行。下面是一个产品，我注意到，如果您获取每个页面的url并放置，您可以通过这种方式获得XHR请求。我不知道如何做到这一点，爬虫是我的第二个刮刀和新的蟒蛇。那么，基本上，从每个页面抓取JSON数据最简单的方法是什么呢？ class PwspiderSpider(CrawlSpider): name = 'pwspider' allowed_domains = ['midwayusa.com'] star

浏览 3提问于2022-03-02得票数 -2

回答已采纳

1回答

需要关于抓取php的帮助

、

我有这段代码来从网站上抓取数据。 <?php $html = file_get_contents('http://www.alanum.com/search.aspx?kw=GTX%20980'); //get the html returned from the following url $pk_doc = new DOMDocument(); libxml_use_internal_errors(TRUE); //disable libxml errors if(!empty($html)){ //if any html is actu

浏览 0提问于2016-08-14得票数 0

1回答

wordpress动态csv导入

、

我是，定期从互联网上抓取的一些数据，并在7/24的计算机上用python代码将其写入csv文件。这个csv文件在我的dropbox文件夹中，所以我可以随时随地用它的dropbox链接检查它。我也可以在我非常简单的21岁主题WordPress页面上动态发布它吗？我的意思是，每当我检查我的网页时，我都想看到csv文件中的新数据。选中WP全部导入，但只有pro版本才能从URL和最便宜的pro导入csv文件。是100美元。对我来说，为这样一个业余项目付出这样的代价是毫无意义的。有什么建议吗？

浏览 1提问于2021-05-22得票数 0

1回答

在运行while循环后收到ElementClickInterceptedException

、、

我正在尝试抓取以下网站：https://signal.nfx.com/investor-lists/top-gaming-esports-seed-investors“加载更多按钮”的超文本标记语言代码是 <button type="button" class="btn-xs sn-light-greyblue-accent-button sn-center mt3 mb2 btn btn-default">LOAD MORE GAMING/ESPORTS SEED INVESTORS</button> 我的代码是： My Code I

浏览 20提问于2020-12-20得票数 0

回答已采纳

1回答

PHP抓取嵌套页面

、、

我是新来的网络抓取，并需要快速学习工作。我在抓取客户网页时遇到了麻烦，因为我需要获取的内容对主页上的每个记录都是唯一嵌套的(300+时间)，子页面上的一些字段不在标签中，还有一点混乱。获取以下信息的最佳逻辑是什么？(另外，如果有人知道任何更新的、免费的、值得研究的抓取工具，那就太棒了。我能够获取父页面上的所有记录。我只是不知道如何跳过每条记录来访问它的子页面信息，并在移动到父页面的下一行之前抓取它。

浏览 0提问于2011-12-12得票数 0

回答已采纳

2回答

用Requests.get爬行URL列表

、

我试图抓取CSV文件中包含的URL列表。网址列在CSV第6栏中。URL的格式是：。下面的代码没有正确读取CSV中的数据。我在哪里做编码错误？ list_of_urls = open(filename).read() for i in range(6,len(list_of_urls)): try: url=str(list_of_urls[i][0]) #crawl urls secondCrawlRequest = requests.get(url, headers=http_headers, timeout=5)

浏览 4提问于2016-03-20得票数 0

回答已采纳

2回答

如何用不同需求的Nokogiri从数据库中抓取不同的URL

、、、、

我尝试使用Feedjira来帮助分析来自新闻提要的内容，但现在RSS提要似乎只链接到内容，而不是像我在"“中发现的那样将它们包含在RSS中。我计划使用Feedjira获取文章的URL，然后使用Nokogiri抓取文章并挑选出相关部分。问题是，每个媒体出口将有他们的页面不同的格式，我需要知道最好的方式为诺基亚采取的URL从数据库(由Feedjira提供)，并根据相关的馈送标题(也从Feedjira同步的数据库)以一种特定的方式抓取页面，并将其保存到数据库中的一个单独的表。有人有什么建议吗？

浏览 18提问于2017-01-16得票数 0

1回答

Apache Nutch 2.1不同的批次id (空)

、、

我用Apache Nutch 2.1抓取了几个网站。在抓取时，我在许多页面上看到以下消息：例如。正在跳过；不同的批次id (null)。是什么导致了这个错误？我如何解决这个问题，因为具有不同批处理id (null)的页面没有存储在数据库中。我爬行的站点是基于drupal的，但我已经在许多其他非drupal站点上尝试过。

浏览 0提问于2013-02-12得票数 8

1回答

如何通过已登录用户的accessToken使用passport.js获取JSON？

、、、、

在使用passport提供的访问令牌时，我可以执行GET请求以从discord中抓取JSON。如何使用passport抓取已登录用户的accessToken，以便在另一个页面上执行GET请求？ passport.use(new DiscordStrategy({ clientID: keys.discord.clientID, clientSecret: keys.discord.clientSecret, callbackURL: '/auth/discord/redirect' }, (accessToken, refreshToken, profi

浏览 1提问于2018-08-24得票数 0

1回答

检查url是否存在时识别转发

、、、

我有一些网址，我需要抓取。我不知道有多少。这就是为什么我只是迭代它们的原因。不幸的是，当页面不存在时，xml2::read.html会得到一个错误，这会中断我的循环。当我使用Rcurl::url.exists或httr::http_error检查超文本标记语言是否存在时，我没有得到任何指示页面不在那里，因为我被转发了。 > url <- "https://zoek.officielebekendmakingen.nl/h-tk-20152016-1-6" > xml2::read_html(url) Error in open.connection(x, &

浏览 10提问于2019-07-18得票数 0

回答已采纳

1回答

Nutch 2.x不爬行像flipkart和jabong这样的网站

、、、

我用nutch做了一些实验来抓取没有任何ajax调用的网站，我得到了所有的数据。我执行了以下步骤来获取数据。 user@localhost:~/sample/nutch/runtime/local/bin$ ./nutch注入/path/to/seed.txt $：./nutch生成-batchId 321 $：./nutch fetch 321 $：./nutch解析321 $：./nutch updatedb 我使用hbase作为存储hdfs上文件的存储器。如果我执行这5个步骤，如果url是，它会给我所有的数据，但是如果我将它更改为，它就不会给我任何数据。我

浏览 2提问于2014-07-13得票数 4

回答已采纳

2回答

Nutch没有从seed.txt中抓取所有的URL

、

我是Nutch和Solr的新手。目前，我想抓取一个网站，其内容是由ASP生成。因为内容不是静态的，所以我创建了一个seed.txt 包含了我想爬的所有URL。例如： http://us.abc.com/product/10001 http://us.abc.com/product/10002 http://jp.abc.com/product/10001 http://jp.abc.com/product/10002 ... regex-urlfilter.txt具有以下过滤器： # accept anything else #+. +^http://([a-z0-9]*\.)*abc.co

浏览 2提问于2012-10-25得票数 2

1回答

BeautifulSoup解析器混淆- HTML

我试图从另一个站点上抓取一些内容，但我不确定为什么BeautifulSoup会产生这样的输出。它只在匹配中找到一个空格，但真正的HTML包含大量标记。如果这是我的愚蠢之处，我道歉。我是python的新手。下面是我的代码： import sys import os import mechanize import re from BeautifulSoup import BeautifulSoup def scrape_trails(BASE_URL, data): #Get the trail names soup = BeautifulSoup(data) site

浏览 0提问于2011-01-09得票数 1

回答已采纳

1回答

ASP.NET在与登录提示交互后获取重定向的URL

、、、、

在完成Facebook登录后，我正在尝试从IE浏览器控件中抓取URL。当我尝试在登录后检测重定向时，问题就出现了。我使用的是Response.Redirect(Url，false)函数，但这只允许我在页面加载之前与其交互，而不是在加载之后。当Page_Unload函数中没有响应对象时，如何在页面加载后(在登录进程结束时触发)检测重定向？我卡住了。生命周期文档没有提到卸载后的任何状态，这正是我必须刮取URL的时候。但是，我尝试过使用IsPostBack，但是直到关闭窗口之后，代码才会达到这一点。任何帮助都是非常感谢的。 System.IO.StreamWriter file = new Sy

浏览 2提问于2014-07-29得票数 0

回答已采纳

1回答

Ruby on Rails -延迟的作业返回作业id

、

我有一个Rails应用程序，它基本上抓取了很多RSS提要。每个提要都有一个爬行间隔，例如3个小时。问题是，由于它每天都在抓取越来越多的提要(添加的越来越多)，有时在延迟的作业抓取提要之前3个小时就结束了。这带来了越来越多的就业机会。我希望我的问题是清楚的。因此，我想要做的基本上是保存每个提要的当前作业id，并在将该提要的新作业添加到队列之前检查作业是否已经完成。最好的方法是什么？

浏览 3提问于2013-05-07得票数 0

2回答

如何抓取页面上某一关键字最后修改过的文件

、

我这里有一段代码，它从一个目录中抓取最后修改过的文件。但是，我希望它排除任何上面写有“占位符”的文件。我如何修改它，使其排除这些文件，特别是因为在其页面上写有“占位符”的文件通常是最后修改的文件？下面是我的代码： <?php $dir = "path goes here"; $pattern = '\.(php)$'; // check only file with these ext. $newstamp = 0; $newname = ""; if ($handle =

浏览 0提问于2013-10-29得票数 0

1回答

从源提取数据时的刮取问题

、、、、

我正在尝试使用selenium来抓取:- ，并且我能够做到这一点。在这种情况下，由于我们不允许在我工作的地方使用selenium，有什么替代硒的方法吗？我试着用：- df = pd.read_csv("https://www.adsbhub.org/station.php?SessID=&StationID=2018&webkey=f52c6b61bab2*80wwe952*d5a2*e2*8c968") 但是有个错误：- ParserError:错误标记数据。C错误:第7行中的预期1字段，saw 4 我对这个概念很陌生，对这个错误一无所知。 data

浏览 2提问于2022-07-05得票数 1

1回答

刮痕连杆萃取器

、、

我正在尝试使用scrapy编写一些代码，这些代码将遵循特定的链接，以便在adobe服务器上备份数据。然而，我对刮擦和它的用法还是很陌生的。这段代码还处于初级阶段，到目前为止，我所掌握的大部分内容都是从“刮伤”教程中获得的。到目前为止，我最大的问题一直是在最初登录后抓取链接的页面。 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class LoginSpider(CrawlSpider): name = 'ex

浏览 0提问于2016-01-06得票数 1

回答已采纳

1回答

使用rvest从主页获取href (SelectorGadget和检查源代码)

、、、

我正在使用rvest抓取一个网站(here)。我正在尝试获取列出的所有582个人的URL。例如，其中一个人的网址是here。一旦我在一个单独的URL中，我就能够成功地抓取我正在寻找的信息。下面是一个这样的例子： link = "https://www.supercluster.com/astronauts/jessica-u.-meir?sort=&ascending=false&life%20form=human&" page = read_html(link) # Time in space and spacewalk time page %

浏览 30提问于2021-02-01得票数 0

1回答

Python+BeautifulSoup:从网页中抓取特定的表

、、

我正试着从：中抓取一个特定的表我想要的是股票信息。日期、公司名称、比率以及是否可以选择。到目前为止，我的情况如下： from bs4 import BeautifulSoup import urllib2 url = "http://biz.yahoo.com/c/s.html" page = urllib2.urlopen(url) soup = BeautifulSoup(page.read()) alltables = soup.find_all('table') 这段代码给出了页面上的所有表(不止一个)。 1)我不知道如何确定我需要的表格。 2

浏览 5提问于2016-01-07得票数 1

回答已采纳

1回答

我什么时候必须设置头部，我如何获取它们？

、、

我正在尝试从www.blogabet.com抓取一些信息。同时，我在udemy上一个关于网络爬行的课程。我注册的课程的作者已经给了我问题的答案。不过，我不太明白为甚麽我要做他所说的具体步骤。你可以在下面找到他的代码。我在问自己: 1.对于哪些网站我必须使用标题? 2.我如何获得我必须在标题中提供的信息? 3.我如何获取他获取的url？基本上，我只是想获取：https://blogabet.com/tipsters 非常感谢:) scrapy shell from scrapy import Request url = 'https://blogabet.com/tipsters

浏览 13提问于2019-09-10得票数 0

回答已采纳