使用scrapy和FormRequest抓取所有页面_Scrapy不能抓取所有页面_使用scrapy抓取多个页面 - 腾讯云开发者社区

python-3.x、web-scraping、scrapy

我想在这个网站上删除所有形成的链接：https://www.formatic-centre.fr/formation/ 显然，接下来的页面是用AJAX动态加载的。我需要使用scrapy中的FormRequest来模拟这些请求。这就是我所做的，我使用开发人员工具查找参数：ajax1 我将这些参数放入FormRequest中，但显然如果它不起作用，我需要包括头文件，这就是我所做的：ajax2 但它也不起作用..我猜我做错了什么，这是我

浏览 10提问于2020-10-23得票数 1

回答已采纳

1回答

在scrapy shell中呈现JS内容的FormRequest

scrapy、dynamic-content

我正在尝试从这个page中抓取以下表单数据的内容：我需要将County:设置为George's，并将DateOfFilingFrom设置为01-01-2000，因此我执行以下操作： % scrapyshell In [1]: from scrapy.http import FormRequestIn [2]: request = FormRequest(url='https://registers.maryland.gov/RowNetWeb/

浏览 24提问于2020-08-24得票数 1

回答已采纳

2回答

Scrapy不会抓取整个网站

scrapy

我试着用认证系统抓取整个网站。没有我的auth函数，一切都可以正常工作。当我使用我的auth函数时，只抓取登录和抓取主页。为什么它不抓取规则部分中定义的所有链接？from scrapy.linkextractors import LinkExtractorfrom scrapy.httpimport Request,

浏览 22提问于2019-06-03得票数 0

回答已采纳

2回答

重复的请求发布到scrapy FormRequest

python、scrapy、python-requests

我正在尝试学习如何在网站上抓取FormRequest的工作方式，我有以下抓取代码：import json #yield scrapy.FormRequest</e

浏览 1提问于2019-08-12得票数 3

1回答

使用Scrapy在搜索字段中输入字符串；加载生成的URL

scrapy、web-crawler、search-box

在这个网站的输入框中自动输入邮政编码值"27517“的正确方法是：是使用表单请求吗？我现在要说的是：from scrapy.http import FormRequestfrom scrapy.httpimport FormRequest class LkqSpid

浏览 1提问于2016-05-20得票数 0

回答已采纳

1回答

使用Selenium和Scrapy通过onclick抓取显示的数据

python、selenium、scrapy

我使用Scrapy用python编写了一个脚本，以便使用身份验证从网站上抓取数据。我正在抓取的页面真的很痛苦，因为主要是由javascript和AJAX请求组成的。页面的所有主体都放在允许使用submit按钮更改页面的<form>中。URL不会改变(而且是一个.aspx)。我已经成功地从第一页抓取了所需的所有数据，然后使用以下代码更改

浏览 38提问于2019-02-21得票数 0

2回答

在登录后刮取urls列表

scrapy

要刮除的站点有多个具有多个页面的项目，并且需要登录。我试过： return [scrapy.FormRequest(, callback=self.logged_in)] 这将导致所有页面 of one项目(登录成功)，但随后就停止了。如果函数return scrapy.Reque

浏览 6提问于2016-03-11得票数 1

2回答

Scrapy crawler无法从多个页面爬行数据

python、web-scraping、scrapy、web-crawler

我正在尝试删除以下页面的结果： `import sys from scrapy.selector import HtmlXPathSelectorfrom scrapy.contrib.spiders import CrawlSpider, Rule from sc

浏览 1提问于2013-06-01得票数 1

1回答

Scrapy Spash不爬行

python、scrapy、scrapy-splash

&compNumber=37958&aracompNumber=0 我需要使用Splash来渲染链接，因为这个网站是用javascript编写的，搜索结果是动态加载的。当我尝试打印链接列表时，抓取器就是不爬行。这是我非常简单的代码： import scrapy 'scrapy_sp

浏览 17提问于2021-06-28得票数 0

1回答

如果我们有使用python scrapy的凭据，如何抓取一个有登录的网页？

python-2.7、scrapy-spider

我只想知道如何将请求与登录凭据一起发送到登录页面以获取数据。

浏览 8提问于2018-09-03得票数 1

回答已采纳

2回答

无法使用刮伤认证fandromeda

authentication、scrapy、http-post

我刚开始刮刮网站上的一些数据，但我需要先进行身份验证，然后才能开始抓取所需的数据，如下所示 from scrapy.spiders import CrawlSpiderfrom$$$$$") form_data = {'username': &#

浏览 4提问于2016-12-01得票数 0

回答已采纳

1回答

已使用scrapy和pyquery登录到Stackoverflow，但无法进行进一步的抓取

python、scrapy、stackexchange

我目前正在学习使用scrapy进行web抓取，并尝试/学习各种登录stackoverflow的方法，然后提取一些问题来练习web抓取。我已经使用scrapy和pyquery成功登录到stackoverflow，使用的代码如下：import requestsfrom pyqueryimport PyQuery from scrapy import

浏览 3提问于2020-10-13得票数 1

1回答

Python Scrapy* -无法登录到站点*

python、scrapy

当涉及到Scrapy时，我是一个新手，多亏了文档，我了解底层的基本抓取和爬行操作。然而，我在登录网站时遇到了困难。下面是我的代码：import scrapyfrom scrapy.utils.response importopen_in_browser ""&quo

浏览 0提问于2018-11-20得票数 1

1回答

使用scrapy从facebook中抓取数据

facebook、web、web-crawler、scrapy

facebook上的新图表搜索允许您使用查询令牌搜索一家公司的现有员工- Current Google (例如)。import sysfrom scrapy.http import Fo

浏览 3提问于2013-05-31得票数 5

1回答

无法使用刮伤登录

python、scrapy

我正在尝试刮一个我必须先登录的页面，但是由于某种原因，在我使用FormRequest之后，刮除会爬上另一个没有什么关系的页面。请参阅下面的代码：import scrapy tipo = scrapy.Field() link = scrapy.

浏览 1提问于2017-07-25得票数 0

回答已采纳

1回答

将在Scrapy中建立的会话cookie传递给Splash，以便在抓取js页面时使用

python、scrapy、pycharm、scrapy-splash

首先，我想说我是Scrapy的新手！我有一个网站，需要登录后才能用Scrapy刮任何数据。我将要抓取的数据是在登录后由JavaScript生成的。我已经能够成功地使用Scrapy登录。我的问题是，现在我已经登录并拥有必要的cookies来继续请求网站，当我在报告页面上调用SplashRequest时，如何将这些cookies传输到Splash，我想用Scrapy抓取这些cookie？我的思维过程是错误的，我应该使用Scra

浏览 26提问于2021-01-23得票数 0

回答已采纳

1回答

刮伤型FormRequest

python、scrapy、http-post、infinite-scroll

我对刮伤的FormRequest有困难。我试图从这个页面获得所有评论(无限滚动)：但是，当我尝试使用scrapy命令行时，我无法得到正确的响应。from scrapy import FormRequest fetch("https://www.temporel-voyance.com/voyance/plannin

浏览 1提问于2018-10-20得票数 1

回答已采纳

1回答

Scrapy使用selenium和chrome驱动程序在多个请求中保留会话

python、scrapy

我正在使用Scrapy和Selenium和chrome驱动程序来抓取一个网站。我不能刮网站使用Scrapy只是因为有一些保护机制在网站上实施，这是给404。当我在scrapy中使用selenium时，我能够访问页面html。但问题是，当我使用selenium时，我无法保留通过scrapy访问的所有链接上的会话cookie。# -*- coding: utf-8 -

浏览 0提问于2017-09-18得票数 0

2回答

我可以使用scrapy来点击没有href但有onclick属性的按钮吗？

python、button、scrapy、onclick、screen-scraping

我是Scrapy的新手，我遇到了一个问题。我正在尝试从使用此类型按钮的网页中提取信息： <a id="" href="#" ... onclick="function()..."我一直在寻找示例，但它们都可以使用href。有解决方案吗？我需要使用其他工具来完成这项工作吗？谢谢

浏览 38提问于2021-07-21得票数 0

2回答

Scrapy搜索查询中的POST请求

python、scrapy、web-crawler、scrapy-spider

我试图使用一个抓取蜘蛛爬行一个网站，使用一个FormRequest发送关键字到一个特定城市的网页上的搜索查询。看上去很直截了当，但我有麻烦了。Python非常新，很抱歉，如果有明显的东西，我忽略了。_-_Gainesville-224/recents 从我找到的特定页面的来源：<input name="dnn$ctl01$txtSearch" type="text" maxlength="255"/>，我认为搜索的

浏览 4提问于2016-03-23得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云