您好，我是一个新手，我正在尝试使用scrapy抓取一个特定的站点，但是我的scrapy程序没有返回任何东西 - 腾讯云开发者社区

、

我是一个全新的Scrapy新手，我可以在这里给你一些提示。我意识到有很多类似的问题，但似乎没有一个能解决我的问题。我有以下代码为一个简单的网络刮板写的： import scrapy from ScriptScraper.items import ScriptItem class ScriptScraper(scrapy.Spider): name = "script_scraper" allowed_domains = ["https://proplay.ws"] start_urls = ["https://proplay

浏览 15提问于2020-06-12得票数 0

回答已采纳

1回答

使用Scrapy和selenium抓取网站

、、

我打算用Scrapy在上抓取html内容。但是，由于站点的Javascript使用和#，我想我也必须使用Selenium (Python)。我想写我自己的代码，但我是编程新手，所以我想我需要帮助；我想先进入ntry.com，然后单击一个名为的锚点转到 <body> <div id="wrap"> <div id="container"> <div id="content"> <a href="/sco

浏览 2提问于2016-11-26得票数 0

1回答

将值传递给刮伤回调。

、

我正试图开始爬行和抓取一个网站到磁盘，但有困难，使回调功能的工作，我想。下面的代码将访问start_url并查找站点上的所有"a“标记。对于其中的每一个，它将进行一个回调，即将文本响应保存到磁盘，并使用crawerItem存储有关页面的一些元数据。我希望有人能帮我弄清楚怎么通过每个回调的唯一id，以便在保存文件时可用作文件名。传递起始页的url，以便通过项将其添加到元数据中。跟随子页面上的链接进入更深层次的站点。下面是我目前为止的代码 import scrapy from scrapy.spiders import Rule from scrapy.li

浏览 2提问于2016-06-02得票数 1

2回答

当我使用正确的CSS选择器时，我的网络爬行器返回一个空列表。

、、、、

我正在尝试通过使用selenium或scrapy从这个特定的url中抓取一些数据。我已经没有问题地抓取了其他页面，但是当涉及到这些特定的urls时，im试图抓取到列表中的信息返回为空。我使用了scrapy，然后转到使用selenium，但结果是相同的。我还使用了pycharm和chromedriver。我特别寻找的信息是'‘上所有不同的手机型号。我打印这个列表只是为了发现没有从站点上抓取任何东西，或者更确切地说，抓取是成功的，但没有返回任何东西。当我试图从这里抓取任何东西时，也会发生同样的情况： from selenium import webdriver #open chr

浏览 0提问于2019-05-30得票数 0

1回答

无法理解在哪里查找源代码，以便创建一个web抓取器

、、

我是python的新手，从今年夏天开始断断续续地自学。我正在阅读scrapy教程，偶尔阅读更多关于html/xml的内容来帮助我理解scrapy。我自己的项目是模仿scrapy教程，以便抓取。我想得到一个线程标题的列表以及线程的网址，应该是简单的！我的问题在于不理解xpath，我猜也不理解html。当查看gamefaqs站点的源代码时，我不确定要查找什么才能拉出链接和标题。我想说的是，只需查看锚点标记并抓取文本，但我对如何操作感到困惑。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSele

浏览 1提问于2012-11-20得票数 1

回答已采纳

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我是个新手，写了我的第一个爬虫，为类似的网站做了一个爬虫。我想要抓取标题，然后导航到每篇文章，抓取每篇文章的文本内容。我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None) 下面是我的代码 import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class MedicalSpider(scrapy.Spider): name = 'medical' allowe

浏览 1提问于2019-07-09得票数 1

3回答

使用Scrapy增量抓取网站

、

我是个爬虫新手，我想知道是否可以使用Scrapy来增量地爬行一个站点，比如CNBC.com？例如，如果今天我抓取了一个网站的所有页面，那么从明天开始，我只想收集新发布到这个网站上的页面，以避免抓取所有旧页面。感谢您提供的任何信息。或对此进行输入。

浏览 0提问于2016-05-18得票数 3

2回答

使用scrapy将抓取的项目保存到json/csv/xml文件

、

我正在从他们的学习(一个网络爬行框架)。通过以下示例和文档，我创建了我的爬行器，以便使用站点地图抓取数据 from scrapy.contrib.spiders import SitemapSpider from scrapy.selector import Selector from MyProject1.items import MyProject1Item class MySpider(SitemapSpider): name="myspider" sitemap_urls = ['http://www.somesite.com/sitemap

浏览 2提问于2014-02-04得票数 4

1回答

还有其他方法可以获得代理列表和站点抓取吗？

、

通过抓取，我使用随机代理中间件为Scrapy ()。首先，我通过抓取免费的代理站点(不使用代理旋转)获得list.txt (代理列表)，然后，当我通过两个不同的Scrapy项目运行它时，我会对另一个站点进行抓取(使用代理旋转)，它工作得很好。问题是如何将获取代理和抓取合并到一个粗糙的项目中，还是有其他方法来处理它？我试图在一个Scrapy项目中一起运行它，不幸的是，它不起作用。可能是因为在这种情况下，尝试使用list.txt进行代理旋转，此时请求释放代理站点是空的。

浏览 1提问于2019-06-23得票数 0

回答已采纳

2回答

在登录后刮取urls列表

要刮除的站点有多个具有多个页面的项目，并且需要登录。我试过： def start_request(self): return [scrapy.FormRequest(, callback=self.logged_in)] def logged_in(self, response): with open(...) as f: for url in f.readlines(): return scrapy.Request(url, callback=self.parse) def parse(self, response): ..

浏览 6提问于2016-03-11得票数 1

1回答

怎样才能让Scrapy正确地发出回调？

、、、

我目前正在尝试使用Scrapy框架来简单地收集一堆URL，以便稍后存储和排序。然而，我似乎不能让URL打印或在回调时存储在文件中，无论我尝试过什么或改编自其他教程。下面是我的爬行器类在这个特定示例中要做的事情，选择一个小站点： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from crawler.items imp

浏览 0提问于2013-05-23得票数 0

1回答

Scrapy和硒:让scrapy等待硒？

、、、

我有一个蜘蛛，我用它来抓取一个网站。我只需要为我的项目的一部分javascript。所以我用scrapy抓取了站点的一部分，然后在selenium中打开URL。当URL打开时，scrapy仍在继续。如何让scrapy等待我的selenium逻辑完成？提前谢谢。

浏览 0提问于2016-12-16得票数 0

2回答

将scrapy爬虫构建到我自己的程序中，我不想从命令行调用scrapy )

、、

与这个问题类似：我想知道，我可以在另一个python程序中运行整个scrapy项目吗？假设我想要构建一个完整的程序，它需要抓取几个不同的站点，并且我为每个站点构建了整个scrapy项目。我想运行这些爬行器，并从它们获取信息，而不是从命令行运行。我可以在python ok中使用mongoDB，我已经可以构建包含爬虫的抓取项目，但现在只是将它们合并到一个应用程序中。我想运行一次应用程序，并且能够从我自己的程序中控制多个爬行器为什么要这样做？这个应用程序也可以使用API连接到其他站点，并且需要实时比较API站点和抓取的站点的结果。我不想从命令行调用scrapy，它都是自包含的。 (我最近一

浏览 0提问于2012-06-28得票数 8

回答已采纳

2回答

Python 3 web抓取选项

、

我是Python的新手，所以很抱歉这是一个新手问题。我正在尝试构建一个涉及web抓取的程序，我注意到Python3的web抓取模块似乎比Python2.x系列少得多。美汤、机械化和scrapy -这三个模块向我推荐--似乎都是不兼容的。我想知道这个论坛上有没有人有使用python3进行网络抓取的好选择。任何建议都将不胜感激。谢谢，威尔

浏览 1提问于2011-08-11得票数 5

1回答

Rasbperry Pi上的Scrapy和Javascript站点

、、

我试图抓取一个页面，这是由javascript修改后，在Raspberri Pi上使用Scrapy的初始加载。我试图安装docker和scrapinghub/splash来渲染页面，然后再将其传递给scrapy，但我意识到Splash还不支持ARM。在Raspberry Pi上使用javascript和Scrapy来抓取页面还有其他选择吗？目前，在站点上使用普通的scrapy请求，我只能得到这个html，这是因为站点首先加载，然后javascript呈现整个内容。所以在javascript之前，页面源代码看起来是空的： <body class="notie8 notie9 l

浏览 15提问于2017-08-13得票数 0

回答已采纳

1回答

使用Scrapy从使用java脚本生成数据的网站获取信息

、、、

我试图用Scrapy抓取一个网站，但是网站的网址没有改变，页面是用java脚本加载的。在我执行搜索之前，站点和URL是这样的：这是我执行搜索后站点和URL的外观：在这些情况下，我如何使用Scrapy从站点获取数据？

浏览 0提问于2016-07-26得票数 1

1回答

Python Scrapy -从url抓取的内容不是在start_urls中设置的

、、、

我是一个使用scrapy的新手，我对抓取的urls有疑问。我试图刮一个网站，你去的每个页面重定向到主页，当你点击一个横幅，你可以访问其他页面。我试着用 meta={'dont_redirect': True, 'handle_httpstatus_list': [301, 302] 以避免重定向，但从url抓取的内容仍然是错误的。所以我认为问题出在cookies上，为了测试它，我已经对cookies进行了硬编码，使其在进入站点时与浏览器一样，现在它不再重定向，我甚至不需要将“dont_redirect”放入meta中，但当我查看调试器时，它仍然在抓取主页。现

浏览 1提问于2019-04-21得票数 0

1回答

如何调度scrapy命令

、、

因此，我一直在使用scrapy进行web抓取。我已经开发了这个脚本，想知道有没有什么方法可以让我在Windows中使用Task Scheduler让它运行我的scrapy命令，用命令提示符抓取各种站点？谢谢!

浏览 4提问于2014-03-15得票数 1

1回答

禁止对某个url进行抓取

、

由于某些原因，某个移动url正在被抓取，而产生的url在被抓取时给出了一个错误。我想让scrapy忽略url，并且不调用parse方法或者其他任何东西。 class MySpider(scrapy.Spider): # name, allowed_domains etc rules = Rule(LxmlLinkExtractor(deny=r'/m/.+') # deny http://example.com/m/anything-here.html 但这并不起作用，这样的链接仍在被爬行。

浏览 2提问于2014-12-11得票数 0

1回答

在Coles.com.au 429上抓取产品链接时出现错误，共1个请求

、、

我是网络抓取的新手，想用抓取从下面的网站抓取链接： https://shop.coles.com.au/a/national/everything/search/bread?pageNumber=1 我创建了下面的xpath来抓取链接，当我通过查看并按下ctrl +f来测试它时，我得到了51个匹配项，这与产品的数量相等，因此看起来是正确的： //span[@class="product-name"]/../../@href 但是，当我使用链接进入scrapy shell并应用以下命令时： response.xpath('//span[@class="produ

浏览 14提问于2020-07-05得票数 1

2回答

使用Python Scrapy时的HTTP 403响应

、、

我在64位Windows Vista上使用的是Python.org 2.7版。我一直在测试下面的Scrapy代码，以递归地抓取www.whoscored.com站点上的所有页面，该站点用于足球统计： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spid

浏览 0提问于2014-07-18得票数 11

回答已采纳

2回答

在web服务器上使用java内容的抓取

、、

我想从一个显然使用javascript生成表的站点(这个站点是oddsportal.com)中抓取内容。我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？例如，我想从这个页面导入完整的表，包括标题、匹配名和赔率。

浏览 3提问于2016-01-28得票数 1

回答已采纳

2回答

Scrapy不会抓取url

、

我正在试着做一个简单的抓取程序，从网站http://quotes.toscrape.com/抓取引文。输出应存储在html文件中。但是当我运行代码时，它不会输出任何东西。终端显示它抓取了0页Terminal output 这是以下代码。你能帮我吗?有点不对劲，谢谢 import scrapy class SimpleSpider(scrapy.Spider): name ="SimpleSpider" def start_request(self): urls = [ 'http://quotes.t

浏览 29提问于2020-09-05得票数 0

回答已采纳

1回答

如何将Keep_Fragments参数设置为True？

我正在尝试抓取一个使用Js的站点，但scrapy一直将下一个页面的url作为副本丢弃，并停止抓取。根据我的理解，scrapy通过检查请求所指向的资源的散列来检查重复项，默认情况下会丢弃URL中的片段。可以通过更改request_fingerprint模块中的Keep_Fragments命令来更改此行为。(参见下面的scrapy发布说明摘录) “scrapy.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹(问题4104)” 我的问题是，如何实际修改这个参数？

浏览 20提问于2020-09-09得票数 0

回答已采纳

1回答

如何让Scrapy只抓取Xpath中的链接？

、、

我是Scrapy的新手，我想做的是做一个爬虫，它只会跟踪给定start_urls上的HTML元素中的链接举个例子，假设我只想让一个爬虫程序遍历start_urls设置为的AirBnB清单我不想抓取URL中的所有链接，而是只想抓取xpath中的链接目前，我正在使用以下代码来抓取所有的链接，我如何才能使其仅抓取//*[@id="results"] from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem from scrapy.contrib.sp

浏览 0提问于2012-12-25得票数 6

回答已采纳

2回答

如果在python中扩展一个类，如何导入另一个类并使用它？

、、、

所以我在玩Scrapy，它是一组类，允许你进行web抓取，我想把一些数据放到数据库中，但我让truble在扩展scrapy库的同时导入MySQL方法。下面是我的代码： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request import MySQLdb class test(BaseSpider): #if i don't extend the class the MySQL works, but the Sc

浏览 2提问于2011-12-10得票数 0

回答已采纳

1回答

我能用scrapy抓取本地机器上的html页面吗？

、

我是scrapy的新手。我需要做一个使用scrapy的小演示。我使用scrapy来抓取stackoverflow，并且我成功了。我想尝试在存储在本地机器中的html页面上执行此操作。有可能吗？请帮帮我

浏览 3提问于2016-02-17得票数 1

1回答

抓取-只浏览博客文章

、、、

我正在使用Scrapy来抓取网站，但我想知道是否有一种方法可以将其设置为只抓取网站的博客文章(即不包括页面)？我可能会为每个站点创建特定的规则来使其工作，但是如果我需要爬行多个站点的话，这太费时了。有没有办法让一个爬虫在所有网站上通用，只抓取博客帖子？我对此表示怀疑，但我祈祷一些天才对此有个答案。下面是我从Scrapy文档中提取的基本代码。我需要补充些什么才能让这件事奏效？ from scrapy.contrib.spiders import CrawlSpider class MySpider(CrawlSpider): name = 'crawlit'

浏览 6提问于2013-05-26得票数 1

1回答

递归Scrapy爬行问题

、、、、

我正在尝试做一个递归蜘蛛来从一个有特定链接结构的站点(例如: web.com)中提取内容。例如：正如您所看到的，URL的数字部分正在更改，我需要抓取此URL结构后面的所有链接，并提取itemX、itemY和itemZ。我已经将链接结构翻译成正则表达式：'\d+?qid=\d+.\d+&source=location&rank=\d+‘。Python-Scrapy代码如下，然而，在我运行爬行器之后，爬行器没有提取任何东西： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXP

浏览 0提问于2014-06-22得票数 2

1回答

Scrapy不能打印到json、html或任何其他文件。

、、

我正在尝试将抓取的元素输出到一个json文件。当我选择打印出页面quotestoscrape.com的整个正文时，它成功地这样做了。但是，当我选择打印某些元素时，比如span标记或p标记，在json文件中不会显示任何抓取的项目。下面是我的抓取文件，它试图从站点quotestoscrape.com抓取span.text元素： import scrapy class heyhey(scrapy.Spider): name = "samuelbb" start_urls = ["http://quotes.toscrape.com"] de

浏览 14提问于2020-08-17得票数 1

回答已采纳

1回答

Scrapy :与二级网站互动时的程序组织

、

我正在使用Scrapy 1.1，我有一个项目，我有一个爬虫'1‘抓取站点A(在那里我获得了90%的信息来填充我的项目)。然而，根据站点A抓取的结果，我可能需要从站点B抓取额外的信息。就开发程序而言，在爬虫'1‘中抓取站点B是否更有意义，或者是否可以从管道对象中与站点B交互。我更喜欢后者，认为它解耦了2个站点的抓取，但我不确定这是否可能，或者是处理这种用例的最佳方式。另一种方法可能是对站点B使用第二个爬行器(爬行器'2')，但是我会假设我必须让爬行器'1‘运行，保存到db，然后运行爬行器'2’。无论如何，任何建议都将不胜感激。

浏览 16提问于2017-02-27得票数 0

回答已采纳

2回答

在python中使用scrapy解析开发人员网站的版本号

、、、

我正在尝试创建一个蜘蛛，抓取第三方软件的网站，以便创建当前版本号的存储库。这是我尝试使用脚本从站点css获取当前的Firefox版本号。我使用的是Python 2.7 import scrapy import html2text from scrapy.selector import HtmlXPathSelector class MozillaSpider(scrapy.Spider): name = 'mozilla' allowed_domains = ['mozilla.com'] start_urls = ['https://www.mozi

浏览 0提问于2018-04-06得票数 0

2回答

html类元素中的特殊字符是否阻止scrapy捕获元素？

、、

我以前用过Scrapy抓取过几个网站，所以我很熟悉它的语法，似乎不能捕获下面的class元素： ? 这是我最近尝试的方法： import scrapy from scrapy.selector import Selector import black class PeopleperhourSpider(scrapy.Spider): name = 'peopleperhour' start_urls = ['https://www.peopleperhour.com/hire-freelancers/technology-programming&

浏览 28提问于2021-04-05得票数 0

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

、、、、

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

scrapy:在scrapy finishing处理urls之后发布一些表单

、、、

我正在使用scrapy从一个会员的唯一网站抓取数据。我成功地执行了登录和抓取数据。然而，我现在需要在网站上提交一些表单，当抓取数据完成时。即:在读取所有数据之后，我想要将一些数据写入我正在抓取(读取)数据的站点。我的问题是：如何获得scrapy完成处理所有url抓取的通知，以便我可以执行一些表单提交？我注意到了一个解决方案-请看这里()，但是由于某些原因，我不能继续在self.spider_closed方法中产生更多的请求，因为它在这些示例中被调用，所以我可以进行一些写操作。

浏览 0提问于2015-04-15得票数 2

1回答

尝试让Scrapy在Windows中使用Pycharm

、、、

我正在迁移到Windows，并希望让Scrapy与Pycharm一起工作。我尝试添加以下内容： from scrapy.cmdline import execute 以及更改- /Library/Python/2.7/site-packages/scrapy/cmdline.py. It did not like this. 我的输出如下所示- 我也尝试过： from scrapy import cmdline cmdline.execute("scrapy crawl spider".split()) 以及将"script“参数设置为/path_to_pr

浏览 0提问于2017-11-16得票数 0

1回答

Python Scrapy -无法登录到站点

、

当涉及到Scrapy时，我是一个新手，多亏了文档，我了解底层的基本抓取和爬行操作。然而，我在登录网站时遇到了困难。下面是我的代码： test.py import scrapy from scrapy.http import FormRequest from scrapy.utils.response import open_in_browser class Test_spider(scrapy.Spider): """ Log into the provided site with Scrapy """ nam

浏览 0提问于2018-11-20得票数 1

1回答

Scrapy解析站点的某个部分，并忽略其余部分

、

当我运行我的抓取器时，它从一个站点抓取大约200条记录，而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。 "items.py“包括： import scrapy class WiseowlItem(scrapy.Item): Name = scrapy.Field() Url= scrapy.Field() 名为"wiseowlsp.py“的爬虫包括： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextracto

浏览 2提问于2017-04-11得票数 0

3回答

如何用scrapy和pyinstaller在windows10中创建一个可执行文件？

、、

我已经创建了一个抓取蜘蛛，并成功地转换为windows可执行文件使用pyinstaller与光盘文件夹。为了做到这一点，我必须在scrapy站点包中做一些细微的更改，并将这些包添加到windows磁盘文件夹中，它工作得很好。如何使用光盘文件夹中已注释的scrapy包将其转换为单个可执行文件？我已经尝试在pyinstaller中使用--OneFile命令，但它显示scrapy错误？

浏览 1提问于2019-03-25得票数 4

2回答

Scrapy Shell -如何更改USER_AGENT

、、、

我有一个功能齐全的抓取脚本从网站提取数据。在安装过程中，目标站点根据我的USER_AGENT信息禁用了我。随后，我添加了一个RotateUserAgentMiddleware来随机旋转USER_AGENT。这很好用。但是，现在当我尝试使用scrapy shell来测试xpath和css请求时，我得到了一个403错误。我确信这是因为scrapy shell的USER_AGENT默认为目标站点已列入黑名单的某个值。问:是否可以在scrapy shell中使用不同于默认的USER_AGENT来获取URL？ fetch('')添加什么?？更改USER_AGENT的步骤 Thx

浏览 0提问于2014-08-21得票数 19

回答已采纳

2回答

Scrapy没有抓取所有链接

、、

我正在使用Scrapy抓取和报废一个固定域名的网站。我想爬行到与固定正则表达式匹配的站点，并忽略其余的。代码运行得很好，但只返回至少1000页中的10-15页。代码是： name = "xyz" allowed_domains = ["xyz.com"] start_urls = ["http://www.xyz.com"] rules = (Rule(SgmlLinkExtractor(allow=[r'\/V-\d{7}\/[\w\S]+']),callback='parse_item'),) def

浏览 6提问于2014-04-04得票数 0

1回答

为什么Scrapy只抓取一个页面？

我正在尝试测试抓取网页的Scrapy，我不明白为什么我的爬虫只抓取一个页面，我尝试评论规则和allowed_domains都没有成功。我想我遗漏了一些愚蠢的东西如果能帮上忙我会很感激的。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.spider import BaseSpider from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class NYSpider(CrawlSpider): name = "ny

浏览 3提问于2012-03-21得票数 1

回答已采纳

1回答

scrapy避免爬虫注销

、

我正在使用scrapy库来方便抓取网站。网站使用身份验证，我可以使用scrapy成功登录页面。该页面有一个URL，该URL将注销用户并销毁会话。如何确保scrapy在爬行时避免注销页面？

浏览 1提问于2013-07-11得票数 1

回答已采纳

1回答

如何在Scrapy中有条件地重试和重新整理当前页面？

、、

我是Scrapy的新手，对Python也不是很熟悉。我已经设置了一个抓取器来从网站上抓取数据，但是虽然我使用的是代理，但如果同一个代理被使用太多次，那么我的请求就会显示一个页面，告诉我访问太多页面太快(HTTP状态代码200)。因为我的抓取器看到的是页面的状态代码为on，它找不到所需的数据并移动到下一页。我可以确定何时通过HtmlXPathSelector显示这些页面，但是我如何通知Scrapy重试该页面呢？

浏览 1提问于2013-03-25得票数 3

回答已采纳

1回答

已使用scrapy和pyquery登录到Stackoverflow，但无法进行进一步的抓取

、、

我目前正在学习使用scrapy进行web抓取，并尝试/学习各种登录stackoverflow的方法，然后提取一些问题来练习web抓取。我已经使用scrapy和pyquery成功登录到stackoverflow，使用的代码如下： import scrapy import requests import getpass from pyquery import PyQuery from scrapy import FormRequest from scrapy.utils.response import open_in_browser class QuoteSpider(scrapy.Spide

浏览 3提问于2020-10-13得票数 1

2回答

如何使用python抓取延迟加载映像

、、、

这是我用来爬行网页的代码。我想刮的站点已经启用了图像延迟加载，所以刮伤只能抓取100个图像中的10个，其余的都是placeholder.jpg。在Scrapy中处理延迟加载映像的最佳方法是什么？谢谢! class MasseffectSpider(scrapy.Spider): name = "massEffect" allowed_domains = ["amazon.com"] start_urls = [ 'file://127.0.0.1/home/ec2-user/scrapy/amazon/amazon.html', ]

浏览 2提问于2016-04-30得票数 3

回答已采纳

5回答

Scrapy -如何识别已经抓取的urls

、、

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

1回答

Scrapy用规则爬行所有链接吗？

、

代码来源：是python和scrapy的新手。我搜索递归蜘蛛并找到了这个。我有几个问题：接下来是怎么做的？它只是从页面中获取href链接并将其添加到请求队列中吗？抓取是从网页的哪一部分抓取的？下面的代码会刮掉网页上的所有链接吗？让我说我想从这个网站抓取和下载每一个文件我可能会这样做的方式是刮刮这个网站上的每一个链接，并检查URL的内容标题和下载，如果它是一个文件。这可行吗？抱歉，如果这是个糟糕的问题..。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.

浏览 0提问于2016-03-24得票数 0

1回答

如何使用scrapy在代理(2层)上进行代理？

、、、

如何使用实现proxy over proxy (2层)？我假设这里是http/https代理。例如，我的本地计算机-->proxy1 -->proxy2 -->我要抓取的站点。如何在scrapy中做到这一点？我为什么要这样做？这样做的目的是隐藏我的ip地址。你可以认为proxy1是非常可靠的，但是它被我想要抓取的站点屏蔽了。而且proxy2并不可靠，但是可以访问我想要抓取的站点。我可以做我的本地机器-->proxy2 -->我想抓取的站点。但是因为proxy2不可靠，所以我可以将我的ip地址暴露给我想要抓取的站点。所以我想在proxy2之前再加一层来保护它

浏览 1提问于2016-05-14得票数 0

1回答

无法通过scrapy从网站提取数据，但可以使用xpath helper扩展

、、、

因此，我创建了一个抓取蜘蛛来从https://www.sportstoto.com.my/result_print.asp?drawNo=5291/21等站点提取数据这是我的代码， import scrapy from totoprintasp.items import Result def generate_start_urls(): drawNums = ['5291/21'] return ['https://www.sportstoto.com.my/result_print.asp?drawNo={}'.format(d

浏览 31提问于2021-06-23得票数 0

回答已采纳