当我运行我的抓取器时,它从一个站点抓取大约200条记录,而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。
"items.py“包括:
import scrapy
class WiseowlItem(scrapy.Item):
Name = scrapy.Field()
Url= scrapy.Field()
名为"wiseowlsp.py“的爬虫包括:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextracto
我正在抓取,您可以看到有体裁部分,我想作为一个csv返回到最初的18页,在显式体裁之前停止,,我怎么能这样做呢?这是我的密码
# -*- coding: utf-8 -*-
import scrapy
from scrapy.exceptions import CloseSpider
class Link(scrapy.Item):
link = scrapy.Field()
class LinkListsSpider(scrapy.Spider):
name = 'link_lists'
allowed_domains = ['ht
我上周已经发过帖子了,我的机器人总是在321页面被屏蔽。我更改了Scrapy设置,但注意到321和结尾处之间的页面似乎没有包含项目。
我想知道如何跳过产生错误的页面。我试过这个:
next_pages = response.xpath("//div[@class='pgLightPrevNext']/a/@href").extract() #essai pour accéder au contenu des pages suivantes
for next in next_pages:
absolute_url = self.ba
我试图爬行viagogo.com我想爬行的每一个显示从页面:我能够得到第一页的显示,但当我试图移动下一页它就是不爬行!下面是我的代码:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from viagogo.items import ViagogoItem
from scrapy.http imp
我正在尝试从https://www.goodreads.com/quotes中提取引文。似乎我只得到了第一页,而下一页部分不起作用。下面是我的代码: import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = [
'http://www.goodreads.com/quotes'
]
def parse(self,response):
for quote in response.xpath(
试图找出刮刮是如何工作的,并使用它来查找论坛上的信息。
items.py
import scrapy
class BodybuildingItem(scrapy.Item):
# define the fields for your item here like:
title = scrapy.Field()
pass
spider.py
from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from bodybuilding.items import Bodybuildi
好的,所以我正在开发一个基于抓取的网络爬虫,它有一些简单的功能。机器人应该从一个页面转到另一个页面,解析然后下载。我已经让解析器工作了,下载也开始工作了。我不能让爬虫开始工作。我读过Spider类的文档,阅读了解析应该如何工作的文档。我已经尝试过回归和屈服,但我仍然无处可寻。我不知道我的代码哪里出错了。根据我编写的调试脚本,所发生的事情如下。代码会运行,它会很好地抓取第1页,它会得到到第二页的链接,它会转到第二页,然后它会很高兴地停留在第二页,而不是抓取第三页。我不知道代码中的错误在哪里,也不知道如何修改它来修复它。因此,任何帮助都将不胜感激。我相信这个错误是基本的,但我不知道发生了什么。
i
我能够从第一页抓取所有的故事,我的问题是如何移动到下一页,继续抓取故事和名字,请检查下面的代码。
# -*- coding: utf-8 -*-
import scrapy
from cancerstories.items import CancerstoriesItem
class MyItem(scrapy.Item):
name = scrapy.Field()
story = scrapy.Field()
class MySpider(scrapy.Spider):
name = 'cancerstories'
allowed_doma
我一直在努力使用“下一页”按钮;抓取器设法单击下一页并转到它,然而,它一直转到第一页,并最终断开。我只想抓取接下来的所有页面(在本例中只有一页,但将来可能会有更多)。对于这里可能出现的问题有什么想法吗?代码如下: class DatatracSpider(scrapy.Spider):
name = 'data_trac'
start_urls = [
# FOR SALE
'https://www.milieuproperties.com/search-results.aspx?paramb=ADVANCE%20SE
我正在编写一个爬虫从网站上获取项目的名称。该网站每页有25个项目和多个页面(某些项目类型为200个)。
代码如下:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from lonelyplanet.items import LonelyplanetItem
class LonelyplanetSpider(Craw
我创建了一个蜘蛛,从一个网站上刮取数据。直到我添加了一个爬行器和规则来保持它在下一页继续之前,它是可以的。我猜规则中的xpath是错误的。你能帮我修一下吗?Ps:我在用python3
这是我的蜘蛛
import scrapy
from scrapy.contrib.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import Spider, CrawlSpider, Rule
from scrapy.selector import Selector
from task
我正在爬一个有javascript转到下一页的网站。我正在使用splash在第一页执行我的javascript代码。但我能读到第二页。但我不能去3,4,5.页面。只在一页之后停止爬行。
我正在爬行的链接:
守则:
import scrapy
from scrapy_splash import SplashRequest
from time import sleep
class MSEDCLSpider(scrapy.Spider):
name = "msedcl_spider"
scope_path = 'body > table:nth-ch
我有这个scrapy框架的代码:
# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from lxml import html
class Scrapy1Spider(scrapy.Spider):
name = "scrapy1"
allowed_domains = ["sfbay.craigslist.org"]
start_urls
这段代码给出了第一页的项目,但不会转到下一页。第一个函数调用第二个函数在第一个页面的产品中运行,但是在完成第一个函数的循环之后,它应该为下一页调用自己,但它不是。如能提供帮助,将不胜感激
from gc import callbacks
from subprocess import call
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from lxml import html
这个爬行器从Funny subreddit页面上拉出标题。我认为问题可能出在允许的url上,因为/funny主页与此不匹配。如果我在允许的列表中添加“/r/ from /”,它会变得疯狂,爬行太多。另外,不确定如何处理每一页的第一项错误(有时可能是前一页的最后一项。
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.http.response import Response
class Lesson1Spider(CrawlSpide