我无法抓取整个网站,Scrapy只能在表面抓取,我想抓取更深的部分。我已经用谷歌搜索了5-6个小时,但没有任何帮助。我的代码如下:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from
我正在尝试从这个网站抓取代理机构的电话号码:
列表视图
详细信息视图
电话号码隐藏在详细信息页面中。
那么,有没有可能通过像上面的详细视图url和抓取电话号码这样的url浏览网站呢?
我在这段代码中的尝试是:
from scrapy.item import Item, Field
class AgencyItem(Item):
Phone = Field()
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtra
我试着使用Scrapy来抓取一些网站上大约70k个项目。但每次它抓取了大约200个项目后,其余的项目都会弹出错误:
scrapy] DEBUG: Ignoring response <404 http://www.somewebsite.com/1234>: HTTP status code is not handled or not allowed
我相信这是因为我的爬虫被网站屏蔽了,我试着使用随机用户代理建议的,但根本解决不了问题。有什么好的建议吗?
我刚开始刮刮网站上的一些数据,但我需要先进行身份验证,然后才能开始抓取所需的数据,如下所示
我正在尝试使用from_response方法来尝试登录到站点。
import scrapy
from scrapy.spiders import CrawlSpider
from scrapy.http import Request, FormRequest
from scrapy.selector import Selector
from fandromeda.items import FandromedaItem
class FandromedaC(CrawlSpider):
name
我发现的所有Scrapy示例都谈到了如何抓取单个页面,或者如何抓取多个级别的页面,当每个最深的页面被保存为一个独立的Item时。但我的情况有点复杂。
例如,网站结构是:
A (List page of books)
--> B (Book summary page)
----> C (Book review pages)
----> D (Book download pages)
因此,Item的定义如下所示:
class BookItem(scrapy.Item):
name = scrapy.Field()
type = scrapy.Field()
这是我的密码:
import scrapy
class shopjimmyspider(scrapy.Spider):
name = "shopjimmy"
start_urls = ['https://www.shopjimmy.com/categories/tv-parts/boards/t-con-boards.html']
def parse(self, response):
for products in response.css('article.card.card--cart-disabled
我完全是Python和Scrapy的新手,所以我从尝试复制教程开始。根据教程,我正在尝试抓取www.dmoz.org网站。
我按照下面的指示编写dmoz_spider.py
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from dmoz.items import DmozItem
class DmozSpider(BaseSpider):
name = "dmoz.org"
allowed_domains = ["dmoz.org
嗨,我有问题让我的抓取蜘蛛脚本登录到aspx (asp.net)网站 该脚本本应抓取一个网站的产品信息(这是一个供应商的网站,所以我们被允许这样做),但无论什么原因,该脚本不能登录到网页使用下面的脚本,有一个用户名和密码字段以及一个图像按钮,但当脚本运行它根本不起作用,我们被重定向到主页…我相信这与页面的asp.net有关,显然我需要传递更多的信息,但我已经诚实地尝试了所有方法,我不知道下一步该做什么! 我做错了什么? import scrapy
class LeedaB2BSpider(scrapy.Spider):
name = 'leedab2b'
s
我已经创建了一个使用scrapy.The爬虫爬虫的网站和抓取链接。**所使用的技术:**Python,Scrapy Error抓取相对urls,因为刮刀器无法抓取网页。我要爬虫只取无源网址。救命啊!!
import scrapy
import os
class MySpider(scrapy.Spider):
name = 'feed_exporter_test'
# this is equivalent to what you would set in settings.py file
custom_settings = {
我有一个文件,它有一个域名列表。我需要抓取域(即整个网站),以获得rss链接。递归地抓取网站的每一页,从每个页面获取rss链接,并写入与域对应的json文件--这是我的代码,仅用于一个网站:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
class AppleSpider(CrawlSpider):
name