我想用刮伤来抓取完整的网站,但是现在它唯一的爬行单页。
import scrapy
from scrapy.http import HtmlResponse
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.exporter import JsonItemExporter
cla
我已经创建了一个粗糙的项目,我需要的数据也被刮掉了。
但是问题是,被刮掉的数据包含了很多不想要的东西,比如Javascript函数和其他html标记。如何处理掉这些数据而只获取数据?
我的testSpider.py代码:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from testing.items import testingI
新刮刮,只是想弄清楚,看看我是否可以用它刮我正在读的网络系列,这样我就可以在去学校的路上离线阅读,我也想不出如何纠正这个我一直在犯的错误。
TypeError: parse_wordpress()缺少一个必需的位置参数:“响应”
我认为这意味着网站没有适当的对应,但我想不出一个方法来解决这个问题。
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.linkextractors import Lin
我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画,以便在AWS Lambda中启动。
我在Stackoverflow中看了钩针库的解决方案,但它对我不起作用。
链接:
代码如下:
import scrapy
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from scrapy.utils.log import configure_logging
# From response in Stackoverflow: https://st
我无法抓取整个网站,Scrapy只能在表面抓取,我想抓取更深的部分。我已经用谷歌搜索了5-6个小时,但没有任何帮助。我的代码如下:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from
我是巨蟒的三年级学生我有一些关于蜘蛛的问题。我已经捕获了一些URL,并将其放入我的列表对象中,然后我想使用该URL再次执行Scrapy,是否可以动态更改URL并继续执行Scrapy。或者有人能给我一个关于"Scrapy“的概念,非常感谢。
'def parse(self,response):
sel=Selector(response)
sites=sel.xpath('//tr/td/span[@class="artist-lists"]')
items = []
for site in sites:
这是我一直试图在Scrapy框架中编写的Spyder1代码:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from firm.items import FirmItem
class Spider1(CrawlSpider):
domain_name
我想抓取两个不同网站的带有相应链接的电子邮件,但我得到了两个具有相同链接的不同电子邮件。实际上,有很多网站需要抓取,但为了简单起见,我只使用了两个urls。代码如下:
import scrapy
import re
import time
urls = ['http://www.manorhouseohio.com', 'http://www.OtterCreekAL.com']
class TheknotSpider(scrapy.Spider):
name = 'theknot'
def start_requests(self
我要刮href,但他们给了我empty list
import scrapy
from scrapy.http import Request
class PushpaSpider(scrapy.Spider):
name = 'pushpa'
start_urls = ['http://smartcatalog.emo-milano.com/it/catalogo/elenco-alfabetico/400/A']
def parse(self, response):
for href in response.xpa
你能帮我更正一下这个脚本吗?我有一个链接列表,搜索结果,我想检查和爬行这些链接中的每一个。
但是这个脚本只点击第一个链接,然后我的爬虫就停止了。
任何帮助都是非常感谢的。
代码“天基”:
from scrapy.contrib.spiders import CrawlSpider
from scrapy import Selector
from selenium import webdriver
from selenium.webdriver.support.select import Select
from time import sleep
我对python很陌生,并试图通过一个小例子,但是我遇到了一些问题!我只能抓取第一个给定的网址,但我不能抓取超过一个网页的或整个网站的问题!
请帮助我,或给我一些建议,我如何可以爬行整个网站或更多的网页,在一般情况下.
我所做的例子很简单..。我的items.py
import scrapy
class WikiItem(scrapy.Item):
title = scrapy.Field()
我的wikip.py (蜘蛛)
import scrapy
from wiki.items import WikiItem
class CrawlSpider(scrapy.S
我在使用Scrapy时遇到了问题,由于某种原因,它没有进入我的parse方法,我不知道为什么会这样。我尝试过不同的选择,但都没有成功。
这就是我的代码现在的样子。具体地说,有两个print语句,parse()方法中的一个没有被调用。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy import log
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.link
我用python编写了一个脚本来解析来自网站的不同产品的“名称”和“价格”。它首先从主页面的上边栏中抓取不同类别的链接,然后跟踪每个类别并到达它们的页面,然后从那里解析不同子类别的链接,最后到达目标页面并从那里解析上述数据。我试着把整件事做得与传统的方法略有不同,在传统方法中,有必要制定规则。然而,我使用我在这里应用的逻辑,让它按照我预期的方式工作。如果有任何改进,我将非常乐意遵守。以下是我尝试过的:
"sth.py“又名蜘蛛包含:
import scrapy
class SephoraSpider(scrapy.Spider):
name = "sephorasp
我试图抓取一些网站使用刮刮。下面是一个示例代码。方法解析没有被调用。我试图通过一个反应堆服务运行代码(代码提供)。所以,我从有反应堆的startCrawling.py运行它。我知道我错过了什么。你能帮帮忙吗。
谢谢,
Code-categorization.py
from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from s
我试图爬行viagogo.com我想爬行的每一个显示从页面:我能够得到第一页的显示,但当我试图移动下一页它就是不爬行!下面是我的代码:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from viagogo.items import ViagogoItem
from scrapy.http imp
我一直试图让Scrapy的链接提取器工作,但没有结果。我想要它找到任何链接,然后调用一个不同的方法,它只是打印出一些东西,以表明它是有效的。
这是我的蜘蛛
from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor
class TestSpider(CrawlSpider):
name = 'spi'
allowed_domains = ['https://www.reddit.com/']
start_url