因此,我尝试使用CrawlSpider并理解中的以下示例:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class MySpider(CrawlSpider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = ['http://www.example.com']
r
我有以下Scrapy代码,我使用它来尝试在代码中仅从网站抓取英超联赛数据:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.cmdlin
我正在写一只抓取蜘蛛,为今天的“纽约时报”的文章从主页上爬行,但出于某种原因,它没有跟随任何链接。当我在scrapy shell http://www.nytimes.com中实例化链接提取器时,它成功地用le.extract_links(response)提取了一个文章urls列表,但是除了主页之外,我无法获得爬行命令(scrapy crawl nyt -o out.json)来抓取任何东西。我有点不知所措了。是因为主页不产生解析函数的文章吗?任何帮助都是非常感谢的。
from datetime import date
我一直在尝试从网站上抓取数据。我想从一些我不知道名字的网站上的老师那里得到信息。
每个老师在网站上都有一个遵循一定规律的页面。举个例子,这个老师Lois Bank存储在:。所以模式是老师的名字,斜杠,一个数字,破折号t。
在我尝试使用CrawlSpider使用正则表达式从主页爬行之前,因为我试图访问的页面没有链接到主页,所以它不起作用,访问它们的唯一方法是在搜索框中搜索老师的名字。
我试着写了下面的爬虫,但它不能工作:
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml im
我有一个很粗糙的项目,它通过pip使用中间件安装。更具体地说,。
设置文件#-编码: utf-8 --
# Scrapy settings for batdongsan project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
# http://doc.scrapy.org/en/latest/topics/settings.
我试着用Scrapy建造一个爬虫。在scrapy的官方文档或博客中,我看到人们在.py代码中创建一个类,并通过scrapy执行它。
在它们的主页上,给出了以下示例
import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['https://blog.scrapinghub.com']
def parse(self, response):
for title in response.css('h2.entry-
我正在尝试从html表中抓取数据。
我可以使用下面的爬行器脚本从表中提取现有数据:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from texasdeath.items import DeathItem
class DeathSpider(BaseSpider):
name = "death"
allowed_domains = ["tdcj.state.tx.us"]
start_urls = [
我是刮从这个网页的链接和第一级数据,,为ex:(项目名称,状态,HI名称,PI名称,开始日期)然后我将需要刮刮每个链接内的第二级数据,对于ex,该链接将带来到,并合并两个数据。在某些情况下,在第一页中刮到的链接将重定向到主页,因为没有第二级数据可用于链接刮取。对于每一个数据输入,我都需要组合一级数据和二级数据。我遇到的问题是当链接没有二级数据时,第一级数据也不会显示。这意味着即使存在第一级数据,也会忽略整个条目。在没有二级数据的情况下,如何显示第一级数据?
刮伤编码:
class ToScrapeCSSSpiderSG(scrapy.Spider):
name = "toscrapes
我将输出作为连续数据以行形式显示,而不是以正确的记录格式显示(每行一条记录)。
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
class famousPeopleItem(scrapy.Item):
# define the fields for your item here like:
Name = scrapy.Field()
Profession = scrapy.Field
我不知道问题在哪里,可能是超级容易解决,因为我是新刮刮。谢谢你的帮忙!
我的蜘蛛:
from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.linkextractors import LinkExtractor
from scrapy.item import Item
class ArticleSpider(CrawlSpider):
name = "article"
allowed_domains = [
我用这个蜘蛛爬行一个页面并下载它的图片:
import scrapy
from scrapy.contrib.spiders import Rule, CrawlSpider
from scrapy.contrib.linkextractors import LinkExtractor
from imgur.items import ImgurItem
import re
from urlparse import urljoin
class ImgurSpider(CrawlSpider):
name = 'imgur'
allowed_domains =
我试图刮,以创建一个表,说明每个曲目被添加到memeber的音乐本中的次数,这样我就可以找到一些流行的曲目来学习。我从“刮伤”教程开始,并试图对其进行修改以适应我的目的。问题是,尽管thesession.org网站似乎有大约10390个曲调,但我的刮刀只返回其中10个曲调的数据(只有上的那些)。如何获得所有曲调(或排名最高的100首曲子)的数据?如有任何建议,将不胜感激。
到目前为止,我得到的是:
items.py
from scrapy.item import Item, Field
class tuneItem(Item):
url = Field()
name1 = F
我正在尝试将scrapy作为python脚本运行,并希望处理被刮掉的数据,而不是存储在文件/数据库中。代码看起来就像
import scrapy
import scrapy.crawler as crawler
from scrapy.utils.log import configure_logging
from multiprocessing import Process, Queue
from twisted.internet import reactor
# spider
class QuotesSpider(scrapy.Spider):
name = "quotes