python爬虫入门:scrapy爬取书籍的一些信息

  • 爬取这个网上的书籍http://www.allitebooks.com/security/
  • 然后价格等信息在亚马逊上爬取:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=xxx       # xxx表示的是下面爬取的isbn
  • 用的是python3.6
  • 微博、小程序查看代码混乱,请查看原文~

准备

  • 安装的包
$ pip install scrapy
$ pip install pymysql
  • 需要了解的一些scrapy知识

Spider

Spider类想要表达的是:如何抓取一个确定了的网站的数据。比如在start_urls里定义的去哪个链接抓取,parse()方法中定义的要抓取什么样的数据。 当一个Spider开始执行的时候,它首先从start_urls()中的第一个链接开始发起请求,然后在callback里处理返回的数据。

Items

Item类提供格式化的数据,可以理解为数据Model类。

Selectors

Scrapy的Selector类基于lxml库,提供HTML或XML转换功能。以response对象作为参数生成的Selector实例即可通过实例对象的xpath()方法获取节点的数据。

编写

新建项目

$ scrapy startproject book_scrapy

这个是创建一个名为 book_scrapy的项目

新建爬虫

$ cd book_sacrpy/
$ scrapy genspider book_spiser allitebooks.com
  • 结构如下:
├── book_sacrpy
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── book_spiser.py
└── scrapy.cfg

提示:pycharm里面可以一步到位

编写Items类,就是要获取的东西都这里

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BookItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # pass
    title = scrapy.Field()
    isbn = scrapy.Field()
    price = scrapy.Field()

说明:

  • title表示书的标题
  • isbn表示书的编号,这样可以从亚马逊里面查到
  • price表示价格,进入亚马逊之后爬取

编写Spider爬虫

就是spider文件夹下的book_spider.py文件,具体代码如下,css,xpath的分析省略

# -*- coding: utf-8 -*-
import scrapy

from book_sacrpy.items import BookItem


class BookSpiserSpider(scrapy.Spider):
    name = 'book_spiser'
    allowed_domains = ['allitebooks.com','amazon.com']
    start_urls = ['http://allitebooks.com/security/',]

    def parse(self, response):
        num_pages = int(response.xpath('//a[contains(@title, "Last Page →")]/text()').extract_first())
        base_url = "http://www.allitebooks.com/security/page/{0}/"
        for page in range(1,num_pages):
            yield scrapy.Request(base_url.format(page),dont_filter=True,callback=self.pare_page)


    def pare_page(self,response):
        for ever in response.css('.format-standard'):
            book_url = ever.css('.entry-thumbnail a::attr(href)').extract_first("")
            yield scrapy.Request(book_url,callback=self.pare_book_info)


    def pare_book_info(self,response):
        title = response.css('.single-title').xpath('text()').extract_first()
        isbn = response.xpath('//dd[2]/text()').extract_first('').replace(' ','')
        items = BookItem()
        items['title'] = title
        items['isbn'] = isbn
        amazon_price_url = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=' + isbn
        yield scrapy.Request(amazon_price_url,callback=self.pare_book_price,meta={'items': items})


    def pare_book_price(self,response):
        items = response.meta['items']
        items['price'] = response.xpath('//span/text()').re(r'\$[0-9]+\.[0-9]{2}?')[0]
        yield items

说明:

  • 导入前面编写的Items,是将爬取的数据通过yield方式提交
  • 新建类继承的是scrapy.Spider类
  • name为爬虫的名字,allowed_domains表示允许的域名,start_urls表示爬取的时候的入口url

运行:

爬取写入到一个csv文件

$ scrapy crawl book_sacrpy -o books.csv

拓展

写入mysql

介绍

  • pipelines.py文件,是管道文件,数据传入item之后,会再传给pipeline,所以可以在pipelines.py里面写各种存数据的方式
  • middlewares.py文件,是中间件文件,一般写爬虫的IP代理,user-agent等
  • settings.py文件,是设置文件,里面主要是设置开启关闭pipelines、middlewares、是否爬取robots.txt等,也可以在这里面设置一些mysql的动态修改的文件等

我们暂时不用中间件,数据库自己提前设置好表头等信息

pipelines.py代码:

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql
from book_sacrpy.items import BookItem

class BookIntodbPipeline(object):

    def __init__(self):
        self.conn = pymysql.connect("localhost","root","root","book",charset="utf8")
        self.cursor = self.conn.cursor()


    def process_item(self, item, spider):
        insert_sql = '''
            insert into book(title,isbn,price) VALUES ('{}','{}','{}')
        '''
        self.cursor.execute(insert_sql.format(item['title'],item['isbn'],item['price']))
        self.conn.commit()
        # return item

设置settings.py文件

ITEM_PIPELINES = {
   'book_sacrpy.pipelines.BookIntodbPipeline': 300,
}

将上面这一段注释掉,写入我们编写的那个pipeline,数字越大表示越靠后,里面可以写多个pipeline

运行

$ scrapy crawl book_spiser
  • 每次运行都要输入三个命令,下面介绍一种快速运行的方式

写一个run.py文件,代码如下:

# coding:utf8

from scrapy.cmdline import execute

import sys
import os


sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "book_spiser"])

以后只需要运行一个python  run.py

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏闵开慧

win7中telnet安装配置

Win 7 Telnet的启动 Telnet是系统管理员常用的远程登录和管理工具,在Windows 2000/XP/2003/Vista系统中它作为标准的...

44880
来自专栏抠抠空间

scrapy之中间件

13660
来自专栏别先生

一脸懵逼学习Nginx及其安装,Tomcat的安装

1:Nginx的相关概念知识:   1.1:反向代理:     反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然...

267100
来自专栏自由而无用的灵魂的碎碎念

解决windows7不能设置壁纸的问题

我的系统是windows server 2008 r2(启用windows 7桌面体验)最近因为系统慢的缘故,强关了一下机,开机进入系统,发现成黑屏了,改变wi...

12840
来自专栏Aloys的开发之路

tcpdump捕捉样例

# 下面的例子全是以抓取eth0接口为例,如果不加”-i eth0”是表示抓取所有的接口包括lo。 # 抓取到目标主机example.com的http he...

226100
来自专栏云知识学习

tcpdump常用抓包规则命令

下面的例子全是以抓取eth0接口为例,如果不加”-i eth0”是表示抓取所有的接口包括lo

42350
来自专栏wOw的Android小站

[Android] Service服务详解以及如何使service服务不被杀死

  服务是一个应用程序组件,可以在后台执行长时间运行的操作,不提供用户界面。一个应用程序组件可以启动一个服务,它将继续在后台运行,即使用户切换到另一个应用程序。...

1.6K10
来自专栏iOSDevLog

PYTHON网站爬虫教程

无论您是要从网站获取数据,跟踪互联网上的变化,还是使用网站API,网站爬虫都是获取所需数据的绝佳方式。虽然它们有许多组件,但爬虫从根本上使用一个简单的过程:下载...

20240
来自专栏简书专栏

基于Scrapy框架爬取厦门房价

本文的运行环境是Win10,IDE是Pycharm,Python版本是3.6。 请先保证自己安装好Pycharm和Scrapy。

40730
来自专栏小怪聊职场

爬虫课堂(十七)|Scrapy爬虫开发流程

25140

扫码关注云+社区

领取腾讯云代金券