python爬虫入门:scrapy爬取书籍的一些信息

V站笔记

  • 爬取这个网上的书籍http://www.allitebooks.com/security/
  • 然后价格等信息在亚马逊上爬取:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=xxx       # xxx表示的是下面爬取的isbn
  • 用的是python3.6
  • 微博、小程序查看代码混乱,请查看原文~

准备

  • 安装的包
$ pip install scrapy$ pip install pymysql
  • 需要了解的一些scrapy知识

Spider

Spider类想要表达的是:如何抓取一个确定了的网站的数据。比如在start_urls里定义的去哪个链接抓取,parse()方法中定义的要抓取什么样的数据。 当一个Spider开始执行的时候,它首先从start_urls()中的第一个链接开始发起请求,然后在callback里处理返回的数据。

Items

Item类提供格式化的数据,可以理解为数据Model类。

Selectors

Scrapy的Selector类基于lxml库,提供HTML或XML转换功能。以response对象作为参数生成的Selector实例即可通过实例对象的xpath()方法获取节点的数据。

编写

新建项目

$ scrapy startproject book_scrapy

这个是创建一个名为 book_scrapy的项目

新建爬虫

$ cd book_sacrpy/$ scrapy genspider book_spiser allitebooks.com
  • 结构如下:
├── book_sacrpy│   ├── __init__.py│   ├── items.py│   ├── middlewares.py│   ├── pipelines.py│   ├── settings.py│   └── spiders│       ├── __init__.py│       └── book_spiser.py└── scrapy.cfg

提示:pycharm里面可以一步到位

编写Items类,就是要获取的东西都这里

# -*- coding: utf-8 -*- # Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.html import scrapy  class BookItem(scrapy.Item):    # define the fields for your item here like:    # name = scrapy.Field()    # pass    title = scrapy.Field()    isbn = scrapy.Field()    price = scrapy.Field()

说明:

  • title表示书的标题
  • isbn表示书的编号,这样可以从亚马逊里面查到
  • price表示价格,进入亚马逊之后爬取

编写Spider爬虫

就是spider文件夹下的book_spider.py文件,具体代码如下,css,xpath的分析省略

# -*- coding: utf-8 -*-import scrapy from book_sacrpy.items import BookItem  class BookSpiserSpider(scrapy.Spider):    name = 'book_spiser'    allowed_domains = ['allitebooks.com','amazon.com']    start_urls = ['http://allitebooks.com/security/',]     def parse(self, response):        num_pages = int(response.xpath('//a[contains(@title, "Last Page →")]/text()').extract_first())        base_url = "http://www.allitebooks.com/security/page/{0}/"        for page in range(1,num_pages):            yield scrapy.Request(base_url.format(page),dont_filter=True,callback=self.pare_page)      def pare_page(self,response):        for ever in response.css('.format-standard'):            book_url = ever.css('.entry-thumbnail a::attr(href)').extract_first("")            yield scrapy.Request(book_url,callback=self.pare_book_info)      def pare_book_info(self,response):        title = response.css('.single-title').xpath('text()').extract_first()        isbn = response.xpath('//dd[2]/text()').extract_first('').replace(' ','')        items = BookItem()        items['title'] = title        items['isbn'] = isbn        amazon_price_url = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=' + isbn        yield scrapy.Request(amazon_price_url,callback=self.pare_book_price,meta={'items': items})      def pare_book_price(self,response):        items = response.meta['items']        items['price'] = response.xpath('//span/text()').re(r'\$[0-9]+\.[0-9]{2}?')[0]        yield items

说明:

  • 导入前面编写的Items,是将爬取的数据通过yield方式提交
  • 新建类继承的是scrapy.Spider类
  • name为爬虫的名字,allowed_domains表示允许的域名,start_urls表示爬取的时候的入口url

运行:

爬取写入到一个csv文件

$ scrapy crawl book_sacrpy -o books.csv

拓展

写入mysql

介绍

  • pipelines.py文件,是管道文件,数据传入item之后,会再传给pipeline,所以可以在pipelines.py里面写各种存数据的方式
  • middlewares.py文件,是中间件文件,一般写爬虫的IP代理,user-agent等
  • settings.py文件,是设置文件,里面主要是设置开启关闭pipelines、middlewares、是否爬取robots.txt等,也可以在这里面设置一些mysql的动态修改的文件等

我们暂时不用中间件,数据库自己提前设置好表头等信息

pipelines.py代码:

# -*- coding: utf-8 -*- # Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html import pymysqlfrom book_sacrpy.items import BookItem class BookIntodbPipeline(object):     def __init__(self):        self.conn = pymysql.connect("localhost","root","root","book",charset="utf8")        self.cursor = self.conn.cursor()      def process_item(self, item, spider):        insert_sql = '''            insert into book(title,isbn,price) VALUES ('{}','{}','{}')        '''        self.cursor.execute(insert_sql.format(item['title'],item['isbn'],item['price']))        self.conn.commit()        # return item

设置settings.py文件

ITEM_PIPELINES = {   'book_sacrpy.pipelines.BookIntodbPipeline': 300,}

将上面这一段注释掉,写入我们编写的那个pipeline,数字越大表示越靠后,里面可以写多个pipeline

运行

$ scrapy crawl book_spiser
  • 每次运行都要输入三个命令,下面介绍一种快速运行的方式

写一个run.py文件,代码如下:

# coding:utf8 from scrapy.cmdline import execute import sysimport os  sys.path.append(os.path.dirname(os.path.abspath(__file__)))execute(["scrapy", "crawl", "book_spiser"])

以后只需要运行一个python  run.py

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云飞学编程

Python学习,爬虫不一定非要抓数据,也可以做自己喜欢的应用程序

最近各种负面消息,对爬虫er来说,并不是很友好,当然这个是对于从业者来说的,对像我这样的正在学习python的个人来说,python爬虫的学习只需要保持以下几点...

1092
来自专栏简书专栏

基于bs4+requests的豆瓣电影爬虫

豆瓣电影前250详情页面持久化为250个htm文件,打包文件下载链接: https://pan.baidu.com/s/1_zlZJQJtl9pPEJUGYVM...

695
来自专栏杂七杂八

Scrapy爬取数据初识

Scrapy爬取数据初识 初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据...

3136
来自专栏极客猴

爬虫实战一:爬取当当网所有 Python 书籍

我们已经学习 urllib、re、BeautifulSoup 这三个库的用法。但只是停留在理论层面上,还需实践来检验学习成果。因此,本文主要讲解如何利用我们刚才...

783
来自专栏禹都一只猫博客

python爬虫入门:scrapy爬取书籍的一些信息

1338
来自专栏玉树芝兰

Ulysses一键发送文章到Day One

我是从2015年夏天开始用Ulysses的。这个编辑器的设计哲学是“所有的文字都放在一处”。这令我很欣喜,因为它非常适合我这种懒人。

862
来自专栏马洪彪

Java仪器数据文件解析-PDF文件

一、概述 使用pdfbox可生成Pdf文件,同样可以解析PDF文本内容。 pdfbox链接:https://pdfbox.apache.org/ ? 二、PDF...

3037
来自专栏FreeBuf

Google最新XSS Game Writeup

本文介绍了如何完成谷歌最新的XSSGame的过程,完成了这八个挑战就有机会获得Nexus 5x。实际上这八个挑战总体来说都不难,都是些常见的xss。通关要求是只...

21110
来自专栏双十二技术哥

Android性能优化(十)之App瘦身攻略

如果你对App优化比较敏感,那么Apk安装包的大小就一定不会忽视。关于瘦身的原因,大概有以下几个方面:

683
来自专栏恰同学骚年

《你必须知道的.NET》读书实践:一个基于OO的万能加载器的实现

此篇已收录至《你必须知道的.Net》读书笔记目录贴,点击访问该目录可以获取更多内容。

825

扫码关注云+社区