专栏:014:客官,你要的实战我给你.

用理工科思维看待这个世界

系列爬虫专栏

初学者,尽力实现最小化学习系统

主题:Scrapy 实战,并分别存储在MySQL 和 Mongodb中


0:目标说明

  • Scrapy 基础教程 你要的最佳实战
  • 刘未鹏博客 点我啊
  • 目标:获取刘未鹏博客全站博文
    • 文章标题:Title
    • 文章发布时间:Time
    • 文章全文:Content
    • 文章的链接:Url
  • 思路:
    • 分析首页和翻页的组成
    • 抓取全部的文章链接
    • 在获取的全部链接的基础上解析需要的标题,发布时间,全文和链接

1:目标分解

Scrapy支持xpath

  • 全部链接获取
# 首页和剩余的页获取链接的xpath有点差异
each_page_data = selector.xpath('//div[@id="index-featured1"]/ul/li/h3[@class="entry-title"]/a/@href').extract()
each_page_data_other = selector.xpath('//div[@id="content"]/div/ul/li/h3[@class="entry-title"]/a/@href').extract()
# 全部的url放在一个列表里:item_url
  • 文章标题
title = selector.xpath('//div[@id="content"]/div/h1[@class="entry-title"]/a/text()').extract()
  • 文章发布时间
time = selector.xpath('//div[@id="content"]/div/div[@class="entry-info"]/abbr/text()').extract()
  • 文章全文
content = selector.xpath('//div[@id="content"]/div/div[@class="entry-content clearfix"]/p/text()').extract()
  • 文章链接
url = selector.xpath('//div[@id="content"]/div/h1[@class="entry-title"]/a/@href').extract()

使用Scrapy 框架的基本教程: 翻译版教程

  • 一般步骤
    • 新建项目
    • 定义Item : items.py文件是定义的抓取目标
    • 编写spider:spiders文件夹是用来编写爬虫文件
    • settings.py文件是用来编写配置文件比如头部信息,一些常量,比如MySQL用户,端口等
    • pipelines.py文件是用来编写存储数据操作,比如MySQL数据库的操作,mongodb数据库的操作
  • Scrapy 框架的原理 经典说明文档

001.png

* 引擎scrapy
* 调度器 scheduler
* 下载器 downloader
* 爬虫 spider
* 项目管道 pipeline

运行流程: Scrapy运行流程大概如下: 首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取 引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response) 然后,爬虫解析Response 若是解析出实体(Item),则交给实体管道进行进一步的处理。 若是解析出的是链接(URL),则把URL交给Scheduler等待抓取


2:目标实战

  • 编写Items 文件定义抓取目标
class LiuweipengItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    Title = scrapy.Field() # 标题
    Time = scrapy.Field() # 发布时间
    Url = scrapy.Field() # 文章链接
    Content = scrapy.Field() # 文章内容
  • 编写爬虫程序
# 获取整个网站的文章链接
class BlogSpider(Spider):
    name = "liuweipeng"
    start_urls = ["http://mindhacks.cn/","http://mindhacks.cn/page/2/", "http://mindhacks.cn/page/3/", "http://mindhacks.cn/page/4/"]
    def parse(self, response):
        url_item = []
        selector = Selector(response)
        each_page_data = selector.xpath('//div[@id="index-featured1"]/ul/li/h3[@class="entry-title"]/a/@href').extract()
        each_page_data_other = selector.xpath('//div[@id="content"]/div/ul/li/h3[@class="entry-title"]/a/@href').extract()
        url_item.extend(each_page_data)
        url_item.extend(each_page_data_other)
        for one in url_item:
            yield Request(one, callback=self.parse_detail)

#------------------------------------------------------------------------------------------
# 对获取的链接进行内容的解析
    def parse_detail(self, response):
        Item = LiuweipengItem()
        selector = Selector(response)
        title = selector.xpath('//div[@id="content"]/div/h1[@class="entry-title"]/a/text()').extract()
        time = selector.xpath('//div[@id="content"]/div/div[@class="entry-info"]/abbr/text()').extract()
        content = selector.xpath('//div[@id="content"]/div/div[@class="entry-content clearfix"]/p/text()').extract()
        url = selector.xpath('//div[@id="content"]/div/h1[@class="entry-title"]/a/@href').extract()
        print(content)
        for title, time, content, url in zip(title, time, content, url):
            Item["Title"] = title
            Item["Time"] = time
            Item["Content"] = content
            Item["Url"] = url
        yield Item
  • 编写设置文件(1):存储mongodb
MONGODB_HOST = '127.0.0.1' # localhost
MONGODB_PORT = 27017   # 端口号
MONGODB_DBNAME = 'Liuweipeng' # 数据库名
MONGODB_DOCNAME = 'blog' # 集合名
  • 编写管道文件,存储数据mongodb
import pymongo
import pymysql
from scrapy.conf import settings
class LiuweipengPipeline(object):
    def __init__(self):
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        dbName = settings['MONGODB_DBNAME']
        client = pymongo.MongoClient(host=host, port=port)
        tdb = client[dbName]
        self.post = tdb[settings['MONGODB_DOCNAME']]  # 初始化设置数据链接等信息
    def process_item(self, item, spider):
        content = dict(item)
        self.post.insert(content)  # 将抓取的数据插入mongodb

效果显示:

002.png

  • 存储方式2:mysql
# 管道文件编写方式改变为:
# 这里导入的是pymysql 
    def __init__(self):
        self.connection = pymysql.connect(host='localhost',
                             user='root',
                             password='123456',
                             port=3306,
                             db='test',
                             charset='utf8')
        pass
    def process_item(self, item, spider):
        with self.connection.cursor() as cursor:
            sql = "INSERT INTO `blog`(`Title`, `Time`, `Content`, `Url`) VALUES (%s, %s, %s, %s)"
            cursor.execute(sql, (item['Title'],item["Time"], item["Content"],item["Url"]))
        self.connection.commit()
  • 需要在本地创建数据表:
# 在test数据库中创建一个blog的数据表,定义字段如下所示:
CREATE TABLE `blog` (
    `id` INT(11) NOT NULL AUTO_INCREMENT,
    `Title` VARCHAR(255) COLLATE utf8_bin NOT NULL,
    `Content` VARCHAR(255) COLLATE utf8_bin NOT NULL,
    `Time` VARCHAR(255) COLLATE utf8_bin NOT NULL,
    `Url` VARCHAR(255) COLLATE utf8_bin NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=INNODB DEFAULT CHARSET=utf8 COLLATE=utf8_bin
AUTO_INCREMENT=1 ;

效果显示2:

003.png

完整版代码:不点不知道bug


3:总结全文

使用Scrapy框架实现抓取博客,并分别使用两种存储方式。 目标分析的很详细了。

再补一句:任何实用性的东西都解决不了你所面临的实际问题,但为什么还有看?为了经验,为了通过阅读抓取别人的经验,虽然还需批判思维看待

崇尚的思维是: 了解这是什么。 知道应该怎么做。 学会亲自动手。(事实上这是我第一次使用Scrapy 框架存储在mysql中,还是遇到了好些问题)


关于本人: 只有一个职业:学生 只有一个任务:学习 在这条路上,充满无尽的困境,我希望成为一个精神世界丰满的人。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PHP在线

WordPress的可拓展性初探(一)

作者:西瓜玩偶(racnil070512 at hotmail dot com) WordPress是一个时下非常流行的网络信息发布平台,它的特性之一便是极强...

3049
来自专栏IT米粉

数据库的使用你可能忽略了这些

很明显,不同的类型存储的长度有很大区别的,对查询的效率有影响,字段长度对索引的影响是很大的。

44910
来自专栏逸鹏说道

我为NET狂官方面试题-数据库篇答案

说明:如有错误可以批评指正,有更好写法也可以提点下~ 1. 求结果:select "1"? 报错,SQL里面只有单引号,列如:'xx' 2. 查找包含"obj...

3608
来自专栏杨建荣的学习笔记

关于MySQL极限值的初步验证纠错

晚上从珠江边回来之后,看到一篇文章说,MySQL有几个极限值,一个表的字段最多只有1017个,我看了以后表示怀疑。怎么快速验证呢,我看到文章的时候已经11点了,...

3425
来自专栏数据和云

Oracle 12.2新特性掌上手册 - 第七卷 Big Data and Data Warehousing

编辑手记:也许Oracle 12.2在内核上的智能改进只能让你眼前一亮,那今天基于Big Data和数据仓库的性能优化增强则会让你伸手触Oracle的强大灵魂。...

3097
来自专栏IT派

如何用Python 编写知乎爬虫?So easy!

在爬虫系统中,待抓取 URL 队列是很重要的一部分。待抓取 URL 队列中的 URL 以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取...

1530
来自专栏杨建荣的学习笔记

关于MySQL极限值的初步验证纠错(二)

之前写了一篇自己的简单测试总结:关于MySQL极限值的初步验证纠错 今天在这个基础上继续做一些分析,如果说最权威,最全面的材料,那应该非官方文档莫属了...

36811
来自专栏更流畅、简洁的软件开发方式

利用虚拟硬盘(把内存当作硬盘)来提高数据库的效率(目前只针对SQL Server 2000)可以提高很多

      虚拟硬盘:就是把内存当作硬盘来用,比如有2G的内存,那么可以拿出来1G的内存当作硬盘来用。       自从知道了“虚拟硬盘”这个东东,我就一直在想...

5055
来自专栏图像识别与深度学习

Android开发中常用的数据存储

2207
来自专栏数据和云

经典案例:如何优化Oracle使用DBlink的SQL语句

作者介绍 赵全文 就职于太极计算机股份有限公司,在中央电化教育馆做Oracle DBA的驻场运维工作。具有3年左右的Oracle工作经验,目前擅长Oracle数...

4539

扫码关注云+社区

领取腾讯云代金券