专栏首页python3Scrapy快速上手

Scrapy快速上手

超详细官方教程解析

https://blog.csdn.net/fly_yr/article/details/51540269

实战过程:

  1. 创建一个Scrapy项目
  2. 定义提取的Item
  3. 编写爬取网站的 spider 并提取 Item
  4. 编写 Item Pipeline 来存储提取到的Item(即数据)

【1】创建Scrapy项目

scrapy startproject TestDemo 

若进入到相应的文件目录下,在地址栏输入cmd进入命令行界面,输入以上命令,则会在相应的文件目录下建立一个项目

创建spider.py命令:scrapy genspider -t basic 名字 网址

也可以手动创建

运行爬虫时,在项目所在目录的地址栏cmd,进入,输入 scrapy crawl 爬虫名字;

否则可能会提示没找到该命令

其他相关命令

【2】定义Item容器

添加字段位置

先建模     //左是名字 右边是 占位符

【3】编写爬虫:

实现爬虫的python文件应该在spiders文件夹下

#def parse是回调函数,从Downloader返回response后,接受response而执行的方法;分别裁剪xx作为文件名,将网页的<body>内容保存至两个文件;

【3-1】爬“取”:     ---------利用Xpath

XPath举例:

【3-2】重写spider的分析方法      【原方法是为了保存,验证用】

【4】将数据存放到Item容器中

【5】导出保存

scrapy crawl domz -o items.json -t json

#-o 指导出 后跟文件名字【需要后缀

#-t 表示导出的格式,此处用json

#此处代码意思是,运行爬虫domz,并以json格式导出保存为items.json

实战中注意点:

1.  刚开始入门的时候,要爬取能爬的网站。。。有些是有反爬虫机制的,不然还会以为是代码错了导致没爬到数据

2.  xpath()    中:

比如爬<html><head><title>xxx   的内容,

如果已经sites = sel.xpath('/html/head/title') 

接下来用site = sites.xpath('text()').extract()    即可获取Selector对象的列表字符串化后的unicode字符串

而不是site = sites.xpath('/text()').extract()  或者 site = sites.xpath('title/text()').extract()

 3.定义Item容器 中, 要和存放容器时使用的一致,不可无中生有

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python序列化:json,pickl

    什么是序列化,把程序中的对象或者变量,从内存中转换为可存储或可传输的过程称为序列化。在 Python 中,这个过程称为 pickling,在其他语言中也被称为 ...

    py3study
  • python的基本数据类型(一)

    py3study
  • python json文件的使用

    json是一种轻量级数据交换格式,常用于http请求中,在日常运维工作中经常可以看到

    py3study
  • RF自定义系统关键字

    用户2149234
  • 【DB笔试面试433】在Oracle 12c中,在数据泵(expdp)方面有哪些增强的新特性?

    (1)在Data Pump中引入了新的TRANSFORM的选项DISABLE_ARCHIVE_LOGGING,这对于表和索引在导入期间提供了关闭Redo日志生成...

    小麦苗DBA宝典
  • 搭建在线教育系统时,不可忽视的几点问题

    2020年大半年已经过去,本以为疫情逐渐平息,学生返校后,能让在线教育市场稍微“冷却”一会,好让投资者、运营者总结经验。但是,随着在线教育市场的无限扩张,很多新...

    万岳教育系统
  • DumpMem and Monster - Virtual Memory Explorers on Windows Mobile/CE

          Windows Mobile 5 和 6的平台是建立在CE5.x的基础上的。当可用的内存很少时,平台会自动关闭应用程序。而且,在这个移动平台上,同时...

    ShiJiong
  • Ribbon效果

    渐变色取色环上临近的颜色。我找到rgb变化的规律后,手写了三个分段函数,他们的规律(参照色环上的顺序)大概是R变化时GB不变,G变化时RB不变,B变化时RG不变...

    gojam
  • GIS讲堂第一课-开源GIS环境搭建相关内容

    昨日下午2点,“GIS讲堂-第一课”-《开源GIS环境搭建相关内容》在众目期待中结束了,下面就本节课的内容给大家做一个汇报,同时也希望没有能够参与到直播的童鞋们...

    lzugis
  • IT桔子:在线教育&大数据学习社区(附PDF下载)

    大家好! 首先非常感谢IT桔子提供这么好的分享平台,我是PPV课的创始人江海涛。 今天这个场景我非常的熟悉,大概2年前,也是在深圳某一个咖啡厅里面,当时站在这个...

    小莹莹

扫码关注云+社区

领取腾讯云代金券