专栏首页代码男人Python使用Scrapy框架爬虫(一)

Python使用Scrapy框架爬虫(一)

软件环境:Pycharm 2018  python:3.6

1.首先我们需要安装scrapy模块,pip install scrapy ,不过这种方式经常会遇到许多未知的bug

建议参考这篇博客:https://blog.csdn.net/liuweiyuxiang/article/details/68929999 

2.新建scrapy项目,cmd 进入工作区间目录,比如我们新建项目名称为scrapydemo的项目:

scrapy startproject scrapydemo

3.使用Pycharm打开新建的scrapy项目,项目目录如下:

pipelines.py主要对爬取得结果进行处理,比如我们可以再次将爬取结果插入数据库

items.py在这里我们可以理解为java中的实体类,定义我们要抓取的字段等信息

setting.py中主要是一些配置信息,ITEM_PIPELINES = {    'scrapydemo.pipelines.ScrapydemoPipeline': 300,

}我们需要将这个修改成自己的pipelline

4.在spiders中新建一个scrapy的py文件,可以手动新建但需要自己写代码,我们使用命令:

scrapy genspider --t basic baidu  baidu.com

在parse函数中进行爬虫部分的代码,将爬取结果赋值给item中对应别的字段,使用yield 返回item

5.在cmd命令行使用scrapy crawl  名字(不是项目名字是 name)

欢迎关注技术公众号,微信号搜索ColorfulCode 代码男人

分享技术文章,投稿分享,不限技术种类,不限技术深度,让更多人因为分享而受益。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • AngularJs之数据绑定

    3.在页面中使用 *ngFor=“let product of products ”

    黄林晴
  • Android studio插件开发

    使用Android studio或者idea开发的朋友肯定都安装了许多插件,比如我们常用的GsonFormat、ButterKnife等,那么我们如何编写自己的...

    黄林晴
  • AngularJs之路由配置(二)

    我们使用 <a [routerLink]="['/prouct',1]" >商品详情</a>

    黄林晴
  • python面试被问到这个问题,答对了感觉中了1个亿

    爬了N个网站,仍然很困惑:随便想要点资料requests一爬就能抓下来,觉得自己挺厉害的,用scrapy爬整个全站却总是失败,找工作去面试经常会被问:你抓过哪些...

    叫我龙总
  • scrapy常用命令

    IT故事会
  • 爬虫练习_使用scrapy爬取淘宝

    https://s.taobao.com/search?q=%E5%A5%B3%E8%A3%85+%E8%A3%99&imgfile=&js=1&stats_c...

    zx钟
  • 爬虫0060:scrapy快速入门爬虫高级操作:Scrapy framework

    官方网站:https://scrapy.org/,打开官方网站,可以看到一段关于scrapy的描述

    大牧莫邪
  • Python爬虫之Scrapy学习(基础篇)

    在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习。开始接触scrapy的朋友可能会...

    用户2769421
  • Python爬虫从入门到放弃(十三)之 Scrapy框架的命令行详解

    这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名 例子如下: localhost:spider ...

    coders
  • Scrapy框架| 详解Scrapy的命令行工具

    今天开始JAP君正式来写Python的Scrapy爬虫框架的系列教程了,我大部分内容会根据Scrapy的官方文档来的,并且会写一些实战项目来练手。...

    JAVAandPython君

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动