前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python使用Scrapy框架爬虫(一)

Python使用Scrapy框架爬虫(一)

作者头像
黄林晴
发布2019-01-10 15:26:48
4150
发布2019-01-10 15:26:48
举报
文章被收录于专栏:代码男人代码男人

软件环境:Pycharm 2018  python:3.6

1.首先我们需要安装scrapy模块,pip install scrapy ,不过这种方式经常会遇到许多未知的bug

建议参考这篇博客:https://blog.csdn.net/liuweiyuxiang/article/details/68929999 

2.新建scrapy项目,cmd 进入工作区间目录,比如我们新建项目名称为scrapydemo的项目:

scrapy startproject scrapydemo

3.使用Pycharm打开新建的scrapy项目,项目目录如下:

pipelines.py主要对爬取得结果进行处理,比如我们可以再次将爬取结果插入数据库

items.py在这里我们可以理解为java中的实体类,定义我们要抓取的字段等信息

setting.py中主要是一些配置信息,ITEM_PIPELINES = {    'scrapydemo.pipelines.ScrapydemoPipeline': 300,

}我们需要将这个修改成自己的pipelline

4.在spiders中新建一个scrapy的py文件,可以手动新建但需要自己写代码,我们使用命令:

scrapy genspider --t basic baidu  baidu.com

在parse函数中进行爬虫部分的代码,将爬取结果赋值给item中对应别的字段,使用yield 返回item

5.在cmd命令行使用scrapy crawl  名字(不是项目名字是 name)

欢迎关注技术公众号,微信号搜索ColorfulCode 代码男人

分享技术文章,投稿分享,不限技术种类,不限技术深度,让更多人因为分享而受益。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年04月30日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档