Scrapy ---- 使用步骤

python、scrapy和pycharm已经安装好,并且python和scrapy环境已经配置好。scrapy安装比较简单的方法是通过pycharm IDE进行安装。

一、创建工程

命令行输入:scrapy startproject object_name

object_name是目标项目的名称。

此命令生成的目录结构如下:

接下来,在spiders文件夹下面创建.py文件,我们的爬虫代码就写在这个文件里面。可以直接在Pycharm里面创建,也可以通过命令行创建。

genspider命令:scrapy genspider spider_name url

spider_name 是spider的名字,url是要爬取的网站。

通过命令行创建后,文件中会自动生成相关代码:

运行spider: 命令行>>scrapy crawl spider_name

二、使用item

工程创建好后会自动生成一个items.py文件,我们只需要在这个文件中定义自己的item。

比如我需要爬取标题、链接和描述,则可以这样定义item:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏搞前端的李蚊子

超简单的批量创建文件夹方法

1.首先新建一个txt文档 ? 2.在文档里以md开头(md是命令行创建文件夹命令mkdir的缩写) ,后面跟你想要创建的文件夹名称 ? 3.点击另存为选择将保...

37190
来自专栏深度学习之tensorflow实战篇

python生成exe,环境win10简单的小程序案例

1.直接pip安装:pip install pyinstaller ? 2.打包时,在命令行中切换到要打包的程序所在目录,直接输入下面的指令即可。 ...

41050
来自专栏游戏杂谈

nginx配置文件防盗链

一般网站为了防止资源被外部链接所盗用,都会使用防盗链来进行处理。思路就是判断请求的域名 如下一个相对完全的示例:

15920
来自专栏机器学习实践二三事

pip安装报错'not a supported wheel on this platform'

这个错误很常见,解决方法是改名,首先要获得在你的机器的平台上的合法名称: import pip pip.pep425tags.get_supporte...

31070
来自专栏谈补锅

Mac安装nginx配置过程

在浏览器输入 http://localhost:8080/ 就能看到nginx在本计算机搭建的服务器

20730
来自专栏林德熙的博客

WPF 开发自动删除软件

我在写一个测试的工具,需要在用户的电脑使用,但是需要在运行之后 3 天内删除。这个功能是因为我是金鱼但是自己忘记删除了,但是可能需要多次使用,所以就需要让软件自...

12610
来自专栏游戏杂谈

flex请求http://localhost:37813/crossdomain.xml

造成请求localhost:37813/crossdomain.xml,是因为开发时启用了网络监视器,如下图:

12910
来自专栏晓晨的专栏

CentOS 7 安装 JAVA环境(JDK 1.8)

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.h...

20820
来自专栏代码GG之家

GreenDao 完全教程

GreenDao 之前的版本不敢苟同,使用起来繁琐异常,近期升级到3.1版本,发现已经支持了注释方式,比起之前的确实好很多,可以推荐使用了。 既然可以使用了,那...

18790
来自专栏王小雷

React Natvie在Mac os上安装并创建项目

详细记录React-Native 0.47版本在Mac OS 上安装过程并初始化项目。 ? 1. 安装RN环境 1.1 安装brew /usr/bin/ruby...

23860

扫码关注云+社区

领取腾讯云代金券