首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy爬虫(1)爬取菜鸟Git教程目录

Scrapy作为爬虫利器,是一个很好的Pyhon爬虫框架,现在也已经支持Python3了。具体的安装过程可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 。关于srapy的具体介绍,可以参考网址:https://docs.scrapy.org/en/latest/ 。

本文将介绍一个极为简单的例子,通过该例子来帮读者快速进入scrapy的世界,并会持续更新,做进一步的深入研究。本文的scrapy版本为1.0.3-1,python版本为2.7.12.

我们要爬取的页面为菜鸟教程的Git教程目录,如下图:

首先我们先在当前目录下新建一个scrapy项目:scrapy_git,在终端输入如下命令:

再输入tree scrapy_git查看文件的树状结构:

接着切换到spider目录,并新建文件:git_jc.py,代码如下:

其中,toscrape-css为爬虫的名字,十分重要。start_urls为爬取的网页网址。定义parse()函数,将爬取到的目录写入/home/vagrant/python.txt中。在本代码中,采用xpath定位网页元素,当然也可以用css定位。

用xpath定位网页元素的具体方法是:选中想要的元素,右击,选中检查(N),在弹出的网页源代码中,右击,选中copy,再选copy XPath,然后粘贴即可。

利用scrapy list可以查看可用的爬虫的名称:

最后,输入以下命令即可运行该爬虫:(先要新建python.txt文件)

运行完后,查看python.txt文件,内容如下:

Bingo,我们的scrapy爬虫就运行成功啦!

在这个爬虫中,我们其它文件都没有动,而仅仅只是新建了一个git_jc.py文件,足可见scrapy的简洁与高效!期待下次分享^_^……

本次分享到此结束,欢迎大家批评与交流~~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180608G0CS3Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券