首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy爬虫系列教程(三)

新建一个爬虫项目,名字为

进入虚拟环境,在控制台输入:会出现如下字样:

根据提示,输入:

出现如下字样,项目创建完毕。

用打开新建的项目文件夹,发现在文件中,已经建好了一个文件,这就是我们刚才通过控制台写的那些,帮助我们做好了初始化。

找到所有文章入口,提取链接。

在伯乐在线这个网站,他提供了所有文章的入口,地址:http://blog.jobbole.com/all-posts/

点击,我们找一下每篇文章的入口,在点开封面图的地方,找到了文章地址,一会顺便把封面图也下载。

获取文章URL:

获取下一页的URL:

全部代码:

运行结果:

好,跟踪网页的链接今天就到这里。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180212G11C4Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券