新建一个爬虫项目,名字为
进入虚拟环境,在控制台输入:会出现如下字样:
根据提示,输入:
出现如下字样,项目创建完毕。
用打开新建的项目文件夹,发现在文件中,已经建好了一个文件,这就是我们刚才通过控制台写的那些,帮助我们做好了初始化。
找到所有文章入口,提取链接。
在伯乐在线这个网站,他提供了所有文章的入口,地址:http://blog.jobbole.com/all-posts/
点击,我们找一下每篇文章的入口,在点开封面图的地方,找到了文章地址,一会顺便把封面图也下载。
获取文章URL:
获取下一页的URL:
全部代码:
运行结果:
好,跟踪网页的链接今天就到这里。
领取专属 10元无门槛券
私享最新 技术干货