多年开发工程师做的爬虫笔记，抓紧时间速度收藏！

文章来源：企鹅号 - 何艾科技

平时有个习惯，会把自己的笔记写在有道云里面，现在做个整理。会长期更新，因为我是BUG制造机。解析xpath提取所有节点文本使用xpath的string(.)#!

显示函数

好了，今天先写这点，以后再补上。文末给大家推荐一个小小的干货：推荐3个适合新人上手的Python项目，10分钟现学现用！1：爬取网站美图爬取图片是最常见的爬虫入门项目，不复杂却能很好地熟悉Python语法、掌握爬虫思路。当然有两个点要注意：一、不要侵犯版权，二、要注意营养。思路流程第一步：获取网址的response，分页内容，解析后提取图集的地址。

运行结果

2：爬取微博数据爬虫的最大功能之一就是整合数据，能弄到更全面的信息，真正做好大数据的分析，在这个数据说话的年代，影响是决定性的。（注意别侵权）思路流程1、利用chrome浏览器，获取自己的cookie。2、获取你要爬取的用户的微博User_id3、将获得的两项内容填入到weibo.py中，替换代码中的YOUR_USER_ID和#YOUR_COOKIE，运行代码。部分代码

用wordcloud等软件生成词云，它会根据信息的频率、权重按比列显示关键字的字体大小。

3：爬取王者荣耀全套皮肤怎么获取全套皮肤？用钱买，或者用爬虫爬取下来~虽然后者不能穿。这个案例稍微复杂一点，但是一个非常值得学习的项目。思路流程首先进入所有英雄列表，你会看到下图

在这个网页中包含了所有的英雄名称。点击其中一个英雄例如“百里守约”，进去后如下图：

网址为https://pvp.qq.com/web201605/herodetail/196.shtml网址中196.shtml以前的字符都是不变的，变化的只是196.shtml。而196是“百里守约”所对应的数字，要想爬取图片就应该进入每个英雄图片所在的网址，而网址的关键就是对应的数字。那么这些数字怎么找呢？在所有英雄列表中，打开浏览器的开发者工具，刷新，找到一个json格式的文件，如图所示：

这时就会看到所有英雄对应的数字了。在上图所示的Headers中可以找到该json文件对应的网址形式。将其导入Python，把这些数字提取出来，然后模拟出所有英雄的网址即可小节代码：

下载图片现在可以进入所有英雄的网址并爬取网址下的图片了。进入一个英雄的网址，打开开发者工具，在NetWork下刷新并找到英雄的皮肤图片。如图所示：

然后在Headers中查看该图片的网址。会发现皮肤图片是有规律的。

爬取下来的图片是这样，每个文件夹里面是该英雄对应的图片，如下图：

发表于: 2018-07-272018-07-27 18:11:30
原文链接：https://kuaibao.qq.com/s/20180727A1GRRE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

多年开发工程师做的爬虫笔记，抓紧时间速度收藏！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐