爬虫抓取页面图片 update

文章来源：企鹅号 - 码农兄弟

这两天对前面的程序进行小修小补，终于解决掉了B站抓取的问题，并且增加了一键下载功能，终于再也不用挨个鼠标点击下载了！

说说遇到的几个问题，第一是b站专栏图片抓取问题。这次是按步检测结果，然后判断问题所在，在页面读取上发现并没有问题，也就是说并没有采取ajax等防爬，所以问题还是出在图片上，直接抓img的data-src属性信息，发现地址并没有http头，所以加上http头，图片问题就解决了一半。

另一半问题是图片显示问题。单独创建一个html文件，并添加img标签，src指向图片地址。若用本地方法打开html文件，图片显示成功；若在服务器端打开，则请求会被403 Forbidden，由此判断是采用了防盗链技术。经搜索问题解决方案，因为服务器会检测访问图片的referer，所以在html头加入，即可解决。

还有个简单的正则应用，如何从一个图片地址中剥离出图片名称，比如http://www.abcbit.com/s/img/16c352acbfef798d0.jpg

我自己写的是这个：\/([^/]+\.\w+$) ，如果有更好的方法欢迎交流

一天写上一点点，有进步就好

发表于: 2018-02-232018-02-23 22:39:27
原文链接：http://kuaibao.qq.com/s/20180223G195ZK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

爬虫抓取页面图片 update

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐