首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫抓取页面图片 update

这两天对前面的程序进行小修小补,终于解决掉了B站抓取的问题,并且增加了一键下载功能,终于再也不用挨个鼠标点击下载了!

说说遇到的几个问题,第一是b站专栏图片抓取问题。这次是按步检测结果,然后判断问题所在,在页面读取上发现并没有问题,也就是说并没有采取ajax等防爬,所以问题还是出在图片上,直接抓img的data-src属性信息,发现地址并没有http头,所以加上http头,图片问题就解决了一半。

另一半问题是图片显示问题。单独创建一个html文件,并添加img标签,src指向图片地址。若用本地方法打开html文件,图片显示成功;若在服务器端打开,则请求会被403 Forbidden,由此判断是采用了防盗链技术。经搜索问题解决方案,因为服务器会检测访问图片的referer,所以在html头加入,即可解决。

还有个简单的正则应用,如何从一个图片地址中剥离出图片名称,比如http://www.abcbit.com/s/img/16c352acbfef798d0.jpg

我自己写的是这个:\/([^/]+\.\w+$) ,如果有更好的方法欢迎交流

一天写上一点点,有进步就好

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180223G195ZK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券