这两天对前面的程序进行小修小补,终于解决掉了B站抓取的问题,并且增加了一键下载功能,终于再也不用挨个鼠标点击下载了!
说说遇到的几个问题,第一是b站专栏图片抓取问题。这次是按步检测结果,然后判断问题所在,在页面读取上发现并没有问题,也就是说并没有采取ajax等防爬,所以问题还是出在图片上,直接抓img的data-src属性信息,发现地址并没有http头,所以加上http头,图片问题就解决了一半。
另一半问题是图片显示问题。单独创建一个html文件,并添加img标签,src指向图片地址。若用本地方法打开html文件,图片显示成功;若在服务器端打开,则请求会被403 Forbidden,由此判断是采用了防盗链技术。经搜索问题解决方案,因为服务器会检测访问图片的referer,所以在html头加入,即可解决。
还有个简单的正则应用,如何从一个图片地址中剥离出图片名称,比如http://www.abcbit.com/s/img/16c352acbfef798d0.jpg
我自己写的是这个:\/([^/]+\.\w+$) ,如果有更好的方法欢迎交流
一天写上一点点,有进步就好
领取专属 10元无门槛券
私享最新 技术干货