前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >经历过绝望之后,选择去知乎爬了几张图~

经历过绝望之后,选择去知乎爬了几张图~

作者头像
数据小磨坊
发布2018-04-11 16:27:05
9320
发布2018-04-11 16:27:05
举报
文章被收录于专栏:数据小魔方

本来今天要跟大家分享怎么批量爬取2016年各大上市公司年报的,可是代码刚写了开头,就发现年报这玩意儿,真的不太好爬,还以为自己写的姿势不对,换了好几个网站。

眼睁睁的开着网页源码里排的整整齐齐的pdf文档,可是就是爬不到,NND,还是火候不够,本来打算放弃的,可是想着不干点什么太没成就感了,就跑去知乎爬了人家几张图。

之前分享过知乎爬图的代码,当时利用的Rvest爬的,今天换RCurl+XML包来爬,也算是新知识点了。

用R语言抓取网页图片——从此高效存图告别手工时代

因为害怕爬太多,会被禁IP,毕竟知乎每天必看的,被禁了那就不好了,特意选了个图片不多的摄影外拍的帖子。

https://www.zhihu.com/question/31785374/answer/150310292

代码一共没几行,很好理解,可以作为学习的案例:

#加载包:

library("RCurl") library(XML) library(stringr) library(dplyr) library(plyr)

爬取过程:

url<-"https://www.zhihu.com/question/31785374/answer/150310292" #获取目标网页(注意查看网页编码) rd <-getURL(url,.encoding="UTF-8") #利用xml包函数整理网页树结构 rdhtml <- htmlParse(rd,encoding="UTF-8") #获取根目录 root <- xmlRoot(rdhtml) #获取话题下的所有img标签(里面含有所有的图片网址) Name<-getNodeSet(root,"//div[@class='zm-editable-content clearfix']/img")

#根据Name列表中的内容,img下面有关于三个带图片网址的属性,第一个src是打开帖子直接看到的,后两个data-original\data-actualsrc是该图片的原地址,就是点击图片后大图的网址。

#这里选择data-original网址,利用拉laply函数提取该属性下的网址列表。 Name1 <-laply(Name,xmlGetAttr,name='data-original') #为方便命名,这里截取一部分图片网址后缀作为名称 Name2<-sub("https://pic\\d.zhimg.com/v2-","",Name1)

#建立新文件夹

dir.create("D:/R/Image/zhihu/image") #使用for循环批量下载: for(i in 1:length(Name1)){ download.file(Name1[i],paste0("D:/R/Image/zhihu/image/",Name2[i],sep = ""), mode = "wb") }

最终收获:

爬图的核心要点:

  • 抓img下的图片网址,这里你要学会迅速的进行html结构定位,无论是使用CSS选择器还是Xpath路径,都要稳、准、狠!这是决定你整过过程的首要任务。
  • 建立批量下载任务:无论是使用for循环还是使用其他的向量化函数都可以,图多的话还是建议尝试使用apply组函数或者plyr包内的升级版apply函数族。
  • 如果网页结构复杂且图比较多,可能要考虑伪装报头、设置随机暂停以防被封IP。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据小魔方 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档