R语言爬虫初尝试-基于RVEST包学习

在学完coursera的getting and Cleaning data后,继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。。。

言归正传,拿了几个网页练手。包括对拉勾网爬了一下虫,还尝试了对国外某黄页爬虫,对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段(我查的那个卖家,卖8.99和39.99最多,鞋子类),做了一下文本挖掘,还有爬了一下股票数据,基金买入情况等等。

之所以放拉勾网为例子,因为这个大家都比较熟一点?其他的都有点小众=_=而且虽然我没有跳槽的心,但年初却是很多人跳槽的热点。另外,因为之前听人说过,要了解一个公司的动态,有一个办法是去看这个公司放出来的招聘岗位,可以知道他们最近哪个业务线要扩张了,哪个业务线要跑人了,以及了解技术需求。

rvest基础语法:

library(rvest)
lagou<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn=3"web<-html(lagou,encoding="UTF-8") #读取数据,规定编码#之前我是用关键字搜索,阅读html代码,获得html_nodes里需要什么属性,不过许多浏览器有开发者工具,可以直接获得层级信息。如遨游

position<-web %>% html_nodes("li div.hot_pos_l a") %>% html_text()#上面就是直接读取数据,获得位置信息#不过在后面做其他网站时发现,有时候信息储存在同类数据里(如div没有class等等),建议是找一个大的分类,先获得表格信息,再做数据

list_lagou<-web %>% html_nodes("li.clearfix")#这里正确找准正确的划分点很重要。有<li class="odd clearfix">,其实用li.clearfix一样可以取(对于空格二选一,如"li.odd"或者"li.clearfix")#接下来的company/position照选即可,因为事先已经分好了list,所以每一个出多少心里有数。。

在讲完原理之后,现在开始尝试写代码

因为里面涉及太多的选取数据工作。为了避免出现太多变量,我最后是编了一个函数,输出数据库

函数部分

#下面开始写代码,首先写一个函数getdata,会输出一个数据框

getdata<-function(page,urlwithoutpage){
        url=paste0(urlwithoutpage,page) #这里输入拉勾网没有页码的url
        web<-html(url,encoding="UTF-8") #读取数据,规定编码,access用
        list_lagou<-web %>% html_nodes("li.clearfix") #获得一个清单,15个职位
        title<-list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_text()
        company<-list_lagou %>% html_nodes("div.hot_pos_r div.mb10 a")%>%html_text()
        link<-gsub("\\?source\\=search","",list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_attr("href"))#接下来的由于数据都存在span里,没有很好的划分。这个取数要复杂一些。我在这里,研究他们的表,先取15个完整list,然后用seq等序列取数#之后要研究是否有更好的方法#如果有table,可以直接用data.table取数更快。。。


        temp<-list_lagou %>% html_nodes("div.hot_pos_l span")
        city<-temp[seq(1,90,by=6)] %>% html_text()
        salary<-gsub("月薪:","",temp[seq(2,90,by=6)]%>% html_text())
        year<-gsub("经验:","",temp[seq(3,90,by=6)]%>% html_text())
        degree<-gsub("最低学历:","",temp[seq(4,90,by=6)]%>%html_text())
        benefit<-gsub("职位诱惑:","",temp[seq(5,90,by=6)]%>% html_text())
        time<-temp[seq(6,90,by=6)]%>%html_text()
        data.frame(title,company,city,salary,year,degree,benefit,time,link)
}

然后是使用该函数,我这里就爬两页

#使用该函数,library(rvest)
url<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn="final<-data.frame()for (i in 3:5){
        final<-rbind(final,getdata(i,url))        
} #定义个数,把上面的getdata得到的Data.frame合并head(final)
上面完成了第一个列表。爬出效果如图


关于这个数据有什么用呢…… 简单来说,我们可以用它来看这个网上有多少在招的,各公司招人的比例,以及薪资水平,做一点基础的数据分析。

虽然我现在不跳槽,不过了解一下市场状况也是不错的~譬如见下图,从目前这网上的平均薪资与工作年限的关系来看,数据分析岗至少在职位前五年属于薪资增长期,初始涨得快,后面涨得慢,但平均应有13%左右的增长?然后这网上目前没有什么高级岗位开出来(工作5-10年的岗位很少),反而是有些公司搞错分类,放了一堆数据录入的到数据分析栏目。。。

值得一提的是,因为数据分析这个类目里包含了不同的类别,如数据录入的也被归到数据分析,还有高薪也被归到这里,所以不能完全按这个做参考。不过这个研究让我深刻体会到了爬虫的有效性!好玩!实用!可以用到工作中去:) 还可以像个猎头一样了解人才市场~~做个有情调的数据分析师~~

另外,其实我们还可以遍历JD,看近期是什么技术最吃香,是R还是Python还是SQL还是SAS还是别的啥啥啥。下面是我随机抽了个JD做的爬虫。可以直接拿到相关数据。

final[1,9]## [1] http://www.lagou.com/jobs/378361.html## 45 Levels: http://www.lagou.com/jobs/113293.html ...url<-as.character(final[1,9])
w<-html(url,encoding = "UTF-8")
d<-w %>% html_nodes("dd.job_bt p") %>% html_text()
d## [1] "1.金融、计算机、财务、经济相关专业;"## [2] "2.有证券从业资格证者优先;"          ## [3] "3.想从事文职类工作,对办公软件熟悉;"## [4] "4.可接收已拿到学历证的应届毕业生。"  ## [5] "<U+00A0>"

注意事项:

  1. 对于被编码保护的数据(如国外yellow.local.ch,email被编码保护了。需要用 decodeURIComponent函数反编译。)
  2. xpath语句对html_nodes适用。但是它好像是全局语句。。就是如果用div[1]//span[4]取数的话,它直接就只出全局的那个结果。。。
  3. 取数,可以用li.da或者li.daew取数,两者等价
  4. 正则表达式很有用!!尤其是对网页数据,某些不会写,或者技术高超不愿意被我们爬虫的工程师,用rvest去抓数据,会抓到一堆堆乱码= =这几天练习下来感受到了无尽恶意
  5. 中文,html(data,encoding='UTF-8')还有iconv(data,'utf-8','gbk')可以有效避免大部分乱码。但是R对中文支持真的很渣。
  6. rvest对于静态抓取很方便!但是对于脚本访问的网页,还需要继续学习RCurl包。备查资料如下:
  • javascript数据提取-RCurl包-戴申: 介绍对脚本解析后抓取数据经验
  • RCurl提取统计之都论坛数据演示-medo

  等学会了再写总结。

以及最后的最后,近期研究重点应该是IT金融?受张丹老师的两条均线与R语言)鼓舞好大!我觉得学R嘛,用到实处才是重要的!玩爬虫玩的太开心都没跟JHU的课了。。。。

以后可以尝试按照自己和老爸的看股票习惯开发出类似的选股模型来~~

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-08-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏上善若水

007-golang-GO 编程高手的五个阶段

第一个阶段(菜鸟): 刚刚学习了这门语言。 已经通过一些教程或者培训班了解基本的语法,可以写短的代码片段。

2143
来自专栏有趣的django

CRM客户关系管理系统(一) 第一章、CRM介绍和开发流程第二章、CRM项目表结构设计

7930
来自专栏程序人生

是时候想想该怎么删代码了

武林外传里秀才怼上姬无命,来了一段关于「我是谁」的精彩逼问。 我是谁?我生从何来,死往何处,我为何要出现在这个世界上?我的出现对这个世界来说意味着什么,是世界选...

35511
来自专栏玉树芝兰

如何用Python和R对《权力的游戏》故事情节做情绪分析?

想知道一部没看过的影视剧能否符合自己口味,却又怕被剧透?没关系,我们可以用情绪分析来了解故事情节是否足够跌宕起伏。本文一步步教你如何用Python和R轻松愉快完...

1412
来自专栏牛客网

从0offer到一天谈完薪资,几乎结束秋招,前端面经回馈牛客

个人是双非渣本,没有实习经历,但是自己的项目经验巨多,之前是搞算法的,后来转向前端

1362
来自专栏FreeBuf

Funny的多媒体文件隐写题

前不久参加某网络安全竞赛,在上午的理论考试和CTF中被虐的体无完肤,不仅因为参赛者的实力强大,更是因为出题者的脑袋“骨骼精奇”,很多题目的解答思路都很新奇。

1196
来自专栏牛客网

新疆学子的腾讯后台开发的面经

4月26日收到了腾讯的offer,终于安心了,很多小伙伴们要我写面经介绍下,其实自己能拿到腾讯的offer 99%是运气~, 这里就介绍下自己的面经跟总结自己的...

4236
来自专栏牛客网

这可能不只是一篇面经!2万字干货分享校招备战、笔试、面试的详细经验(下)

上接:http://www.jianshu.com/p/deae97625ea7 最后是面试中的技巧和经验。 1、好好对着自己写的简历一行一行看一遍,这都是你挖...

8336
来自专栏IT派

我用 Python 爬取微信好友,最后发现一个大秘密

你身处的环境是什么样,你就会成为什么样的人。现在人们日常生活基本上离不开微信,但微信不单单是一个即时通讯软件,微信更像是虚拟的现实世界。你所处的朋友圈是怎么样,...

1514
来自专栏DevOps时代的专栏

图解:云原生应用架构The 12-Factor App准则

云原生应用凭借”快速运行环境整备、故障隔离、容错、自动故障恢复、易于随用户数量增多而进行容量伸缩、便于移动和多种客户端应用访问“等优势[1]在现代软件开发领域迅...

3675

扫码关注云+社区