首页
学习
活动
专区
工具
TVP
发布

数据小魔方

专栏作者
471
文章
1034166
阅读量
142
订阅数
R语言抓包实战——知乎live二级页面获取
之前曾经写过一篇关于知乎live课程信息爬取的短文,那个直接遍历的知乎live主页上展示的部分课程,仅仅是很小的一部分。 今日这一篇将是该小项目的升级版,直接对live主页的课程按照模块进行二级页面的遍历,这样可以抓取更加丰富的课程信息,本次一共获取课程数目将近800+ 对于课程页抓包分析详情,这里不再赘述,想要了解的可以看这一篇旧文,本篇内容仅对二级页面的遍历思路进行整理。 R语言爬虫实战——知乎live课程数据爬取实战 因为课程数相对较多,这里使用cookie直接登录,需要获取cookie值。 lib
数据小磨坊
2018-04-12
1.2K0
R语言网络数据抓取的又一个难题,终于攻破了!
单纯从数据抓取的逻辑来讲(不谈那些工程上的可用框架),个人觉得R语言中现有的请求库中,RCurl和httr完全可以对标Python中的urllib和reuqests(当然py中在错误处理和解析框架上显得更为专业!)。 我们经常使用的网络数据抓取需求,无非两种: 要么伪造浏览器请求 要么驱动浏览器请求 对于伪造浏览器请求而言,虽然请求定义里有诸多类型,但是实际上爬虫用到的无非就是GET请求和POST请求。 而驱动浏览器就几乎没有什么门槛了,所见即所得,R语言中的RSelenium/Rwebdriver和Py
数据小磨坊
2018-04-11
3K0
RCurl中这么多get函数,是不是一直傻傻分不清!!!
你想知道R语言中的RCurl包中一共有几个get开头的函数嘛,今天我特意数了一下,大约有十四五个那么多(保守估计)! 所以如果对这个包了解不太深入的话,遇到复杂的数据爬取需求,自然是摸不着头脑,心碎一地~_~ 实际上很多我们都不常用,常用的不超过五个,而且这些函数命名都很有规律,一般是类似功能的名称中都有统一的关键词标识,只要理解这些关键词,很好区分,下面我对9个可能用到的get函数简要做一个分类。 第一类是get请求函数(参数直接写在URL里面) getURL #get请求的一般
数据小磨坊
2018-04-11
2.3K0
扒一扒rvest的前世今生!
rvest包可能是R语言中数据抓取使用频率最高的包了,它的知名度和曝光度在知乎的数据分析相关帖子和回答中都很高。 甚至很多爬虫教程和数据分析课程在讲解R语言网络数据抓取时,也大多以该包为主。 坦白的说,rvest的确是一个很好地数据抓取工具,不过他的强项更多在于网页解析,这一点儿之前就有说到。 你可能惊艳于rvest强大的解析能力,有两套解析语法可选(Xpath、css),短短几个关键词路径就可以提取出来很重要的数据。 但肯定也遇到过有些网页明明数据就摆在那里,通过Chrome开发者工具(或者selecto
数据小磨坊
2018-04-11
2.6K0
Python网络数据抓取实战——Xpath解析豆瓣书评
前两篇我详细的讲解了CSS和XPath表达式在网页解析中的用法,但是都是以列举和解释为主,并没有用于解决实战问题,今天这一篇,我使用urllib+lxml工具组合,结合XPath表达式来做一个小案例。
数据小磨坊
2018-04-11
1.2K0
R语言数据抓取实战——RCurl+XML组合与XPath解析
经常有小伙伴儿跟我咨询,在使用R语言做网络数据抓取时,遇到空值和缺失值或者不存在的值,应该怎么办。 因为我们大多数场合从网络抓取的数据都是关系型的,需要字段和记录一一对应,但是html文档的结构千差万别,代码纷繁复杂,很难保证提取出来的数据开始就是严格的关系型,需要做大量的缺失值、不存在内容的判断。 如果原始数据是关系型的,但是你抓取来的是乱序的字段,记录无法一一对应,那么这些数据通常价值不大,今天我以一个小案例(跟昨天案例相同)来演示,如何在网页遍历、循环嵌套中设置逻辑判断,适时的给缺失值、不存在值填充预
数据小磨坊
2018-04-11
2.3K0
用R语言照葫芦画瓢撸了一个简易代理~
最近正在刻苦的学习爬虫,陆陆续续的学习了正则表达式、xpath、css表达式,基本可以胜任R语言中的RCurl+XML、httr+rvest组合爬虫的需求,对GET请求和POST请求的构造和表单提交以及浏览器抓包、模拟登陆、异步加载也做了一些梳理,因为爬虫知识的通用性,所以在入门Python阶段直接就开始练习urllib+lxml、requests+BeautifulSoup。 爬虫的入门也算有了一点儿小小的心得,下一步计划在不断练习巩固现有知识的同时、对服务器的反反爬进行探索,这里涉及到如何使用随机age
数据小磨坊
2018-04-11
1K0
Python数据抓取与可视化实战——网易云课堂人工智能与大数据板块课程实战
本篇内容数据抓取对象为网易云课堂人工智能与大数据板块课程信息,使用的工具是urllib+postman,因为直接构建的POST抓取的josn数据包,所以数据抓取的代码非常简单,没有繁杂的xpath或者css表达式。可视化部分使用matplotlib,感谢刘顺祥大神的matplotlib教程系列,让我没怎么费力气就直接复用了大量代码! https://mp.weixin.qq.com/s/E_r5ZsV9HOyuhnFwqsRXeA 以下是数据抓取部分代码: import json,time from url
数据小磨坊
2018-04-11
1.3K0
R语言爬虫实战——网易云课堂数据分析课程板块数据爬取
R语言的爬虫生态虽然与Python相比要弱小很多,but,如果你真的想要用R干一些有趣的事情,那么R语言目前所具有的的网络爬取工具也能给你带来很多方便。 今天借着中秋节的兴致,用网易云课堂 全部课程>编程开发>人工智能与大数据>数据分析 模块的课程作为实战对象,来给大家演练一下如何使用R语言httr包实现异步加载和POST 表单提交以及cookies登入。 直接使用json或者其他格式的表单返回值,避免苦逼的的书写大量正则表达式以及让人眼花缭乱的 CSS表达式、Xath路径表达式。这应该是每一个爬虫练
数据小磨坊
2018-04-11
1.5K0
R语言数据清洗实战——世界濒危遗产地数据爬取案例
最近重复新翻阅R语言领域唯一一本关于网络数据采集的参考书——《基于R语言的自动数据收集》,开篇就是一个数据爬取的案例。 尽管之前已经粗略的看过一遍,但是仍感书中诸多细节不甚理解,还有平时过于眼高手低,第一遍看的时候只是动眼却不动手,案例几乎很少做过,准备刷第二遍,案例也打算仔仔细细的过一遍,做的时候才发现作者书中代码有些部分已经无法运行,还是需要自己去一点儿一点儿倒腾。 library("XML") library("stringr") library("RCurl") library("dplyr") l
数据小磨坊
2018-04-11
2K0
R语言爬虫实战——知乎live课程数据爬取实战
本文是一篇R语言爬虫实战练习篇,同样使用httr包来完成,结合cookies登录、表单提交、json数据包来完成整个数据爬取过程,无需书写复杂的xpath、css路径甚至繁琐的正则表达式(尽管这三个技能对于数据爬取而言意义非凡)。 之前已经演练过如何使用httr来完成网易云课堂的课程爬取,其中用到POST方法和表单提交。 今天爬取对象是知乎live课程信息,用到的GET方法,结合cookies登录和参数提交来完成,这一篇会给大家稍微涉猎一些细节技巧。 library("httr") library("dp
数据小磨坊
2018-04-11
1.3K0
网易云课堂Excel课程爬虫思路
由于即将毕业,马上进入职场,想来是时候需要巩固一下基本职场技能了,特别是Excel这种杀手级职场应用。 可是如今网络这么发达,到处都充斥着Excel课程、视频、教程,真的很容易让人眼花缭乱,不知所措。 看书来的太慢了,还是直接看视频吧,简单粗暴,学习之前总要熟悉一下Excel教学行业的大致情况吧,今天就拿网易云课堂的Excel板块作为目标,在练习数据爬取的同时,顺便了解一下Excel培训行业的行情,知己知彼才能百战不殆,才能更加集中精力的学习那些精品课程。 url<-"http://study.163.c
数据小磨坊
2018-04-11
1.9K0
同时用R语言和Python爬取知乎美图
学习Python已有两月有余,是时候检验下学习效果了,之前练习了不少R语言数据爬取,Python的爬虫模块还没有来得及认真入门,乱拼乱凑就匆忙的开始了,今天就尝试着使用R+Python来进行图片爬取,
数据小磨坊
2018-04-11
1.1K0
一言不合就爬虫系列之——爬取小姐姐的秒拍MV
大连的盛夏实在是热的让人心烦(对于我这种既怕热又怕冷的真的没地呆了)。 再加上令人头疼的毕业论文,这种日子怎能缺少MV来解暑呢。 既然要听,怎么只听一首呢,既然学了爬虫怎么让技能荒废呢。 好吧,烦躁的
数据小磨坊
2018-04-11
1.5K0
Word天呀,气泡图居然还有这种操作~
在之前写实习僧爬虫可视化案例之时,曾经用过一个很类似气泡图的图表——气泡云图(superbubble)。 它的图表信息呈现与文字云非常相似,都是在控制一组元素的大小,文字云的大小是文字,气泡云图的大小是形状(气泡)。 虽然看起来,它与普通气泡图比起来非常相似,但是实质上数据信息含量已经大相径庭,气泡图实际上使用了三个指标变量,而气泡云图仅适用了两个(而且仅有大小变量是数值型的)。 实际上以上对比是为了启发大家一种认识图表的思路: 通常情况下,我们被各种课程或者书籍指导着,认识到的可视化无一例外的是从数据如何
数据小磨坊
2018-04-11
1.2K0
学习R语言我都做了哪些有趣的事情!!!
学习R语言已经整整一年光景了, 是时候整理一下自己学习以来的收获和成就。 虽然一直学的很专注(一直埋头在可视化的小圈子了,总感觉这样是停留在舒适区,也许外面的风景会更好),但是专注有专注的好处,就是
数据小磨坊
2018-04-11
1.1K0
实习僧招聘网爬虫数据可视化
我本来对实习僧网站是没什么好感的,因为之前自己在实习僧上投的实习简历几乎全部都石沉大海了(一个文科生偏要去投数据分析岗不碰壁才怪~_~)! 然鹅看到最近知乎爬虫圈儿里的两大趋势:爬美图;爬招聘网站。 后来大致了解下了,几乎各类大型的招聘文章都被别人爬过了,自己再去写免不了模仿之嫌,而且大神们都是用Python去爬的(Python我刚学会装包和导数据),自己也学不来。 现在只能选一个还没怎么被盯上的招聘网站,没错就它了——实习僧。 http://www.shixiseng.com/ 说老实话,实习僧的网站做的
数据小磨坊
2018-04-11
1.3K0
用R语言抓取网页图片——从此高效存图告别手工时代
今天这个标题实在是有点言过其实了,对于R的爬虫知识,我只是领会了一点儿皮毛。 主要看不懂正则表达式,特别是那种一个括号里要匹配多种类型文本的语句,特像火星文,估计短期很难搞懂了。 再加上对于HTML结构没啥感觉,在目标定位上很苦恼。 但是相对于文本信息而言,图片在html中的地址比较好获取,这里仅以图片抓取为例,会Python爬虫的大神还求轻喷~ 今天要爬取的是一个多图的知乎网页,是一个外拍的帖子,里面介绍了巨多各种外拍技巧,很实用的干货。 library(rvest) library(downloader
数据小磨坊
2018-04-03
2.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档